当前位置:首页 > 文章列表 > 文章 > linux > Linux 磁盘 IO 飙高怎么办:从 iostat 到 pidstat 一步步定位

Linux 磁盘 IO 飙高怎么办:从 iostat 到 pidstat 一步步定位

来源:17golang原创 2026-06-16 16:33:58 0浏览 收藏

Linux 服务器突然变慢时,很多人第一反应会看 CPU 和内存。但有一类问题更隐蔽:CPU 不算高,内存也够,接口却越来越慢,登录服务器后连简单命令都反应迟缓。这时磁盘 IO 很可能已经顶满。

这篇文章按一次真实排查思路来走:先从接口变慢的现象入手,用 iostat 判断磁盘是否繁忙,再用 pidstat 找到持续写盘的进程,最后通过限速清理、迁移写入目录和复查指标确认恢复。

摘要

Linux 磁盘 IO 飙高时,不要只看磁盘剩余空间。先用 iostat -xz 1 3%utilawait 和队列指标,再用 pidstat -d 1 5 找出正在大量读写的进程。定位到目录后,再决定是限速清理、压缩归档、迁移写入路径,还是调整应用日志策略。

适合人群

  • 负责 Linux Web 服务、任务服务、日志服务的开发和运维人员。
  • 遇到接口变慢、任务堆积、磁盘灯持续闪烁但 CPU 不高的读者。
  • 想把磁盘 IO 排查流程整理成固定检查清单的团队成员。
目录
  • 问题现场:接口变慢但 CPU 不高
  • 第一步观察:用 iostat 判断磁盘是否顶满
  • 第二步验证:用 pidstat 找写盘进程
  • 第三步定位:确认写入目录和文件增长
  • 修复方案:限速清理、迁移写入和复查指标
  • 常见误区
  • 总结检查清单

问题现场:接口变慢但 CPU 不高

我们先看现象。业务方反馈报表接口从 200ms 变成 10 秒以上,部分请求还出现超时。登录服务器后先看负载,发现 load average 偏高,但 CPU 使用率并没有明显打满。

uptime
top

这时不要急着判断是代码慢。load 偏高但 CPU 不高,常见原因之一就是进程在等待磁盘读写。应用日志、临时文件、报表导出、备份任务、批量压缩都可能让磁盘处于高等待状态。

Linux 磁盘 IO 飙高导致接口变慢,并通过 iostat、pidstat、日志目录定位后恢复稳定

这一步说明,我们需要把排查方向从 CPU 切到磁盘。接下来先确认磁盘是否真的繁忙,再找是谁在持续读写。

第一步观察:用 iostat 判断磁盘是否顶满

第一条线索来自 iostat。它可以看到每块磁盘的利用率、等待时间和队列情况。排查时不要只看一次瞬时结果,建议连续采样几次。

iostat -xz 1 3

重点看这几个指标:

指标 含义 排查意义
%util 设备繁忙程度 长期接近 100% 说明磁盘很忙
await 请求平均等待时间 明显升高说明 IO 等待变长
avgqu-sz 平均队列长度 队列增长说明请求在排队
r/sw/s 每秒读写次数 帮助判断是读多还是写多

如果 %util 持续很高,await 也明显升高,就可以基本确认接口慢和磁盘等待有关。现在的问题变成:是哪一个进程在制造这些 IO?

第二步验证:用 pidstat 找写盘进程

接着验证进程维度。pidstat 可以按进程展示磁盘读写情况,适合从系统指标追到具体程序。

pidstat -d 1 5

输出里重点看进程名、PID、每秒读写量。假设看到某个日志处理进程或报表进程写入量长期很高,就继续往下查它打开了哪些文件。

lsof -p 12345

如果 lsof 里大量文件集中在 /var/log/app/data/export 或某个临时目录,那么定位范围就缩小了。到这里不要立刻删文件,先确认文件增长速度和业务用途。

第三步定位:确认写入目录和文件增长

现在可以定位到目录层面。我们要看两件事:哪些目录最大,哪些文件还在持续增长。

du -sh /var/log/* | sort -h | tail -20
find /var/log/app -type f -size +500M -print
ls -lh /var/log/app

如果某个日志文件持续增长,可以间隔几秒看两次大小变化。增长特别快时,通常有三类原因:日志级别过细、异常重复打印、临时任务把结果不断写入本地磁盘。

wc -l /var/log/app/app.log
tail -100 /var/log/app/app.log

这一步要回答一个问题:这是正常的大量写入,还是异常循环写入?如果是正常清理任务导致 IO 高,要限速;如果是应用异常疯狂写日志,要先降日志量或修复异常入口。

修复方案:限速清理、迁移写入和复查指标

修复时不要做“一刀切”动作。磁盘 IO 已经很高时,暴力压缩、批量删除、整目录搬迁都可能让磁盘更忙。更稳的方式是先控制速度,再迁移写入路径,最后复查指标。

Linux 磁盘 IO 修复方案:定位进程、确认目录、限速清理、迁移写入和复查 %util

1. 对清理和归档做限速

如果是历史文件归档,优先使用带速率限制的同步或分批处理,避免一次性把磁盘打满。

rsync --bwlimit=2048 -av /var/log/app/ /data/archive/app-log/
ionice -c2 -n7 -p 12345

--bwlimit 可以限制传输速度,ionice 可以调整已有进程的 IO 优先级。实际执行前要确认进程是否允许调整,以及业务是否接受较慢的归档速度。

2. 迁移高频写入目录

如果应用把大量临时文件写到系统盘,可以把临时目录迁移到更合适的数据盘,并在应用配置里修改写入路径。迁移前要先停掉相关写入任务或让应用切换到维护窗口,避免文件一边写一边搬。

mkdir -p /data/app-tmp
cp -a /var/app/tmp/. /data/app-tmp/
mv /var/app/tmp /var/app/tmp.bak
ln -s /data/app-tmp /var/app/tmp

如果项目支持直接配置临时目录,更推荐改配置而不是依赖软链接。软链接适合过渡,长期方案还是让应用明确写入数据盘。

3. 复查关键指标

修复后不要只看接口恢复,还要回到磁盘指标确认。至少复查三项:%util 是否下降,await 是否恢复,接口耗时是否回到正常范围。

iostat -xz 1 5
pidstat -d 1 5

如果 %util 从 90% 以上降到 20% 以下,接口耗时也回落,说明这次处理有效。如果指标仍然很高,就继续追读写进程,不要只盯着刚才那个目录。

常见误区

1. 只看磁盘空间,不看磁盘等待

磁盘还剩很多空间,不代表 IO 没问题。接口慢和任务卡住经常是等待时间变长,而不是空间不足。

2. 发现大文件就立刻删除

正在被进程打开的文件即使删除,空间也可能不会马上释放,而且删除本身也可能带来额外 IO。先确认文件是否仍被打开,再决定清理策略。

3. 在高峰期跑大批量归档

归档任务看起来是维护动作,但它同样会读写磁盘。最好安排在低峰,并加上速度限制。

4. 忽略应用日志级别

异常重复打印会快速放大 IO。排查时要看日志内容,不要只看文件大小。大量相同错误反复出现时,真正要处理的是异常源头。

总结检查清单

  • 接口变慢但 CPU 不高时,先考虑 IO 等待。
  • iostat -xz 1 3%utilawait 和队列。
  • pidstat -d 1 5 找持续读写的进程。
  • lsof -p PID 和目录大小确认写入位置。
  • 清理和迁移要限速,避免修复动作继续打满磁盘。
  • 修复后复查 iostat、接口耗时和日志增长速度。

回到最开始的问题:Linux 磁盘 IO 飙高不是靠猜出来的,要按“系统指标、进程指标、目录文件、修复复查”这条线走。这样既能快速找到写盘源头,也能避免清理动作本身带来新的抖动。

版本声明
本文转载于:17golang原创 如有侵犯,请联系study_golang@163.com删除
Python requests 请求一直卡住怎么办:timeout、状态码和重试一步步排查Python requests 请求一直卡住怎么办:timeout、状态码和重试一步步排查
上一篇
Python requests 请求一直卡住怎么办:timeout、状态码和重试一步步排查
前端轮询接口越打越多怎么办:从重复定时器到清理机制一步步排查
下一篇
前端轮询接口越打越多怎么办:从重复定时器到清理机制一步步排查
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ljg-skills -
    ljg-skills
    ljg-skills 是李继刚开源的 AI 技能与提示词集合,面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板,适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。
    86次使用
  • MELO音乐 - AI 音乐生成平台,支持多模态创作能力
    MELO音乐
    MELO音乐是一站式AI视频与音乐制作助手,对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐,MELO为你免费谱曲,轻松做同款!
    105次使用
  • UniScribe - AI 免费在线音视频转文字平台
    UniScribe
    UniScribe 是一款 AI 音视频转文字与内容整理工具,支持上传音频、视频文件或粘贴 YouTube 链接,自动生成转写文本、摘要、思维导图和关键问题,并支持多格式导出,适合会议记录、课程学习、访谈整理和内容创作复盘。
    98次使用
  • 剧云 - 免费 AI 智能中文剧本创作平台
    剧云
    剧云是专业中文剧本创作平台,安全稳定运行十余年,集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能,数据安全防护,轻松高效创作剧本。
    242次使用
  • 万象有声 - AI 一站式有声内容创作平台
    万象有声
    万象有声,一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具,可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验,让有声书制作更简单!
    247次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码