阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

理解 %IOWAIT (%WIO)

35次阅读
没有评论

共计 2209 个字符,预计需要花费 6 分钟才能阅读完成。

本文由 LinuxProbe.Com 团队成员 魏丽猿 整理发布,原文来自:Linux Performance。

%iowait 是“sar -u”等工具检查 CPU 使用率时显示的一个指标,在 Linux 上显示为 %iowait,在有的 Unix 版本上显示为 %wio,含义都是一样的, 这个指标常常被误读,很多人把它当作 I / O 问题的征兆,我自己每隔一段时间就会遇到对 %iowait 紧张兮兮的客户,不得不费尽唇舌反复解释,事实上这个指标所含的信息量非常少,不能单独用来判断系统有没有 I / O 问题,在此我们详细探讨一下它真正的含义,先从 man page 上的解释开始:

09:35:06 AM     CPU     %user     %nice   %system   %iowait    %steal     %idle
09:35:07 AM     all      0.00      0.00      0.00      0.00      0.00    100.00
09:35:08 AM     all      0.51      0.00      2.53     13.13      0.00     83.84
09:35:09 AM     all      1.54      0.00      7.69     39.49      0.00     51.28
09:35:10 AM     all      2.04      0.00      9.18     39.80      0.00     48.98
09:35:11 AM     all      1.02      0.00      7.65     40.31      0.00     51.02

下面是 man page 中的部分解释:

 

  • Linux:

 

 

%iowait
Percentage of time that the CPU or CPUs were idle during
which the system had an outstanding disk I/O request.

 

  1. HP-UX:

 

%wio
idle with some process waiting for I/O (only block I/O, raw
I/O, or VM pageins/swapins indicated).

Linux 和 HP-UX 的 man page 分别从两个角度描述了这个指标:Linux 着眼于 I /O,强调的是仍有未完成的 I / O 请求;而 HP-UX 着眼于进程,强调的是仍有进程在等待 I /O, 二者所说的是同一件事的两个方面,如果合在一起就完整了,就是:至少有一个 I / O 请求尚未完成,有进程因为等待它而休眠, 我们不妨采纳 Linux 的措辞,%iowait 表示在一个采样周期内有百分之几的时间属于以下情况:CPU 空闲、并且有仍未完成的 I / O 请求。
对 %iowait 常见的误解有两个:

 

  • 是误以为 %iowait 表示 CPU 不能工作的时间

 

 

 

    这种误解太低级了,%iowait 的首要条件就是 CPU 空闲,既然空闲当然就可以接受运行任务,只是因为没有进程可以运行,CPU 才进入空闲状态的。那为什么没有进程可以运行呢?因为进程都处于休眠状态、在等待某个特定事件:比如等待定时器、或者来自网络的数据、或者键盘输入、或者等待 I / O 操作完成,等等。

 

  • 是误以为 %iowait 表示 I / O 有瓶颈问题

 

 

 

    为什么人们会认为 %iowait 偏高是有 I / O 问题的迹象呢?他们的理由是:”%iowait 的第一个条件是 CPU 空闲,意即所有的进程都在休眠,第二个条件是仍有未完成的 I / O 请求,意味着进程休眠的原因是等待 I /O,而 %iowait 升高则表明因等待 I / O 而休眠的进程数量更多了、或者进程因等待 I / O 而休眠的时间更长了。“听上去似乎很有道理,但是不对:首先 %iowait 确实表示 CPU 空闲、所有进程都在休眠,也确实有的进程在等待 I /O,然而 %iowait 升高并不能证明等待 I / O 的进程数量增多了,也不能证明等待 I / O 的总时间增加了。

为什么呢?看看下面两张图就明白了:
理解 %IOWAIT (%WIO)
第一张图演示的是: 在 I / O 完全一样的情况下,CPU 忙闲状态的变化就能够影响 %iowait 的大小,图中我们看到,在 CPU 繁忙期间发生的 I /O,无论有多少,%iowait 的值都是不受影响的(因为 %iowait 的第一个前提条件就是 CPU 必须空闲);当 CPU 繁忙程度下降时,有一部分 I / O 落入了 CPU 空闲的时间段内,这就导致了 %iowait 升高,可见,I/ O 并没有变化,%iowait 却升高了,原因仅仅是 CPU 的空闲时间增加了,请记住,系统中有成百上千的进程数,任何一个进程都可以引起 CPU 和 I / O 的变化,因为 %iowait、%idle、%user、%system 等这些指标都是全局性的,并不是特指某个进程。
理解 %IOWAIT (%WIO)
再看第二张图,它描述了另一种情形:假设 CPU 的繁忙状况保持不变的条件下,即使 %iowait 升高也不能说明 I / O 负载加重了,如果 2 个 I / O 请求依次提交、使得整个时段内始终有 I / O 在进行,那么 %iowait 是 100%;如果 3 个 I / O 请求同时提交,因为系统有能力同时处理多个 I /O,所以 3 个并发的 I / O 从开始到结束的时间与一个 I / O 一样,%iowait 的结果只有 50%;2 个 I / O 使 %iowait 达到了 100%,3 个 I / O 的 %iowait 却只有 50%,显然 %iowait 的高低与 I / O 的多少没有必然关系,而是与 I / O 的并发度相关,所以,仅凭 %iowait 的上升不能得出 I / O 负载增加 的结论。

这就是为什么说 %iowait 所含的信息量非常少的原因,它是一个非常模糊的指标,如果看到 %iowait 升高,还需检查 I / O 量有没有明显增加,avserv/avwait/avque 等指标有没有明显增大,应用有没有感觉变慢,如果都没有,就没什么好担心的。

阿里云 2 核 2G 服务器 3M 带宽 61 元 1 年,有高配

腾讯云新客低至 82 元 / 年,老客户 99 元 / 年

代金券:在阿里云专用满减优惠券

正文完
星哥说事-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2024-07-25发表,共计2209字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中