梦到蛇会飞:Linux系统监控工具之vmstat详解[转]

来源：百度文库编辑：偶看新闻时间：2024/04/29 23:38:07

vmstat是一个十分有用的Linux系统监控工具，使用vmstat命令可以得到关于进程、内存、内存分页、堵塞IO、traps及CPU活动的信息。
一、前言

很显然从名字中我们就可以知道vmstat是一个查看虚拟内存（Virtual Memory）使用状况的工具，但是怎样通过vmstat来发现系统中的瓶颈呢？在回答这个问题前，还是让我们回顾一下Linux中关于虚拟内存相关内容。

二、虚拟内存运行原理

在系统中运行的每个进程都需要使用到内存，但不是每个进程都需要每时每刻使用系统分配的内存空间。当系统运行所需内存超过实际的物理内存，内核会释放某些进程所占用但未使用的部分或所有物理内存，将这部分资料存储在磁盘上直到进程下一次调用，并将释放出的内存提供给有需要的进程使用。

在Linux内存管理中，主要是通过“调页Paging”和“交换Swapping”来完成上述的内存调度。调页算法是将内存中最近不常使用的页面换到磁盘上，把活动页面保留在内存中供进程使用。交换技术是将整个进程，而不是部分页面，全部交换到磁盘上。

分页(Page)写入磁盘的过程被称作Page-Out，分页(Page)从磁盘重新回到内存的过程被称作Page-In。当内核需要一个分页时，但发现此分页不在物理内存中(因为已经被Page-Out了)，此时就发生了分页错误（Page Fault）。

当系统内核发现可运行内存变少时，就会通过Page-Out来释放一部分物理内存。经管Page-Out不是经常发生，但是如果Page-out频繁不断的发生，直到当内核管理分页的时间超过运行程式的时间时，系统效能会急剧下降。这时的系统已经运行非常慢或进入暂停状态，这种状态亦被称作 thrashing(颠簸)。

三、使用vmstat

1.用法

vmstat [-a] [-n] [-S unit] [delay [ count]]

vmstat [-s] [-n] [-S unit]

vmstat [-m] [-n] [delay [ count]]

vmstat [-d] [-n] [delay [ count]]

vmstat [-p disk partition] [-n] [delay [ count]]

vmstat [-f]

vmstat [-V]

-a：显示活跃和非活跃内存

-f：显示从系统启动至今的fork数量。引申閱讀： http://www.cnblogs.com/leoo2sk/archive/2009/12/11/talk-about-fork-in-linux.html

-m：显示slabinfo

-n：只在开始时显示一次各字段名称。

-s：显示内存相关统计信息及多种系统活动数量。

delay：刷新时间间隔。如果不指定，只显示一条结果。

count：刷新次数。如果不指定刷新次数，但指定了刷新时间间隔，这时刷新次数为无穷。

-d：显示磁盘相关统计信息。

-p：显示指定磁盘分区统计信息

-S：使用指定单位显示。参数有 k 、K 、m 、M ，分别代表1000、1024、1000000、1048576字节（byte）。默认单位为K（1024 bytes）

-V：显示vmstat版本信息。

2.使用说明

例子1：每2秒输出一条结果

字段说明：

Procs（进程）：

r: 运行队列中进程数量

b: 等待IO的进程数量

Memory（内存）：

swpd: 使用虚拟内存大小(k表示)。如果swpd的值不为0，或者比较大，比如超过了100m，只要si、so的值长期为0，系统性能还是正常

free: 可用内存大小(k表示)

buff: 用作缓冲的内存大小,作为buffer cache的内存数量,一般对块设备的读写才需要缓冲。

cache: 用作缓存的内存大小,作为page cache的内存数量，一般作为文件系统的cache，如果cache较大，说明用到cache的文件较多，如果此时IO中bi比较小，说明文件系统效率比较好。

Swap：

si: 每秒从交换区写到内存的大小

so: 每秒写入交换区的内存大小

IO：（现在的Linux版本块的大小为1024bytes）

bi: 每秒读取的块数(读磁盘）（每秒kb）

bo: 每秒写入的块数（写磁盘）（每秒kb）

系统：

in: 每秒中断数，包括时钟中断。

cs: 每秒上下文切换数。

CPU（以百分比表示）：

us: 用户进程执行时间(user time),us的值比较高时，说明用户进程消耗的cpu时间多，但是如果长期大于50%，需要考虑优化用户的程序。

sy: 系统进程执行时间(system time).这里us + sy的参考值为80%，如果us+sy 大于 80%说明可能存在CPU不足。进程就会在运行队列中花费等待时间，响应时间和吞吐量就会下降

id: 空闲时间(包括IO等待时间)

wa: 等待IO时间,wa>40表明磁盘io没有也许存在不合理的平衡，或者对磁盘操作比较频繁,可以结合iostat输出来分析。

例子2：显示活跃和非活跃内存

使用-a选项显示活跃和非活跃内存时，所显示的内容除增加inact和active外，其他显示内容与例子1相同。

字段说明：

Memory（内存）：

inact: 非活跃内存大小（当使用-a选项时显示）

active: 活跃的内存大小（当使用-a选项时显示）

　　　　在Linux下有很多系统性能分析工具，比较常见的有top、free、ps、time、timex、uptime等。后续将介绍几个较为重要的性能分析工具vmstat、iostat和sar及其使用。

本文部分来源：http://hi.baidu.com/imlidapeng/blog/item/51872329329ab8335243c1c9.html

(如果r经常大于4 ，且id经常少于40，表示cpu的负荷很重。)

(如果bi，bo 长期不等于0，表示内存不足)

通过VMSTAT识别ＣＰＵ瓶颈
r（运行队列）展示了正在执行和等待CPU资源的任务个数。当这个值超过了CPU数目，就会出现CPU瓶颈了

获得CPU个数的命令(LINUX环境)：
cat /proc/cpuinfo|grep processor|wc -l
当r值超过了CPU个数，就会出现CPU瓶颈，解决办法大体几种：
1. 最简单的就是增加CPU个数
2. 通过调整任务执行时间，如大任务放到系统不繁忙的情况下进行执行，进尔平衡系统任务
3. 调整已有任务的优先级

通过VMSTAT识别ＣＰＵ满负荷
首先需要声明一点的是，vmstat中CPU的度量是百分比的。当us＋sy的值接近100的时候，表示CPU正在接近满负荷工作。但要注意的是，CPU 满负荷工作并不能说明什么，UNIX总是试图要CPU尽可能的繁忙，使得任务的吞吐量最大化。唯一能够确定CPU瓶颈的还是r（运行队列）的值。

通过VMSTAT识别ＲＡＭ瓶颈
数据库服务器都只有有限的RAM，出现内存争用现象是Oracle的常见问题。
首先察看RAM的数量，命令如下（LINUX环境）：
[oracle@oracle-db02 ~]$ free
         total    used    free     shared buffers     cached
Mem:    2074924 2071112    3812       0    40616      1598656
-/+ buffers/cache:     431840 1643084
Swap:    3068404     195804 2872600

当然可以使用top等其他命令来显示RAM。
当内存的需求大于RAM的数量，服务器启动了虚拟内存机制，通过虚拟内存，可以将RAM段移到SWAP DISK的特殊磁盘段上，这样会出现虚拟内存的页导出和页导入现象，页导出并不能说明RAM瓶颈，虚拟内存系统经常会对内存段进行页导出，但页导入操作就表明了服务器需要更多的内存了，页导入需要从SWAP DISK上将内存段复制回RAM，导致服务器速度变慢。

解决的办法有几种：
1. 最简单的，加大RAM
2. 改小SGA，使得对RAM需求减少
3. 减少RAM的需求（如：减少PGA）

利用/proc/loadavg监控CPU的平均负载文件内容如下：
[root@supersun ~]# cat /proc/loadavg
0.43 0.26 0.29 1/125 4133
这里的平均负载也就是可运行的进程的平均数
前三个值分别对应系统在5分钟、10分钟、15分钟内的平均负载
第四个值的分子是正在运行的进程数，分母是进程总数，最后一个是最近运行的进程ID号

linux系统卸载详解哪个能详解Linux系统，请发言求之软监控报警系统注册码之软监控报警系统(家庭版) 序列号。紧急…… 之软监控报警系统隐藏了怎么办？？？？？监控系统系统监控监控系统 “土木之变”详解？详解不列颠之战电脑系统信息详解 linux系统 linux系统 Linux系统 Linux系统有谁知道linux中vmstat的cs值过高是什么原因？与cpu的cache大小有关系吗？先谢了！星际龙骑士之舞详解有没有病毒监控工具？ Linux系统比win系统有什么胜人之处?上网快吗? 如何监控suse linux的线程数？谁有没有之软监控报警系统(家庭版)的注册码? 系统的防火墙和瑞星的适时监控二者的功用之区别？求：天之眼企业监控管理系统2.0千人补丁远程监控系统