相信很多人和我一样,top是自己日常使用最多的linux资源查看工具。不过仅限于一些简单的日常场景罢了:敲入top命令,看看哪些进程占用 CPU较多,然后对这些CPU占用较多的进程逐一处理一下。显然这样使用top有些大才小用了。

以前在监控工具使用方面总是浅尝辙止,并未做过多深入研究。近来愈来愈觉得有必要针对几种常用工具好好学习一下了。而top便首当其冲。top是一款 以查看进程(task)信息为中心的Linux系统性能监控工具,通过top我们可以查看到进程相关的cpu和内存占用相关的实时采样信息,因此 top尤其适合用于持续跟踪分析某些进程对系统cpu和内存的占用情况以及对系统负荷的影响。

入门

top的入门使用极其简单,就像前面所说的简单地的输入"top",我们就能看到top的输出了。

top – 06:35:47 up 7 min,  3 users,  load average: 1.00, 1.18, 0.67
Tasks: 189 total,   2 running, 186 sleeping,   0 stopped,   1 zombie
Cpu(s): 30.5%us,  7.6%sy,  0.0%ni, 60.5%id,  1.5%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:   1534164k total,  1423392k used,   110772k free,    67328k buffers
Swap:   999420k total,      144k used,   999276k free,   576924k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                                      
 1954 tonybai   20   0  316m  55m  26m S   26  3.7   0:36.53 compiz                                       
 2308 tonybai   20   0  499m  84m  39m S   13  5.6   1:07.63 chrome
… …

top的输出大致分为上下两个部分,上半部分输出到是系统的总体负荷信息,下半部分则是分进程列出进程的各种属性信息。

总体负荷信息由五行组成:

第一行:top – 06:35:47 up 7 min,  3 users,  load average: 1.00, 1.18, 0.67。
这行的输出与uptime命令是一样一样的,不信你可以单独执行一下uptime命令。我怀疑top就是直接调用uptime或使用uptime部分代码 得到的,毕竟它们都是procps(procps is the package that has a bunch of small useful utilities that give information about processes using the /proc filesystem.)工具集合的一员。这行输出了当前时间( 06:35:47)、自系统启动以来的累计时间(7 min),当前系统用户数(3 users),1分钟,5分钟以及15分钟的平均负荷( load average: 1.00, 1.18, 0.67)。

第二行:Tasks: 189 total,   2 running, 186 sleeping,   0 stopped,   1 zombie。
系统的进程信息汇总,包括总数以及处于各种状态的进程数量。

第三行:Cpu(s): 30.5%us,  7.6%sy,  0.0%ni, 60.5%id,  1.5%wa,  0.0%hi,  0.0%si,  0.0%st。
系统的CPU信息汇总,包括us(CPU用于运行用户空间进程的时间所占比例,不包括renice的用户进程)、sy(CPU用于运行内核进程的时间所占 比例)、ni(CPU用于运行用户空间被renice的进程的时间所占比例)、id(CPU空闲时间所占比例)、wa(CPU等待I/O完成时间所占用的 比例)、hi(处理硬件中断时间所占比例)、si(处理软中断时间所占比例)、st(虚拟机管理程序为其他task而从本虚拟机'偷取'的CPU时间所占 比例)。

第四行和第五行:
Mem:   1534164k total,  1423392k used,   110772k free,    67328k buffers
Swap:   999420k total,      144k used,   999276k free,   576924k cached

系统的内存以及交换区信息汇总,包括内存总量(mem total)、已使用内存(mem used)、空闲内存(mem free)以及交换区总量(swap total)、交换区使用量(swap used)、交换区空闲(swap free)。这里还有两个值buffers和cache,它们是内核使用的内存缓存,均是用于减少磁盘读取,提升系统性能的。buffers代表有多少内 存用于缓存磁盘数据块,目的是减少写磁盘次数;cache用于缓存从磁盘文件读取的数据,以减少读磁盘次数。

下半部分是进程属性信息展示区。默认情况输出的进程属性包括:
    PID(进程ID)
    USER(进程所有者的用户名)
    PR(进程的动态优先级)
    NI(Nice值,进程的base priority)
    VIRT (进程的虚拟内存用量,包括进程的二进制映像大小、数据区以及所有加载的共享库占用的size, = SWAP + RES)
    RES(进程使用的、未被换出的物理内存大小,= CODE + DATA)
    SHR(共享内存区域大小)
    S(进程状态)
    %CPU(上次刷新到现在运行该task的CPU时间所占百分比)
    %MEM(当前task所占用的内存百分比)
    TIME+  (自task启动后所使用的CPU时间累计)
    COMMAND (task对应的二进制程序名)

定制输出

top提供了强大的输出定制功能,无论是上半部分的系统整体负荷信息还是下半部分的进程属性信息展示都是可以根据使用的需求定制的。

整体负荷信息展示区的定制:
- 第一行展示/隐藏:通过点击键盘上的'l'键可以展示或隐藏第一行信息输出
- Task和CPU信息展示/隐藏:通过点击键盘上的't'键可以展示或隐藏Task和CPU行输出
- Mem和Swap信息展示/隐藏:通过点击键盘上的'm'键可以展示或隐藏Mem和Swap行输出

进程属性信息的显示定制:
默认情况下,我们可以看到top会显示进程的若干属性,包括PID、USER、PR、NI 、VIRT 、RES 、SHR、S、%CPU以及%MEM等。不过这些也仅仅是默认的而已,如果你不关住其中一些属性或关注其他一些属性,你完全可以自定义输出显示的进程属 性。点击键盘上的'f'键,top将为我们打开field选择页面:

Current Fields:  AEHIOQTWKNMbcdfgjplrsuvyzX  for window 1:Def
Toggle fields via field letter, type any other key to return

* A: PID        = Process Id                           0×00002000  PF_FREE_PAGES (2.5)
* E: USER       = User Name                            0×00008000  debug flag (2.5)
* H: PR         = Priority                             0×00024000  special threads (2.5)
… …

页面左侧列出了可选的所有进程属性。其中前面有*前缀的是当前已经选择的属性,比如PID。不过你可以通过点击PID对应的开关键'A'来取消对PID的 选择;同样你也可以点击未选择属性前面的开关键来选择对应的属性,比如敲击'p'来选择SWAP属性。定制完毕后回车回到top主页面,你就会看到你定制 后的结果了。

保存你的定制

如果你不想每次都在top启动后重新做定制操作,那就将你的定制保存到top的用户配置文件中。在定制后的top主页面上输入:'W',top会提示你:Wrote configuration to '/home/tonybai/.toprc,也就是说top会将你的定制保存在你的~/.toprc中。重启top看看,是否依旧是上次你定制后的结果呢^_^。

多视图

默认情况下top为我们打开了一个视图。不过top可不止支持一个视图。敲入'A'看看会发生什么?没错,你会看到上下分割的四副视图,另外在整个窗口的 左上角会出现反白的'1:Def',这是一个active视图的提示文字。反复输入'w',top会在各个视图间切换,左上角会在'1:Def'、 '2:Job'、'3:Mem'和'4:Usr'之间切换。‘1:Def'是默认视图,以CPU占用高低对task进行排序;'2:Job'这个视图看起 来比较陌生,里面展示的task多是些系统服务或内核线程;'3:Mem'视图则是以Mem占用高低对task进行排序;'4:Usr'视图则是按用户名 展示task。用'w'切换到某个视图后,可以输入'A'将该active视图放大为单视图铺满窗口。在多视图展示的情况下,还可以输入'-'来隐藏/展 示某种视图。另外这种多视图的配置也是可以保存在.toprc中的。

批处理模式

平时我们更多用的是在交互模式下运行的top,但交互模式下的数据无法记录下来,不便于事后分析,不过top的批处理模式可弥补这一不足。

执行top -b,即可让top以批处理模式运行。默认情况下top会不断重复执行,似乎批处理模式意义不大。不过我们可以限定批处理模式的运行间隔和运行次数,默认情况下top运行/更新间隔为3s,运行次数为无限制。我们可以通过一些命令行参数来设定这两个值,比如:

$> top -b  -d 1 -n 10

-d 用来设置更新间隔为1s;而-n 则设置批处理运行10次。

默认情况下top输出的task太多,我们可以通过指定相关进程或指定user来将关注面缩小,比如:

$> top -b -p 2500 -p 2501 -d 1 -n 10

这个命令只是会输出2500和2501这两个进程的相关信息。

$> top -b -u www-data -d 1 -n 10

这个命令只会输出www-data这个用户下的所有进程相关信息。

即便在批处理模式下,top依旧会输出整体负荷信息。这样一来对后续的数据后处理会带来些麻烦。一个好的方法是先定制top,再做批处理执行。比如先用 l,m,t把top的整体负荷信息都关闭掉,再定制好要关注的进程属性,保存到toprc中;之后再批处理运行top(可将输出结果重定向到某个数据文件 中),我们得到的数据就会比较规整,处理起来也十分方便了。