云帮手,兼容windows和Linux系统,支持多台云主机,兔费,可视化面板,实时查看cpu、内存、磁盘使用率、站点等等,还有云主机一键检测修复等功能。手动码字,希望帮到你谢谢。
曾经做过几次大规模服务器监控,下面推荐几款监控软件和辅助软件。
1.zabbix一款老牌经典的监控软件。是一个企业级的分布式开源监控方案。能够实时监控从成千上万台服务器、虚拟机和网络设备中收集到的数以百万计的指标。??
提供图形操作界面,可以方便的添加监控指标、告警指标。支持邮件、微信等的告警通知。
2.Prometheus,近些年监控方面的当红炸子鸡??,Prometheus是由SoundCloud开发的开源监控报警系统和时序列数据库(TSDB)。Prometheus使用Go语言开发,是GoogleBorgMon监控系统的开源版本。
其优点是轻量级,配置简易,上手简单,丰富的告警模板。
以上是两款监控软件,下面推荐几款监控辅助软件。
1.grafana监控展示界面,在我们获取到监控数据后,可能需要把数据展示出来,给领导们邀功。grafana就是这样一款软件,开源免费,模板丰富。可直接对接zabbixprometheus和mysql数据库等。
2.钉钉机器人。服务器出现告警怎么办,当然是发消息通知运维人员啊。钉钉机器人就提供这么一个功能。在钉钉群里面直接创建机器人,会给我们一个restfull的接口,我们就可以直接发送post请求。原生linux就直接用curl发送,Prometheus提供插件可以直接对接。
我用了云帮手也有一段时间,当初只是看重他功能免费还有什么一键巡检和修复功能,不过一段时间用下来,他的监控功能我觉得一样很不错。
有分别对CPU、内存、磁盘、网络使用率的具体实时监控,还有总的一个监控概况,比较方便了解对服务器的基本使用状况。
而且还可以对不同的资源分别设置不同的告警规则,一旦超出你的设定值就会发送告警信息,大大方便了对服务器的管理,真心推荐你试一下。
官网地址:https://www.cloudx.cn/download?utm_source=zhan-wukong
云帮手,可视化面板,实时查看cpu、内存、磁盘使用率、站点等等,还有云主机一键检测修复等功能。
概述
今天主要对mpstat、iostat、sar、vmstat命令做一下总结,这几个命令都是属于运维人员必须掌握的,所以,能不偷懒就不偷懒了。
1、mpstat
mpstat是MultiprocessorStatistics的缩写,是实时监控工具,报告与cpu的一些统计信息这些信息都存在/proc/stat文件中,在多CPU系统里,其不但能查看所有的CPU的平均状况的信息,而且能够有查看特定的cpu信息,mpstat最大的特点是:可以查看多核心的cpu中每个计算核心的统计数据;而且类似工具vmstat只能查看系统的整体cpu情况。
实例:查看多核cpu当前运行的状况,每两秒更新一次,一共更新5次
#mpstat25
说明:
%user在internal时间段里,用户态的CPU时间(%),不包含nice值为负进程(usr/total)*100
%nice在internal时间段里,nice值为负进程的CPU时间(%)(nice/total)*100
%sys在internal时间段里,内核时间(%)(system/total)*100
%iowait在internal时间段里,硬盘IO等待时间(%)(iowait/total)*100
%irq在internal时间段里,硬中断时间(%)(irq/total)*100
%soft在internal时间段里,软中断时间(%)(softirq/total)*100
%idle在internal时间段里,CPU除去等待磁盘IO操作外的因为任何原因而空闲的时间闲置时间(%)(idle/total)*100
2、iostat
iostat用于输出CPU和磁盘I/O相关的统计信息.
语法:
iostat[-c][-d][-h][-N][-k|-m][-t][-V][-x][-z][device[...]|ALL][-p[device[,...]|ALL]][interval[count]]
实例1:
--参数-d表示显示设备磁盘的使用状态;-k表示某些使用block为单位的列强制使用kilobytes为单位,2表示数据每隔2秒刷新一次6表示一共刷新6次
#iostat-d-k26
说明:
tps:该设备每秒的传输次数(Indicatethenumberoftransferspersecondthatwereissuedtothedevice.)。
"一次传输"意思是"一次I/O请求"。多个逻辑请求可能会被合并为"一次I/O请求"。"一次传输"请求的大小是未知的。
kB_read/s:每秒从设备(driveexpressed)读取的数据量;
kB_wrtn/s:每秒向设备(driveexpressed)写入的数据量;
kB_read:读取的总数据量;
kB_wrtn:写入的总数量数据量;这些单位都为Kilobytes。
实例2:
--可以把K单位换成M
#iostat-d-m26
实例3:
--使用iostat查看cpu统计信息使用-C参数
#iostat-c26
实例4:-X参数
--iostat还有一个比较常用的-X参数,该选项将用于显示和io相关的扩展数据。
#iostat-d-x-k16
3、sar
sar(SystemActivityReporter系统活动情况报告)是目前Linux上最为全面的系统性能分析工具之一,可以从多方面对系统的活动进行报告,包括:文件的读写情况、系统调用的使用情况、磁盘I/O、CPU效率、内存使用状况、进程活动及IPC有关的活动等,sar命令有sysstat安装包安装。
语法:
sar[options][<interval>[<count>]]
--Optionsare:
-A:所有报告的总和
-b:显示I/O和传递速率的统计信息
-B:显示换页状态
-d:输出每一块磁盘的使用信息
-e:设置显示报告的结束时间
-f:从制定的文件读取报告
-i:设置状态信息刷新的间隔时间
-P:报告每个CPU的状态
-R:显示内存状态
–u:输出cpu使用情况和统计信息
–v:显示索引节点、文件和其他内核表的状态
-w:显示交换分区的状态
-x:显示给定进程的装
-r:报告内存利用率的统计信息
实例1:
--每2秒采样一次,连续4次,观察cpu的使用情况,并将采样的结果以二进制形式存入当前目录下的文件sar中,如下:
#sar-u-osar24
实例2:
--从二进制中调取
#sar-u-f/root/sar
实例3:
--报告每个cpu的状态,1秒一次,一共4次
#sar-p14
实例4:
--查看平均负载
#sar-q
实例5:
--查看内存使用情况
#sar-r
实例6:
--查看系统swap分区的统计信息
#sar-w
实例7:
--磁盘使用统计信息
#sar-d
默认监控:
sar55//CPU和IOWAIT统计状态
(1)sar-b55//IO传送速率
(2)sar-B55//页交换速率
(3)sar-c55//进程创建的速率
(4)sar-d55//块设备的活跃信息
(5)sar-nDEV55//网路设备的状态信息
(6)sar-nSOCK55//SOCK的使用情况
(7)sar-nALL55//所有的网络状态信息
(8)sar-PALL55//每颗CPU的使用状态信息和IOWAIT统计状态
(9)sar-q55//队列的长度(等待运行的进程数)和负载的状态
(10)sar-r55//内存和swap空间使用情况
(11)sar-R55//内存的统计信息(内存页的分配和释放、系统每秒作为BUFFER使用内存页、每秒被cache到的内存页)
(12)sar-u55//CPU的使用情况和IOWAIT信息(同默认监控)
(13)sar-v55//inode,fileandotherkerneltablesd的状态信息
(14)sar-w55//每秒上下文交换的数目
(15)sar-W55//SWAP交换的统计信息(监控状态同iostat的siso)
(16)sar-x290655//显示指定进程(2906)的统计信息,信息包括:进程造成的错误、用户级和系统级用户CPU的占用情况、运行在哪颗CPU上
(17)sar-y55//TTY设备的活动状态
(18)将输出到文件(-o)和读取记录信息(-f)
4、vmstat
vmstat命令是最常见的Linux/Unix监控工具,可以展现给定时间间隔的服务器的状态值,包括服务器的CPU使用率,内存使用,虚拟内存交换情况,IO读写情况。这个命令是我查看Linux/Unix最喜爱的命令,一个是Linux/Unix都支持,二是相比top,我可以看到整个机器的CPU,内存,IO的使用情况,而不是单单看到各个进程的CPU使用率和内存使用率(使用场景不一样)。
实例1:
--第一个参数是采样的时间间隔数,单位是秒,第二个参数是采样的次数
--如果想在一段时间内一直监控可执行#vmstat2
#vmstat26
说明:
r表示运行队列(就是说多少个进程真的分配到CPU),当这个值超过了CPU数目,就会出现CPU瓶颈了。这个也和top的负载有关系,一般负载超过了3就比较高,超过了5就高
,超过了10就不正常了,服务器的状态很危险。top的负载类似每秒的运行队列。如果运行队列过大,表示你的CPU很繁忙,一般会造成CPU使用率很高。
b表示阻塞的进程
swpd虚拟内存已使用的大小,如果大于0,表示你的机器物理内存不足了,如果不是程序内存泄露的原因,那么你该升级内存了或者把耗内存的任务迁移到其他机器。
free空闲的物理内存的大小
buffLinux/Unix系统是用来存储,目录里面有什么内容,权限等的缓存
cachecache直接用来记忆我们打开的文件,给文件做缓冲
si每秒从磁盘读入虚拟内存的大小,如果这个值大于0,表示物理内存不够用或者内存泄露了,要查找耗内存进程解决掉。
so每秒虚拟内存写入磁盘的大小,如果这个值大于0,同上
bi块设备每秒接收的块数量,这里的块设备是指系统上所有的磁盘和其他块设备,默认块大小是1024byte
bo块设备每秒发送的块数量,例如我们读取文件,bo就要大于0。bi和bo一般都要接近0,不然就是IO过于频繁,需要调整。
in每秒CPU的中断次数,包括时间中断
cs每秒上下文切换次数
us用户CPU时间
sy系统CPU时间,如果太高,表示系统调用时间长,例如是IO操作频繁。
id空闲CPU时间
wt等待IOCPU时间。
这种基础命令一定要会,建议大家熟记,后面会分享更多devops和DBA方面的内容,感兴趣的朋友可以关注下~
云帮手是一款监控和管理云服务器的软件。
1.集多云商,多系统,多环境的云主机批量管理,
2.支持系统修复,
3.云监控资源告警,
4.远程连接,处理文件。基本上针对云主机,云帮手的功能是十分齐全的了。
这款可以推荐你试用一下,毕竟一款神器在手,啥都不愁。
云帮手,可以自行下载体验一下:https://www.cloudx.cn/download?utm_source=cai-wukong
云帮手是用来监控云主机资源情况的,而且批量管理,系统修复等云主机工具的功能。不是黑客软件偷偷监听别人服务器。如果用云帮手来管理云主机,总体功能还是很齐全的,而且这款软件还是免费的。
分享免费下载地址https://www.cloudx.cn/?utm_source=wu-wk
搜浪信息科技发展(上海)有限公司 备案号:沪ICP备17005676号