2018年10月10日14:38:29 3 5,608 views

摘要

记录一次 CPU使用率100%的灵异事件
最近总会收到阿里云的报警，CPU使用率几乎100% 跑满，但是立刻去查看并没有过高的进程，通过查看此时间段的TCP连接数，内存，CPU、磁盘读写压力，和网站域名的流量去分析问题，详细几个步骤如下

最近总会收到阿里云的报警，CPU使用率几乎100% 跑满，但是立刻去查看并没有过高的进程，通过查看此时间段的TCP连接数，内存，CPU、磁盘读写压力，和网站域名的流量去分析问题，详细几个步骤如下

一、收到报警通知，立刻实时跟踪ecs的资源消耗

第一次收到是 9月5日，当时按照之前的方法排查，根本找不到，问题点，考虑是否与代码有关，又不想攻击，最主要的原因是：他是有规律的，排查过定时任务，远程调用等等问题。
第二次，第三次都收到如下报警，因为时间很短没排查出问题，就恢复平静了，所以非常诡异。
因为是生产环境，此问题上报领导，并将监控阈值调整，触发频率调整，希望能找出问题，另外扫描了本地环境，排查木马，病毒，通过网络流量分析，也不是DDOS攻击，或者UDP 肉鸡等攻击，为了加强安全，特别增强如下几项：

Iptables 防火墙
安全组 白名单过滤
每天自动巡检功能
调整监控阈值、监控平率等，让监控更敏锐

二、处理过程

收到报警，首先确认线上业务是否收到影响
上报领导，汇报问题
排查网络、系统、安全等问题
无法立刻确认，使用SLB进行流量切换，保证业务是首要的
确认问题点，进行修复
修复问题，进行检讨，完成流程，制度等
拟写故障报告，通告公司全体

三、针对此次问题的处理方式

通过上述监控图表，看出在12点-13点服务器有异常，CPU负载过高的主要原因是磁盘在进行大量的写操作，所以根据以上总结，我就去排查了内部最近都做过什么操作，有哪些变更，【代码、安全、网络、系统、定时任务、阿里云产品任务、磁盘快照等等】，最后发现，在同样执行频率的任务中有个{漏洞扫描的任务}，每次扫描都会对磁盘进行读写，所以会造成短时间磁盘压力大，load ，CPU使用率100%的问题。