最近总会收到阿里云的报警,CPU使用率几乎100% 跑满,但是立刻去查看并没有过高的进程,通过查看此时间段的TCP连接数,内存,CPU、磁盘读写压力,和 网站域名的流量 去分析问题,详细几个步骤如下
一、收到报警通知,立刻实时跟踪ecs的资源消耗
第一次收到是 9月5日,当时按照之前的方法排查,根本找不到,问题点,考虑是否与代码有关,又不想攻击,最主要的原因是:他是有规律的,排查过定时任务,远程调用等等问题。
第二次,第三次 都收到如下报警,因为时间很短没排查出问题,就恢复平静了,所以非常诡异。
因为是生产环境,此问题上报领导,并将监控阈值调整,触发频率调整,希望能找出问题,另外扫描了本地环境,排查木马,病毒,通过网络流量分析,也不是DDOS攻击,或者UDP 肉鸡等攻击,为了加强安全,特别增强如下几项:
Iptables 防火墙
安全组 白名单过滤
每天自动巡检功能
调整监控阈值、监控平率等,让监控更敏锐
二、处理过程
收到报警,首先确认线上业务是否收到影响
上报领导,汇报问题
排查网络、系统、安全等问题
无法立刻确认,使用SLB进行流量切换,保证业务是首要的
确认问题点,进行修复
修复问题,进行检讨,完成流程,制度等
拟写故障报告,通告公司全体
三、针对此次问题的处理方式
通过上述监控图表,看出在12点-13点 服务器有异常,CPU负载过高的主要原因是磁盘在进行大量的写操作,所以根据以上总结,我就去排查了内部最近都做过什么操作,有哪些变更,【代码、安全、网络、系统、定时任务、阿里云产品任务、磁盘快照 等等】,最后发现,在同样执行频率的任务中有个{漏洞扫描的任务},每次扫描都会对磁盘进行读写,所以会造成短时间磁盘压力大,load ,CPU使用率100%的问题。
四、扫描工具原理说明:
了解了原理就豁然开朗,那么这么牛B的事 是谁搞的呢,就是我亲爱的运维同事,据他说是免费体验阿里云产品时创建的任务,测试后忘记删除了,所以就引发了这个事件,困扰了我1个月的 灵异时间。
至此,关于这次CPU 100%的灵异时间就到此结束,谢谢大家。
- QQ精品交流群
-
- 微信公众号
-
2018年10月11日 下午10:19 沙发
真棒,我也是遇到过很诡异的故障,学习这高深套路,哈哈哈
2018年10月17日 上午9:32 板凳
博主V5,多分享实战
2018年10月17日 上午9:46 1层
@曲黎敏 多谢,我会坚持,并努力记录每一次实战经历