CPU100% 处理思路实战

2018年10月10日14:38:29 3 3,155 views
摘要

记录一次 CPU使用率100%的灵异事件
最近总会收到阿里云的报警,CPU使用率几乎100% 跑满,但是立刻去查看并没有过高的进程,通过查看此时间段的TCP连接数,内存,CPU、磁盘读写压力,和 网站域名的流量 去分析问题,详细几个步骤如下

最近总会收到阿里云的报警,CPU使用率几乎100% 跑满,但是立刻去查看并没有过高的进程,通过查看此时间段的TCP连接数,内存,CPU、磁盘读写压力,和 网站域名的流量 去分析问题,详细几个步骤如下

一、收到报警通知,立刻实时跟踪ecs的资源消耗

CPU100% 处理思路实战
第一次收到是 9月5日,当时按照之前的方法排查,根本找不到,问题点,考虑是否与代码有关,又不想攻击,最主要的原因是:他是有规律的,排查过定时任务,远程调用等等问题。
第二次,第三次 都收到如下报警,因为时间很短没排查出问题,就恢复平静了,所以非常诡异。
因为是生产环境,此问题上报领导,并将监控阈值调整,触发频率调整,希望能找出问题,另外扫描了本地环境,排查木马,病毒,通过网络流量分析,也不是DDOS攻击,或者UDP 肉鸡等攻击,为了加强安全,特别增强如下几项:

Iptables 防火墙
安全组 白名单过滤
每天自动巡检功能
调整监控阈值、监控平率等,让监控更敏锐

二、处理过程

收到报警,首先确认线上业务是否收到影响
上报领导,汇报问题
排查网络、系统、安全等问题
无法立刻确认,使用SLB进行流量切换,保证业务是首要的
确认问题点,进行修复
修复问题,进行检讨,完成流程,制度等
拟写故障报告,通告公司全体

三、针对此次问题的处理方式

CPU100% 处理思路实战

通过上述监控图表,看出在12点-13点 服务器有异常,CPU负载过高的主要原因是磁盘在进行大量的写操作,所以根据以上总结,我就去排查了内部最近都做过什么操作,有哪些变更,【代码、安全、网络、系统、定时任务、阿里云产品任务、磁盘快照 等等】,最后发现,在同样执行频率的任务中有个{漏洞扫描的任务},每次扫描都会对磁盘进行读写,所以会造成短时间磁盘压力大,load ,CPU使用率100%的问题。

四、扫描工具原理说明:

CPU100% 处理思路实战
CPU100% 处理思路实战
了解了原理就豁然开朗,那么这么牛B的事 是谁搞的呢,就是我亲爱的运维同事,据他说是免费体验阿里云产品时创建的任务,测试后忘记删除了,所以就引发了这个事件,困扰了我1个月的 灵异时间。

至此,关于这次CPU 100%的灵异时间就到此结束,谢谢大家。

  • QQ精品交流群
  • weinxin
  • 微信公众号
  • weinxin
admin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:3   其中:访客  2   博主  1

    • avatar 米兔 0

      真棒,我也是遇到过很诡异的故障,学习这高深套路,哈哈哈

      • avatar 曲黎敏 1

        博主V5,多分享实战

          • avatar admin Admin

            @曲黎敏 多谢,我会坚持,并努力记录每一次实战经历