服务器cpu异常抖动排查

麦浪1年前技术文章947


问题背景  

    当天下午某某客户服务器cpu使用率80%报警持续10分钟左右后又恢复了联系客户排查有出现不同的应用服务器都有收到cpu报警,而且出现这样的抖动不止一次,每隔一段时间就会出现类似情况,在业务低峰的时候也出现过类似的报警 

故障回顾:

    告警提示CPU使用率到达90% 打开阿里云控制台,通过云监控发现在下午16:55-17:05左右发现云上机器某台服务器cpu使用率波动较大(先升后降),负载过高,网络流量达到一定峰值,磁盘io都出现上升后下降趋势、TCP连接数也是出现上升状态,后面恢复原来正常。现象如下图:

                           1.png

CPU先升后降使用率情况使用率近90%

2.png

系统平均负载先升后降情况:load超过25

3.png

网络流入流量网络带宽流入流出先

9.png

TCP 连接数情况先升后降

4.png

磁盘io读写情况:先升后降

问题排查过程

1) 通过监控报警现象

  以及出现的应用服务器,开始让客户确认是否有定时任务,或者大的拉取账单等业务导致,通过业务日志排查并没有相关的异常业务操作

 

2) 查看安全产品是否有受到攻击

查看安全产品目前没有相关这几个服务器报警的通知,查看外部slb流量都是正常流量,应该没有受到外部攻击。

5.png

3) 问题定位分析

当下一个时段出现报警的啥时候,ssh去连接服务器被拒绝的情况

6.png

登入机器后发现有大量ssh登入链接

7.png

cpu占用也是因为sshd服务引起的

8.png

4) 处理结论

经过上述分析,最终定位确认是ssh默认22端口被内网其他机器恶意破解登入攻击,客户的sshd服务都默认都是22端口,被攻击的服务器后来确认都是阿里云经典网络下的ecs

优化建议

根据服务器安全考虑,修改sshd默认22监听端口,还有就是迁移经典网络下的应用服务器到vpc网络下,确保内部服务器不被外部扫描到


相关文章

Elasticsearch数据生命周期如何规划

Elasticsearch中的open状态的索引都会占用堆内存来存储倒排索引,过多的索引会导致集群整体内存使用率多大,甚至引起内存溢出。所以需要根据自身业务管理历史数据的生命周期,如近3个月的数据op...

CDN下载文件报错

CDN下载文件报错

一、问题现象通过域名下载文件,下载到100M左右的时候,会提示下载错误,无法继续下载。二、解决思路业务链路:域名解析到cdn---slb--后端服务器。首先需要判断问题出在哪一层,再看这一层是否有什么...

DBMS_SESSION包跟踪10046

注意:DBMS_SESSION包:只能跟踪当前会话,不能指定会话DBMS_SESSION.SET_SQL_TRACE=ALTER SESSION SET SQL_TRACE; =ALTER SESSI...

Hive架构图及Hive SQL的执行流程

Hive架构图及Hive SQL的执行流程

1、Hive产生背景MapReduce编程的不便性HDFS上的文件缺少Schema(表名,名称,ID等,为数据库对象的集合)2、Hive是什么Hive的使用场景是什么?基于Hadoop做一些数据清洗啊...

yarn常用命令

1、yarn application 查看任务1.1 列出所有 Application: yarn application -list1.2 根据 Application 状态过滤:yarn appl...

MySQL 在线开启 GTID

MySQL 在线开启 GTID

描述生产环境上也会遇到需要开启 GTID ,有什么风险?如何在线开启?本篇 SOP 将介绍。GTID 限制由于基于 GTID 复制依赖于事务,所有开启 GTID 时,有些 MySQL 特性不支持:事务...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。