系统RDSCPU打满问题分析报告

琉璃11个月前技术文章252

1. 问题概述

2023年9月01日09点13分,玳数运维组侧接收到业务侧反馈系统响应缓慢,与此同时运维群内新系统RDS 发出CPU打满的告警,告警通知如下:

image.png 

2. 问题分析

a. 数据库会话管理核查

玳数运维组侧登录阿里云控制台查看数据库会话管理,通过数据库自治服务的一键诊断功能,核实到活跃会话较多,现象为CPU使用率打满。

b. kill查询会话

玳数运维组侧接收业务反馈,拍地业务比较紧急,可以迅速kill查询会话,保障数据库系统稳定运行。从9:00-9:30时间段内连接数迅速上升,波动较高至730左右

image.png 

SQL该时间段内迅速增长,单SQL执行次数较多,如下图:

image.png 


该慢
SQL单次执行耗时在1.233秒左右,主要为执行次数影响。

image.png 

同业务侧拿到数据库账号信息,Kill查询会话后,CPU使用率逐步下降,拍地之前恢复至正常水位。

image.png 

c. 核查会话增长原因

玳数运维组侧进一步核实程序侧是否有异常调用,导致数据库侧访问频次增加。程序访问通过WAF接入,再到后端SLB,由于WAF侧未开启访问日志,查看SLB访问日志,业务侧反馈对应SQL的业务访问接口:查询异常时间段内该接口的日志条数,30分钟内该接口个接口被调用了2970次

 

对比昨天同时间段内该接口的调用频次,昨天同时间段30min内日志是1,397条,如下图: 

可以看到今天异常时间段内调用次数明显增多。导出该时间段内日志明细,查看访问来源IP,统计访问最多的来源ip,访问次数:102次,该来源地址在上城区,计算访问频次:一分钟内调用在三次左右。与此同时其他来源IP也在发起调用,导致总体并发量比较高,业务接口调用频繁。

 

来源IP查询如下图所示:

image.png 

image.png 

3. 问题总结

结合RDS慢SQL日志、程序侧服务日志及业务侧反馈情况定位问题的根本原因在于单位时间内相应接口调用频次较高,数据库CPU打满。

a. 改进措施

为了防止类似问题再次发生,玳数科技运维组提出了以下改进措施:

建议

1、程序侧做好对接口访问的相关限制,单位时间内限制对接口的访问频次,避免大并发下CPU资源使用完毕,导致数据库服务异常。

2、对数据库进行读写业务分离,实现读取能力的弹性扩展,分担数据库压力。

3、新系统RDS开启SQL洞察和审计,更好地获取SQL语句的具体信息、排查性能问题、识别高危风险来。

4、WAF侧开启日志功能,方便业务异常时刻能快速对采集到的日志数据进行查询与分析,定位问题原因。


相关文章

数据建模用的哪些模型?

星型模型星形模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。星形模式的维度建模由一个事实表和一组维表成,且具有以下特点:a....

MySQL 官方高可用方案:Innodb ReplicaSet

MySQL 官方高可用方案:Innodb ReplicaSet

说明MySQL Innodb ReplicaSet 是 MySQL 团队在 2020 年推出的一款产品,用来帮助用户快速部署和管理主从复制,在数据库层仍然使用的是主从复制技术。ReplicaSet 主...

SQL隐式转换导致索引失效_函数

SQL隐式转换导致索引失效_函数

一、隐式转换分类1.函数2.数据类型3.字符集4.校验规则二、常见案例本节将会针对第一部分提到的四种隐式转换内容,举例说明。1.索引列使用函数导致索引失效示例 SQL 如下,该 SQL 的 where...

内存--模拟内存打满

1 tmpfs介绍tmpfs是一种虚拟内存文件系统,正如这个定义它最大的特点就是它的存储空间在VM里面     VM是由linux内核里面的vm子系统管理的东...

数据湖技术之iceberg(一)数据湖的概念

数据湖技术之iceberg(一)数据湖的概念

1  数据湖概念1.1.  什么是数据湖数据湖是一个集中式的存储库,允许你以任意规模存储多个来源、所有结构化和非结构化数据,可以按照原样存储数据,无需对数据进行结构化处理,并运行不...

百万并发下的nginx优化

百万并发下的nginx优化

百万并发下的nginx优化之道一、nginx地址重写1、nginx地址重写(rewrite)介绍nginx地址重写的主要功能是实现URL地址的重定向。服务器获得一个来访的URL请求,然后改写成服务器可...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。