Python 识别 MySQL 中的冗余索引

文若2年前技术文章689

前言

最近在搞标准化巡检平台,通过 MySQL 的元数据分析一些潜在的问题。冗余索引也是一个非常重要的巡检目,表中索引过多,会导致表空间占用较大,索引的数量与表的写入速度与索引数成线性关系(微秒级),如果发现有冗余索引,建议立即审核删除。

PS:之前见过一个客户的数据库上面竟然创建 100 多个索引!?当时的想法是 “他们在玩排列组合呢” 表写入非常慢,严重影响性能和表维护的复杂度。

脚本介绍

表结构

下方是演示的表结构:

CREATE TABLE `index_test03` (
 `id` bigint(20) NOT NULL AUTO_INCREMENT,
 `name` varchar(20) NOT NULL,
 `create_time` varchar(20) NOT NULL,
 PRIMARY KEY (`id`),
 UNIQUE KEY `uqi_name` (`name`),
 KEY `idx_name` (`name`),
 KEY `idx_name_createtime`(name, create_time)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

MySQL 元数据

MySQL 可以通过 information_schema.STATISTICS 表查询索引信息:

SELECT * from information_schema.STATISTICS  where TABLE_SCHEMA = 'test02' and TABLE_NAME = 'index_test03';

TABLE_CATALOGTABLE_SCHEMATABLE_NAMENON_UNIQUEINDEX_SCHEMAINDEX_NAMESEQ_IN_INDEXCOLUMN_NAMECOLLATIONCARDINALITYSUB_PARTPACKEDNULLABLEINDEX_TYPECOMMENTINDEX_COMMENT
deftest02index_test030test02PRIMARY1idA0NULLNULL
BTREE

deftest02index_test030test02uqi_name1nameA0NULLNULL
BTREE

deftest02index_test031test02idx_name1nameA0NULLNULL
BTREE

deftest02index_test031test02idx_name_createtime1nameA0NULLNULL
BTREE

deftest02index_test031test02idx_name_createtime2create_timeA0NULLNULL
BTREE

脚本通过获得 STATISTICS 表中的索引信息来分析表中是否存在冗余索引,分析粒度为表级别。

DEMO 演示

需要使用 pandas 模块。

import pandas as pd

df_table_level = pd.read_csv('/Users/cooh/Desktop/sqlresult_6162675.csv')

table_indexes = df_table_level['INDEX_NAME'].drop_duplicates().tolist()

_indexes = list()
for index_name in table_indexes:
   index_info = {'index_cols': df_table_level[df_table_level['INDEX_NAME'] == index_name]['COLUMN_NAME'].tolist(),
                 'non_unique': df_table_level[df_table_level['INDEX_NAME'] == index_name]['NON_UNIQUE'].tolist()[0],
                 'index_name': index_name
                 }
   _indexes.append(index_info)

content = ''
election_dict = {i['index_name']: 0 for i in _indexes}

while len(_indexes) > 0:
   choice_index_1 = _indexes.pop(0)

   for choice_index_2 in _indexes:
       # 对比两个索引字段的个数,使用字段小的进行迭代
       min_len = min([len(choice_index_1['index_cols']), len(choice_index_2['index_cols'])])

       # 获得相似字段的个数据
       similarity_col = 0
       for i in range(min_len):
           # print(i)
           if choice_index_1['index_cols'][i] == choice_index_2['index_cols'][i]:
               similarity_col += 1

       # 然后进行逻辑判断
       if similarity_col == 0:
           # print('毫无冗余')
           pass
       else:
           # 两个索引的字段包含内容都相同,说明两个索引完全相同,接下来就需要从中选择一个删除
           if len(choice_index_1['index_cols']) == similarity_col and len(
                   choice_index_2['index_cols']) == similarity_col:
               # 等于 0 表示有唯一约束
               if choice_index_1['non_unique'] == 1:
                   content += '索引 {0} 与索引 {1} 重复, '.format(choice_index_2['index_name'], choice_index_1['index_name'])
                   election_dict[choice_index_1['index_name']] += 1
               elif choice_index_2['non_unique'] == 1:
                   content += '索引 {0} 与索引 {1} 重复, '.format(choice_index_1['index_name'], choice_index_2['index_name'])
                   election_dict[choice_index_2['index_name']] += 1
               else:
                   content += '索引 {0} 与索引 {1} 重复, '.format(choice_index_2['index_name'], choice_index_1['index_name'])
                   # 两个索引都是唯一索引
                   if choice_index_1['index_name'] != 'PRIMARY':
                       election_dict[choice_index_1['index_name']] += 1
                   elif choice_index_2['index_name'] != 'PRIMARY':
                       election_dict[choice_index_2['index_name']] += 1

           elif len(choice_index_1['index_cols']) == similarity_col and choice_index_1['non_unique'] != 0:
               content += '索引 {0} 与索引 {1} 重复, '.format(choice_index_2['index_name'], choice_index_1['index_name'])
               election_dict[choice_index_1['index_name']] += 1

           elif len(choice_index_2['index_cols']) == similarity_col and choice_index_2['non_unique'] != 0:
               content += '索引 {0} 与索引 {1} 重复, '.format(choice_index_1['index_name'], choice_index_2['index_name'])
               election_dict[choice_index_2['index_name']] += 1

# 通过索引类型来判断是否需要删除
redundancy_indexes = list()
for _k_name, _vote in election_dict.items():
   if _vote > 0:
       redundancy_indexes.append(_k_name)

content += '建议删除索引:{0}'.format(', '.join(redundancy_indexes))

print(content)

输出结果:

索引 uqi_name 与索引 idx_name 重复, 索引 idx_name_createtime 与索引 idx_name 重复, 建议删除索引:idx_name

SQL 查询冗余索引

MySQL 5.7 是可以直接通过 sys 元数据库中的视图来查冗余索引的,但是云上 RDS 用户看不到 sys 库。所以才被迫写这个脚本,因为实例太多了,一个一个看不现实。如果你是自建的 MySQL,就不用费那么大劲了,直接使用下面 SQL 来统计。

select * from sys.schema_redundant_indexes;

后记

删除索引属于高危操作,删除前需要多次 check 后再删除。上面是一个 demo 可以包装成函数,使用 pandas 以表为粒度传入数据,就可以嵌入到程序中。有问题欢迎评论沟通。


相关文章

ES运维(七)添加sql插件

ES运维(七)添加sql插件

一、概述ElasticSearch安装SQL插件下载地址(中国大佬开发)二、集成sql插件1、下载es-sql插件下载地址: https://github.com/NLPchina/elastics...

MySQL性能优化(六)优化or条件

MySQL性能优化(六)优化or条件

优化器是数据库中非常核心,又非常复杂的一个组件。有的SQL,优化器选择的执行计划并不是最优的,通过改写SQL,可以帮助优化器找到最优的执行计划。where条件中的or子句,是比较容易出问题的一个场景。...

mysql高可用配置(一)

一、简介MySQL使用双向半同步复制模式,通过开源的keepalived实现自动切换,应用通过vip连接数据库。配合自定义脚本,实现故障安全切换,切换过程对应用透明。二、部署主从2.1、在主备节点部署...

压测实操--nnbench压测hdfs_namenode负载方案

压测实操--nnbench压测hdfs_namenode负载方案

本次压测使用nnbench对namenode负载进行性能测试。nnbench生成很多与HDFS相关的请求,给NameNode施加较大的压力,这个测试能在HDFS上创建、读取、重命名和删除文件操作。对应...

Flinksql Kafka 接收流数据并打印到控制台

Flinksql Kafka 接收流数据并打印到控制台

本文目的使用Flink SQL创建一个流处理作业,将来自Kafka主题"dahua_picrecord"的数据写入到另一个表”print_table”控制台中。使用sql-client前 需要启动ya...

HPA控制器

HPA控制器

HPA (动态扩缩容)kubectl 有一个 scale 命令 kubectl scale deployment/nginx --replicas=4 它可以帮助 Pod 进行扩缩容,这个过程完全手动...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。