EMR集群主机/opt/bignode目录占用巨大并持续增长
问题现象:
如下qa环境集群中,master节点
出现如下磁盘告警
处理步骤:
登陆到该节点服务器,首先定位是哪个目录占用系统盘空间较大
定位是由于:/opt/bignode/blocklet_indexing目录下占用空间极大
该目录下存在较多日志文件,截取部分文件如下:
之前有跟阿里后台技术确认过,该日志文件可以清理。不过发现,在几个月之前刚清理过这台机器上的这个目录下的日志。同时,注意到,目前只有qa环境的matser节点会存在该问题,生产环境的master节点该目录从未占用过这么大空间。
于是,在阿里云帮助文档搜索,找到文档:
https://help.aliyun.com/document_detail/186528.html?spm=5176.21213303.J_6704733920.7.5f143edalKuSFW&scm=20140722.S_help%40%40%E6%96%87%E6%A1%A3%40%40186528.S_hot%2Bos0.ID_186528-RL_bignode-OR_helpmain-V_2-P0_0#section-50c-f9h-bda
注意到文档中有如下问题汇总:
登陆到服务器查看进程情况:
发现确实是只剩了一个进程,文档中描述的问题和目前遇到的一致。
按照文档中操作,kill进程
等待一段时间之后,核查两个进程都自动被拉起
并且磁盘空间也恢复正常