EMR集群主机/opt/bignode目录占用巨大并持续增长

小丫2年前技术文章1083

问题现象:

如下qa环境集群中,master节点

image.png

出现如下磁盘告警

image.png

处理步骤:

登陆到该节点服务器,首先定位是哪个目录占用系统盘空间较大

image.png

定位是由于:/opt/bignode/blocklet_indexing目录下占用空间极大

该目录下存在较多日志文件,截取部分文件如下:

image.png

之前有跟阿里后台技术确认过,该日志文件可以清理。不过发现,在几个月之前刚清理过这台机器上的这个目录下的日志。同时,注意到,目前只有qa环境的matser节点会存在该问题,生产环境的master节点该目录从未占用过这么大空间。

于是,在阿里云帮助文档搜索,找到文档:

https://help.aliyun.com/document_detail/186528.html?spm=5176.21213303.J_6704733920.7.5f143edalKuSFW&scm=20140722.S_help%40%40%E6%96%87%E6%A1%A3%40%40186528.S_hot%2Bos0.ID_186528-RL_bignode-OR_helpmain-V_2-P0_0#section-50c-f9h-bda

注意到文档中有如下问题汇总:

image.png

登陆到服务器查看进程情况:

image.png

发现确实是只剩了一个进程,文档中描述的问题和目前遇到的一致。

按照文档中操作,kill进程

image.png

等待一段时间之后,核查两个进程都自动被拉起

image.png

并且磁盘空间也恢复正常

image.png

相关文章

副本集同步原理

一、Initial Sync大体来说,MongoDB副本集同步主要包含两个步骤:1. Initial Sync,全量同步2. Replication,即sync oplog先通过init sync同步...

Hive调优

1.Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM students;在这种情况下,Hive可以简单地读取studen...

Presto临时设置session超时时间

Presto临时设置session超时时间

全局默认超时时间为200s:测试语句:select    "t7"."__fcol_16" "__fcol_22",    date_trunc('month', "t7"."__fcol_21"...

大数据集群监控配置操作指导(一)prometheus+grafana部署

大数据集群监控配置操作指导(一)prometheus+grafana部署

1.prometheus+grafana部署(单独部署到一台服务器。4c8g。系统盘300G。操作系统建议7.6到7.9)1.1下载prometheus和grafana的二进制包mkdir /opt/...

GitLab Agent Server (KAS)

GitLab Agent Server (KAS)

安装KAS参考资料独立部署的gitlab开启KAS独立部署的gitlab安装kas比较简单,首先编辑gitlab的配置文件/etc/gitlab/gitlab.rb# 取消相关注释 ##! Enab...

CDH实操--配置Kerberos服务高可用(一)

CDH实操--配置Kerberos服务高可用(一)

前置条件1.主Kerberos已安装并与CDH集成2.备节点安装Kerberos服务yum -y install krb5-server krb5-libs krb5-auth-dialog krb5...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。