EMR集群主机/opt/bignode目录占用巨大并持续增长

小丫1年前技术文章668

问题现象:

如下qa环境集群中,master节点

image.png

出现如下磁盘告警

image.png

处理步骤:

登陆到该节点服务器,首先定位是哪个目录占用系统盘空间较大

image.png

定位是由于:/opt/bignode/blocklet_indexing目录下占用空间极大

该目录下存在较多日志文件,截取部分文件如下:

image.png

之前有跟阿里后台技术确认过,该日志文件可以清理。不过发现,在几个月之前刚清理过这台机器上的这个目录下的日志。同时,注意到,目前只有qa环境的matser节点会存在该问题,生产环境的master节点该目录从未占用过这么大空间。

于是,在阿里云帮助文档搜索,找到文档:

https://help.aliyun.com/document_detail/186528.html?spm=5176.21213303.J_6704733920.7.5f143edalKuSFW&scm=20140722.S_help%40%40%E6%96%87%E6%A1%A3%40%40186528.S_hot%2Bos0.ID_186528-RL_bignode-OR_helpmain-V_2-P0_0#section-50c-f9h-bda

注意到文档中有如下问题汇总:

image.png

登陆到服务器查看进程情况:

image.png

发现确实是只剩了一个进程,文档中描述的问题和目前遇到的一致。

按照文档中操作,kill进程

image.png

等待一段时间之后,核查两个进程都自动被拉起

image.png

并且磁盘空间也恢复正常

image.png

相关文章

Tcpdump抓包总结

Tcpdump抓包总结

一、简介tcpdump是一个用于截取网络分组,并输出分组内容的工具。凭借强大的功能和灵活的截取策略,使其成为类UNIX系统下用于网络分析和问题排查的首选工具 tcpdump提供了源代码,公开了接口,因...

MySQL 8.0 Clone 备份恢复演练

前言上一篇文章中,我们介绍了使用 Clone 插件进行备份,相关的恢复流程将在本篇文章介绍。MySQL 8.0 Clone Plugin 详解恢复增量数据的方法,使用的是伪装为 relay log 通...

Prometheus PromQL语法

一、PromQL语法1.1、数据类型PromQL 表达式计算出来的值有以下几种类型:瞬时向量 (Instant vector)区间向量 (Range vector)标量数据 (Scalar)字符串 (...

CDP实操--配置Hive/Impala的Ranger策略验证(二)

CDP实操--配置Hive/Impala的Ranger策略验证(二)

1.1Hive/impala的Ranger策略验证确保hive-on-tez的配置页面里已经勾选了“Ranger Service”在terminal中,kerberos登录到hive,用如下命令登录b...

Kubernetes网络模型与CNI网络插件

Kubernetes网络模型与CNI网络插件

在 Flannel 的网络插件中,容器跨主机网络的两种实现方法:UDP 和 VXLAN。它们有一个共性,就是用户的容器都连接在 docker0 网桥上。而网络插件则在宿主机上创建了一个特殊的设备(UD...

Docker 网络介绍

一、Docker 网络docker网络主要是解决容器联网问题,也是我们使用容器中最重要的一个环节,如果容器没有网络则无法向网络中提供服务。网络管理命令:docker network[root@zutu...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。