Hive调优

楼高4个月前90
1.Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM students;在这种情况下,Hive可以简单地读取studen...

Yarn生产环境核心参数

楼高4个月前104
(1)ResourceManager相关配置调度器:yarn.resourcemanager.scheduler.class    默认是容量调度器处理调度器请求的线程数量:yarn.resource...

MapReduce生产经验

楼高4个月前104
MapReduce程序效率的瓶颈在于两点:1)计算机性能(1)CPU、内存、磁盘、网络2)I/O操作优化(1)数据倾斜(2)Map运行时间太长,导致Reduce等待过久(3)小文件过多下来就根据这两点...

HDFS核心参数

楼高4个月前102
HDFS核心参数
1.NameNode内存生产配置(1)NameNode内存计算,每个文件块大概占用150byte,一台服务器128G内存为例,能存储9.1亿个文件128 * 1024 * 1024 * 1024  /...

Kafka报 IO Exception(many open files)

楼高4个月前172
Kafka报 IO Exception(many open files)
1 线上问题kafka报错many open files,查看日志如下截取部分错误信息...

kafka单条消息过大导致线上OOM

楼高4个月前159
1 线上问题kafka生产者罢工,停止生产,生产者内存急剧升高,导致程序几次重启。查看日志,发现Produce程序爆异常kafka.common.MessageSizeTooLargeExceptio...

Kafka日志管理

楼高4个月前109
Kafka在运行时会生成大量的日志记录信息,包含了运行状态、错误信息、性能指标等。这些日志文件会占用很大的磁盘空间,过多的日志文件也会影响Kafka的性能,因此需要采取一些日志管理措施来清理无用的日志...

Kafka监控

楼高4个月前110
1.监控健康状态为了了解 Kafka 的运作状态和性能状况需要对 Kafka 进行监控和诊断,通过Kafka提供的监控工具和插件可以诊断出 Kafka 的异常、错误、瓶颈和故障等问题并及时采取对应的措...

Kafka数据恢复

楼高4个月前112
一、增量恢复增量恢复需要使用 MirrorMaker 来实现,下面是 MirrorMaker 的用法示例:# 创建MirrorMaker 配置文件cat > /tmp/mirror-maker....

Kafka数据备份

楼高4个月前157
一、数据备份Kafka的数据备份包括两种类型:全量备份和增量备份全量备份是将整个 Kafka 的数据复制到一个不同的地方增量备份是在全量备份后仅仅备份增量的数据...

Kafka优化参数

楼高4个月前112
一、配置文件Kafka的配置文件为 config/server.properties,在此文件中进行 Kafka 的基础配置,例如端口、日志目录、Zookeeper 信息和 Broker ID 等还可...

元数据管理

楼高4个月前101
元数据管理
一、元数据概念元数据是关于数据的数据,它实质上封装了高度结构化字段中有关数据资产的不同属性、历史记录、来源、版本和其他信息,主要用于跟踪、分类和分析。元数据大致定义为提供有关其他内容的信息的数据,但不...