NameNode和SecondaryNameNode工作详解

楼高2年前 (2023-05-23)技术文章713

一、NN和SNN工作机制

我们可以思考一个问题：NameNode中的元数据是存储在哪里的

首先假设，如果存储在NameNode节点的磁盘中，因为经常需要进行随机访问NameNode的元数据，响应客户请求，这样肯定效率低下。因此可以想到元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。因此出现了在磁盘中备份元数据的FsImage。

这样又会带来新的问题，当在内存中的元数据更新时，如果同时更新FsImage，就会导致效率过低，但如果不更新，就会发生一致性问题，一旦NameNode节点断电，就会产生数据丢失。因此，引入Edits文件（只进行追加操作，效率很高）。每当元数据有更新或者添加元数据时，修改内存中的元数据并追加到Edits中。这样，一旦NameNode节点断电，可以通过FsImage和Edits的合并，合成元数据。

但是，如果长时间添加数据到Edits中，会导致该文件数据过大，效率降低，而且一旦断电，恢复元数据需要的时间过长。因此，需要定期进行FsImage和Edits的合并，如果这个操作由NameNode节点完成，又会效率过低。因此，引入一个新的节点SecondaryNamenode，专门用于FsImage和Edits的合并。

1、NameNode启动

（1）第一次启动NameNode格式化后，创建Fsimage和Edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。

（2）客户端对元数据进行增删改的请求

（3）NameNode记录操作日志，更新滚动日志。

（4）NameNode在内存中对元数据进行增删改。

2、Secondary NameNode工作

（1）Secondary NameNode询问NameNode是否需要CheckPoint。直接带回NameNode是否检查结果。

（2）Secondary NameNode请求执行CheckPoint。

（3）NameNode滚动正在写的Edits日志

（4）将滚动前的编辑日志和镜像文件拷贝到Secondary NameNode。

（5）Secondary NameNode加载编辑日志和镜像文件到内存，并合并。

（6）生成新的镜像文件fsimage.chkpoint。

（7）拷贝fsimage.chkpoint到NameNode。

（8）NameNode将fsimage.chkpoint重新命名成fsimage。

二、Fsimage和Edits解析

NameNode被格式化以后，将在current目录中产生如下文件：fsimage_0000000000000000，fsimage_000000000000000.md5，seen_txid，VERSION

（1）Fsimage文件：HDFS文件系统元数据的一个永久性的检查点，其中包含HDFS文件系统的所有目录和文件inode的序列化信息。

（2）Edits文件：存放HDFS文件系统的所有更新操作的路径，文件系统客户端执行的所有写操作首先会被记录到Edits文件中。

（3）seen_txid文件保存的是一个数字，就是最后一个edits_的数字

（4）每次NameNode启动的时候都会将Fsimage文件读入内存，加载Edits里面的更新操作，保证内存中的元数据信息是最新的、同步的，可以看成NameNode启动的时候就将Fsimage和Edits文件进行了合并。

三、CheckPoint时间设置

通常情况下，SecondaryNameNode每隔一小时执行一次
在hdfs-default.xml 配置dfs.namenode.checkpoint.period：3600s
一分钟检查一次操作次数，当操作次数达到1百万时，SecondaryNameNode执行一次。

返回列表

上一篇：数据湖技术之iceberg（八）Spark与Iceberg整合DDL操作

下一篇：数据湖技术之iceberg（九）Spark与Iceberg整合写操作

NameNode和SecondaryNameNode工作详解

一、NN和SNN工作机制

二、Fsimage和Edits解析

相关文章

ES模糊查询（Wildcard Query）导致CPU打满问题

kafka高可靠性相关配置

MySQL性能优化（一）索引缺失引起的全表扫描

HDFS分层存储配置并使用（二）

CDP实操--Ranger Tag-based策略验证（四）

MySQL运维实战（6）用户认证插件caching_sha2_password

发表评论

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号

NameNode和SecondaryNameNode工作详解

一、NN和SNN工作机制

二、Fsimage和Edits解析

相关文章

ES模糊查询（Wildcard Query）导致CPU打满问题

kafka高可靠性相关配置

MySQL性能优化（一）索引缺失引起的全表扫描

HDFS分层存储配置并使用（二）

CDP实操--Ranger Tag-based策略验证（四）

MySQL运维实战（6）用户认证插件caching_sha2_password

发表评论 取消回复

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?dcf8139ce75b768b71dccc5e589b983c"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

发表评论

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号