flink web监控

南墨2年前技术文章1150

1.1 监控指标

进入Flink的原生页面,需要从yarn的原生页面的后台链接进入,如下图:

image.png

这里必须要用supergroup组的用户或者flink提交任务的用户(如果该用户是机机用户不能登录)才能够看到任务。

1.1.1 系统监控

      image.png

image.png

Flink的原生页面首页是任务的执行概要页面。其中主要关注的点如下:

1, taskmanager的数量:一个taskmanager是nodemanager上面启动的一个进程,占用一个container。

2, 已使用slot的数量:表示使用的slot的数量,这里要注意,taskmanager一般跟slot数量是一个比例关系,在图中“Avaliable Task slots”+“Taskslots”表示这个集群中的总slot的数量。

3, Jopid:代表这个flink任务的id。

1.1.2 反压监控

image.png

image.png

反压监控表示了在每个算子的并行度中buffer所挤压的数据。正常情况下有三种状态,“high”“OK”“low”。

High:表示队列中的数据已经挤压到90%以上

image.png

OK:表示没有

Low:表示在50%左右。

如果所有算子都是OK则表示没有反压,如果第一个算子是high,需要向下找算子中第一个出现OK的算子,那么这个处于OK状态的算子就是整个链路的处理瓶颈。

 

1.1.3 Checkpoint监控

检查点监控能够说明业务运行过程中每个检查点的运行状态和运行结果。

Overview :整个checkpoint阶段的概览,需要重点关注的点包括:

a)      Overview:整体checkpoint的概览,包括,trigger,触发了多少次、in Progress 正在运行中的数量Completed已完成的数量,failed的数量。

 

image.png

需要注意的是,在Latest Completed Checkpoint后面的More detail中,能够看到每个checkpoint在每个算子中的耗时,耗时能够反映算子打checkpoint的耗时

image.png

image.png

b)      History和Summary页面

image.png

这个页面能够看到每个checkpoint的耗时,如果耗时是平均的,那么能够说明整个任务链的是健壮的;如果checkpoint的耗时是逐渐递增的说明任务链极有可能存在严重的背压,导致每次checkpoint的耗时都非常的长。

Summary页面中显示了这个所有checkpoint中统计的平均值

image.png

c)      Configuration页面

这个页面显示了checkpoint的一些配置,这些配置可以在代码中设置。

image.png


相关文章

Kubernetes源码解读(五)--Reflector源码分析

Reflector 的任务就是向 apiserver watch 特定类型的资源,拿到变更通知后将其丢到 DeltaFIFO 队列中。1、Reflector的启动过程Reflector定义在k8s.i...

kafka节点数规划

按磁盘容量规划节点数Kafka的数据存放在本地磁盘,建议使用SAS盘,提供较高磁盘IO,以提高Kafka吞吐量。在本规划基于的硬件规格下,单节点平均吞吐量参考值为读300MB/s,写150MB/s。数...

scylladb通过扩缩容节点迁移数据

环境: Scyllsdb版本:4.2一、上线新节点1、确认集群状态和检查配置· 首先确认集群各节点状态是Up Normal (UN),[root@172-16-121-153 scylla]# nod...

canal原理及使用

canal原理及使用

什么是canalcanal,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费。这里我们可以简单地把canal理解为一个用来同步增量数据的一个工具。工作原理MySQL主备复制原理M...

OSS bucket权限设置

OSS bucket权限设置

问题描述调用oss的bucket资源,开始的时候可以访问,过几分钟再访问的时候,就提示拒绝访问问题原因是因为相应的bucket权限为私有,私有权限在访问文件对象时,是存在鉴权URL,存在时间有效性,所...

SpringBootWeb 篇-深入了解 SpringBoot + Vue 的前后端分离项目部署上线与 Nginx 配置文件结构(2)

SpringBootWeb 篇-深入了解 SpringBoot + Vue 的前后端分离项目部署上线与 Nginx 配置文件结构(2)

        3.0 在云服务器进行环境配置        将项目放到云服务器上运行,那么离不开项目所依赖的环境,比如...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。