flink web监控

南墨2年前技术文章958

1.1 监控指标

进入Flink的原生页面,需要从yarn的原生页面的后台链接进入,如下图:

image.png

这里必须要用supergroup组的用户或者flink提交任务的用户(如果该用户是机机用户不能登录)才能够看到任务。

1.1.1 系统监控

      image.png

image.png

Flink的原生页面首页是任务的执行概要页面。其中主要关注的点如下:

1, taskmanager的数量:一个taskmanager是nodemanager上面启动的一个进程,占用一个container。

2, 已使用slot的数量:表示使用的slot的数量,这里要注意,taskmanager一般跟slot数量是一个比例关系,在图中“Avaliable Task slots”+“Taskslots”表示这个集群中的总slot的数量。

3, Jopid:代表这个flink任务的id。

1.1.2 反压监控

image.png

image.png

反压监控表示了在每个算子的并行度中buffer所挤压的数据。正常情况下有三种状态,“high”“OK”“low”。

High:表示队列中的数据已经挤压到90%以上

image.png

OK:表示没有

Low:表示在50%左右。

如果所有算子都是OK则表示没有反压,如果第一个算子是high,需要向下找算子中第一个出现OK的算子,那么这个处于OK状态的算子就是整个链路的处理瓶颈。

 

1.1.3 Checkpoint监控

检查点监控能够说明业务运行过程中每个检查点的运行状态和运行结果。

Overview :整个checkpoint阶段的概览,需要重点关注的点包括:

a)      Overview:整体checkpoint的概览,包括,trigger,触发了多少次、in Progress 正在运行中的数量Completed已完成的数量,failed的数量。

 

image.png

需要注意的是,在Latest Completed Checkpoint后面的More detail中,能够看到每个checkpoint在每个算子中的耗时,耗时能够反映算子打checkpoint的耗时

image.png

image.png

b)      History和Summary页面

image.png

这个页面能够看到每个checkpoint的耗时,如果耗时是平均的,那么能够说明整个任务链的是健壮的;如果checkpoint的耗时是逐渐递增的说明任务链极有可能存在严重的背压,导致每次checkpoint的耗时都非常的长。

Summary页面中显示了这个所有checkpoint中统计的平均值

image.png

c)      Configuration页面

这个页面显示了checkpoint的一些配置,这些配置可以在代码中设置。

image.png


相关文章

Hive合并小文件:hive归档(archive)

Hive合并小文件:hive归档(archive)

一、概述       在HDFS中数据和元数据分别由DataNode和NameNode负责,这些元数据每个对象一般占用大约150个字节。大量的小文件相对于大文件会占用大量的NameNode内存。对Na...

MySQL运维实战之备份和恢复(8.1)xtrabackup全量备份

xtrabackup是percona开源的mysql物理备份工具。xtrabackup 8.0支持mysql 8.0版本的备份和恢复。xtrabackup 2.4支持mysql 5.7及以下版本的备份...

MinIO文件服务

MinIO文件服务

MinIO官网地址:docs.min.io/cn/一、Minio简介Minio 是一个基于Apache License v2.0开源协议的对象存储服务。它兼容亚马逊S3云存储服务接口,非常适合于存储大...

gin框架连接mysql数据库连接池泄露

gin框架连接mysql数据库连接池泄露

1、故障爆发12月1号上午10点出头,我们收到阿里云监控告警:客户官网探测异常,如图所示:然后我们DBA查看了后端数据库实例,发现数据库连接已经被用尽了,导致服务出现异常,如图所示:当时我们和客户协商...

可观测未来OpenTelemertry-结构化数据价值

可观测未来OpenTelemertry-结构化数据价值

前言开源软件和云供应商的软件开发模式已经改变了我们构建和部署软件的方式。集成开源软件,我们可以在很短时间内构建和部署一个应用程序。但这并不意味着使用和维护它们也变得更简单,随着应用程序的扩充,程序的调...

大数据自动化巡检系统(一)

大数据自动化巡检系统(一)

一、产品简介EasyCare大数据自动化巡检平台是袋鼠云自研的一款大数据集群自动化巡检调优运维平台,支持针对各类大数据组件、服务接口、其他组件等可用性、稳定性进行自动巡检,实现主动实时监控,准确定位问...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。