flink应用场景分析

南墨2年前技术文章706

       Flink适合场景:

       实时数据流处理,对实时的海量数据流进行处理,例如:实时ETL、实时报表、监控预警等

       支持对接多种数据源,多种类数据源,例如Kafka,Hbase,DB均能够作为Flink前后的输入端和输出端

       Flink不适合的场景:

       使用Flink作为数据源的桥接器时,前端使用的输出组件性能远大于后端的输入组件。例如:从kafka消费数据直接写入oracle、GaussDB。Kafka的输出性能远比oracle、GaussDB写入性能高。

       Flink使用建议:

       Flink任务是依赖于yarn,建议使用单独的队列或者资源池,不跟其它的短期任务(例如:spark,MR任务等合用一个资源池)合并使用。

       Flink任务启动方式分为yarn-cluster和yarn-session两种启动方式,如果有多个Flink有界任务,建议使用yarn-session统一管控;如果是无界的流式任务使用yarn-cluster启动


相关文章

开源大数据集群部署(二十一)Spark on yarn 部署

开源大数据集群部署(二十一)Spark on yarn 部署

3.0.1 spark on yarn安装(每个节点) cd /root/bigdata/ tar -xzvf spark-3.3.1-bin-hadoop3.tgz -C /opt/ ln -s...

hdfs数据迁移

hdfs数据迁移

通过使用distcp进行数据全量迁移DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作...

k8s集群内的DNS原理与配置

背景:最近公司有个需求,要在POD应用容器里面能够访问到一些外部域名,这些域名都在一台自建的DNS服务器上做了解析绑定。如果直接在Pod容器里的/etc/hosts文件中设置域名解析,或修改/etc/...

MySQL性能优化(九)range和ref

MySQL性能优化(九)range和ref

有的时候,我们会遇到这样的情况:明明有索引,明明有更好的执行计划,但是优化器并没有选择这个最优的执行计划。优化器可能会选择并非最优的索引,可能选择并非最优的数据访问方式。下面是一个真实的例子:一个例子...

达梦数据库初始化

达梦数据库初始化

1、dm数据库初始化认证dm数据库默认开启了ssl,在第一次登录时,使用SYSDBA用户登录,需要通过命令指定对应的ssl文件。不然会出现ssl 初始化失败的报错./disql SYSDBA/SYSD...

OSS bucket权限设置

OSS bucket权限设置

问题描述调用oss的bucket资源,开始的时候可以访问,过几分钟再访问的时候,就提示拒绝访问问题原因是因为相应的bucket权限为私有,私有权限在访问文件对象时,是存在鉴权URL,存在时间有效性,所...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。