flink应用场景分析

南墨2年前 (2023-12-06)技术文章706

• Flink适合场景:

• 实时数据流处理，对实时的海量数据流进行处理，例如：实时ETL、实时报表、监控预警等

• 支持对接多种数据源，多种类数据源，例如Kafka，Hbase，DB均能够作为Flink前后的输入端和输出端

• Flink不适合的场景：

• 使用Flink作为数据源的桥接器时，前端使用的输出组件性能远大于后端的输入组件。例如：从kafka消费数据直接写入oracle、GaussDB。Kafka的输出性能远比oracle、GaussDB写入性能高。

• Flink使用建议：

• Flink任务是依赖于yarn，建议使用单独的队列或者资源池，不跟其它的短期任务（例如：spark，MR任务等合用一个资源池）合并使用。

• Flink任务启动方式分为yarn-cluster和yarn-session两种启动方式，如果有多个Flink有界任务，建议使用yarn-session统一管控；如果是无界的流式任务使用yarn-cluster启动。

返回列表

3.0.1 spark on yarn安装（每个节点） cd /root/bigdata/ tar -xzvf spark-3.3.1-bin-hadoop3.tgz -C /opt/ ln -s...

通过使用distcp进行数据全量迁移DistCp（分布式拷贝）是用于大规模集群内部和集群之间拷贝的工具。它使用Map/Reduce实现文件分发，错误处理和恢复，以及报告生成。它把文件和目录的列表作...

背景：最近公司有个需求，要在POD应用容器里面能够访问到一些外部域名，这些域名都在一台自建的DNS服务器上做了解析绑定。如果直接在Pod容器里的/etc/hosts文件中设置域名解析，或修改/etc/...

有的时候，我们会遇到这样的情况：明明有索引，明明有更好的执行计划，但是优化器并没有选择这个最优的执行计划。优化器可能会选择并非最优的索引，可能选择并非最优的数据访问方式。下面是一个真实的例子：一个例子...

1、dm数据库初始化认证dm数据库默认开启了ssl，在第一次登录时，使用SYSDBA用户登录，需要通过命令指定对应的ssl文件。不然会出现ssl 初始化失败的报错./disql SYSDBA/SYSD...

问题描述调用oss的bucket资源,开始的时候可以访问,过几分钟再访问的时候,就提示拒绝访问问题原因是因为相应的bucket权限为私有，私有权限在访问文件对象时，是存在鉴权URL，存在时间有效性，所...