canal原理及使用

浩客2年前 (2023-12-29)技术文章1908

什么是canal

canal，主要用途是基于 MySQL 数据库增量日志解析，提供增量数据订阅和消费。

这里我们可以简单地把canal理解为一个用来同步增量数据的一个工具。

工作原理

MySQL主备复制原理

MySQL master 将数据变更写入二进制日志( binary log, 其中记录叫做二进制日志事件binary log events，可以通过 show binlog events 进行查看)
MySQL slave 将 master 的 binary log events 拷贝到它的中继日志(relay log)
MySQL slave 重放 relay log 中事件，将数据变更反映它自己的数据

canal 工作原理

canal 模拟 MySQL slave 的交互协议，伪装自己为 MySQL slave ，向 MySQL master 发送dump 协议
MySQL master 收到 dump 请求，开始推送 binary log 给 slave (即 canal )
canal 解析 binary log 对象(原始为 byte 流)

1、开启mysql binlog功能
开启之后对mysql的性能会有一定的影响

# 修改my.cnf
vim /etc/my.cnf

[mysqld]    
# 打开binlog
log-bin=mysql-bin
# 选择ROW(行)模式
binlog-format=ROW
# 配置MySQL replaction需要定义，不要和canal的slaveId重复
server_id=1


# 改了配置文件之后，重启MySQL，使用命令查看是否打开binlog模式：
service mysqld restart
# 进入mysql命令行验证一下
show variables like 'log_bin';


2、搭建canal
# 解压到指定目录下
tar -xvf canal.deployer-1.1.4.tar.gz 

#修改配置文件conf/example/instance.properties
# mysql地址
canal.instance.master.address=master:3306
# mysql用户名和密码
canal.instance.dbUsername=root
canal.instance.dbPassword=123456

# 增加canal数据采集之后写入kafkatopic
# 动态topic,每一个表自动创建一个topic
canal.mq.dynamicTopic=bigdata\\..*

# 修改配置文件conf/canal.properties
# zookeeper的地址，如果有多台需要写多个使用逗号分隔
canal.zkServers = master:2181
# canal保存数据的位置
canal.serverMode = kafka
# kafka地址列表
canal.mq.servers = master:9092

# 启动Canal   启动后会出现进程CanalLauncher
# 启动canal之前需要先保证kafka处于启动状态
cd /usr/local/soft/canal/bin/
# 启动
./startup.sh
# 停止
stop.sh
# 重启
restart.sh


## 测试

-- 在mysql创建表插入数据

mysql -uroot -p123456

use `bigdata`;

-- 创建表
CREATE TABLE `order`
(
    id          BIGINT UNIQUE PRIMARY KEY AUTO_INCREMENT COMMENT '主键',
    order_id    VARCHAR(64)   COMMENT '订单ID',
    amount      DECIMAL(10, 2) COMMENT '订单金额',
    create_time DATETIME       COMMENT '创建时间',
    UNIQUE uniq_order_id (`order_id`)
) COMMENT '订单表';

--  插入数据

INSERT INTO `order`(order_id, amount) VALUES ('100', 66);
UPDATE `order` SET amount = 88 WHERE order_id = '100';
DELETE  FROM `order` WHERE order_id = '100';

-- 查看kafka中是否出现topic

kafka-topics.sh --list  --zookeeper  master:2181,node1:2181,node2:2181

--会出现bigdata.order

-- 消费数据
kafka-console-consumer.sh --bootstrap-server master:9092 --from-beginning --topic bigdata.order

返回列表

上一篇：数据湖Iceberg

下一篇：FLink-Canal

Kafka日志管理

Kafka在运行时会生成大量的日志记录信息，包含了运行状态、错误信息、性能指标等。这些日志文件会占用很大的磁盘空间，过多的日志文件也会影响Kafka的性能，因此需要采取一些日志管理措施来清理无用的日志...

Ambari部署

Ambari 官方资料入口：https://www.cloudera.com/products/open-source/apache-hadoop/apache-ambari.htmlAmbari 相...

Elasticsearch查询优化

1 使用更快的硬件查询性能大部分场景下更多的在于IO能力，很多时候查询速度受限于磁盘IO能力，使用SSD会比旋转类存储介质好得多。如果查询类型属于计算比较多的，则可以考虑使用更快的CPU。2 为文件系...

PG的表膨胀

1 什么是表膨胀众所周知，PostgreSQL的多版本并发是通过保留变更前的记录来实现的。当数据记录被DML修改，旧版本记录仍保留不变，仅仅需要修改相关记录的xmin、xmax属性，并新增写入变更后的...

CDP实操--配置KNOX SSO（五）

1.1配置Atlas的SSO身份验证在Knox SSO的topology里配置Knox与LDAP集成认证如下，并重启Knox服务role=authenticationauthentication.na...

MongoDB的写入安全级别

一、MongoDB写入安全级别为提高数据写入的安全性，在客户端可以设置相应的安全级别来进行控制，MongoDB提供四种写入级别，分别是：1、非确认式写入（Unacknowledged）非确认式写入不会...

canal原理及使用

什么是canal

工作原理

相关文章

Kafka日志管理

Ambari部署

Elasticsearch查询优化

PG的表膨胀

CDP实操--配置KNOX SSO（五）

MongoDB的写入安全级别

发表评论

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号

canal原理及使用

什么是canal

工作原理

相关文章

Kafka日志管理

Ambari部署

Elasticsearch查询优化

PG的表膨胀

CDP实操--配置KNOX SSO（五）

MongoDB的写入安全级别

发表评论 取消回复

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?dcf8139ce75b768b71dccc5e589b983c"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

发表评论

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号