新增Kafka实时采集
本节介绍如何在实时计算中配置Kafka实时采集任务。
实时计算支持Kafka数据库的实时采集,并实时将变更信息同步至目标数据源。
操作步骤
具体操作可参考快速开始中的 实时采集。
写入Kafka目标源
数据有序
平台支持用户在写入Kafka目标源的过程中开启数据有序开关,以保证数据在写入Kafka Topic Partition的过程中有序;
当用户开启数据有序时,读取、写入并发度必须为一 |
写入分区逻辑
平台会根据用户所选采集表的数量和采集方式有不同的写入逻辑:
采集数量 | 采集源 | 数据有序 | 写入设置 | 读取并发度 | 写入规则 |
---|---|---|---|---|---|
单表 |
所有数据源 |
关闭 |
不设置Partition Key |
不限制 |
随机写入所有Topic Partition |
单表 |
所有数据源 |
开启 |
不设置Partition Key |
读取、写入并发度为1 |
默认写入第一个Topic Partition且数据有序 |
单表 |
所有数据源 |
关闭 |
设置Partition Key:当源表为MySQL、Oracle间隔轮询模式时,Partition Key必须包含在采集字段中 |
不限制 |
根据Partition Key分区写入,同一Key值保证在同一分区内 |
单表 |
所有数据源 |
开启 |
设置Partition Key |
读取、写入并发度为1 |
根据Partition Key分区写入,同一Key值保证在同一分区内且数据有序 |
多表 |
MySQL Binlog、 Oracle LogMiner |
关闭 |
/ |
不限制 |
根据 |
多表 |
MySQL Binlog、 Oracle LogMiner |
开启 |
/ |
读取、写入并发度为1 |
根据 |
当存在表数量 > Partition 数量时,根据Hash取余的规则将写入到不同的Partition中。 |