数据迁移后标注数据来源

请问大家,我想在迁移完数据后增加一个类似标识来查看数据来源,方便知道这条数据来源。目前想到的处理方式是在表上增加一个字段,然后迁移完成后,这个字段做update操作,比如 update table set data_source=‘迁移数据’。这种单张表还好,表多了的话还适不适合用这种方式?有木有更好的方法呀

每行都要标记的话只能用加字段来实现了吧

加个字段,比如数据来源,迁移到时候直接插入或者后期update

没什么更好办法

其实还真有,只不过文档中没有说过(不知道为什么)

使用方法可以参考这个测试样例 https://github.com/pingcap/tiflow/blob/master/dm/tests/extend_column/conf/dm-task.yaml

这是 issue https://github.com/pingcap/tiflow/issues/3340

加个字段给默认值

:yum:加个字段,然后每次迁移前修改这个字段的default值,不知道和update相比哪个更快一点。

我们这边是加个时间戳,统一记录要迁移的时间点。

加时间戳可以

:yum:还有一个方法,每次迁移完都rename一下,每个数据源一张表,这样就类似分表了。rename应该特别快。
查询的时候就用视图查询。

难道不是给表加个备注更快?

楼主的一张表不同行数据来源不一样

同一张表,根据数据来源不同增加一个字段标记数据来源,看什么工具了,如果是kafka或者kettle之类的,可以单独增加一个列设置对应值迁移,如果是dm或者cdc的话目前应该是不支持的吧。update这种应该是效率最低的,还不如设置default值呢。。。

备份时的路径可以包含上源的名字命名呀