求使用TiDB做数据仓库/数据汇聚库的方案规划及生态工具建议

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:4.0.0
  • 【问题描述】:计划在一个项目上试用tidb,尝试先做一个数据汇聚库,再逐步往数据仓库层次推进。 主要用途:用于历史数据查询、统计以及第三方厂商的实时数据分析。 主要目的:为了解决数据安全和生产库的稳定。避免第三方的数据分析统计直接从生产库去获取数据带来的安全风险和业务上的性能损耗。 源库(生产库):混合云,云上云下都有。主要是阿里云的RDS-5.6/5.7、以及MySQL-5.6/5.7/8.0、SQL server 2008/2012、Oracle 11G/12C、还有少数几套postgresql和MongoDB。不能使用binlog方式。只能通过去生产库抽取数据,再推送到汇聚库上。平时使用 Kettle 做数据推送,但是感觉使用效果不太理想。 汇聚条件:约有一百多套数据库,只抽取每库中的固定的十几张表,按周/按日推送到汇聚库的独立库中(即每套源库对应汇聚库中的一个库,汇聚库上分库分帐号,一一对应,不需要整合为一个库)。当前每张表的行记录约7000万行以上,每张表的数据大小约10G-30G以上。 要求: 1、源库和汇聚库的表结构一致; 2、可以按日或按周增量; 3、不能影响正式库的正常运行。 求方案规划及相关生态工具的建议。望各位老师不吝赐教。谢谢。
  1. mysql 的可以使用 DM 来同步,8.0当前不支持,其他版本也请参考官方文档是否兼容
  2. oracle 可以考虑 ogg同步 3.sqlserver 可以参考 tidb-in-action 里的文章 https://book.tidb.io/session4/chapter5/from-sqlserver-to-tidb.html https://book.tidb.io/session4/chapter5/from-sqlserver-to-tidb-using-datax.html
  3. pg 没有好的方案
  4. mongodb 参考 https://book.tidb.io/session4/chapter5/from-mongodb-to-tidb.html

OK 感谢 很有用的建议

:handshake: