关于热点数据处理想请教一下

kang · 2024 年11 月 23 日 10:04

当从mysql导入数据，有一张大表并且主键id自增导入到tidb中导致有tidb中有热点数据，
这时候如果重新导入数据量太大不现实，应该如何处理这张表呢？
直接在这张表上split可以吗？

xfworld · 2024 年11 月 24 日 01:33

看看是否可以变更为 auto_random 的主键，自动 split

如果需要手动 split 要考虑前提规划好 region，需要提前生成，但是主键不够分散，仍然会有热点

有猫万事足 · 2024 年11 月 24 日 06:44

一定要主键id自增，那就只能使用非聚簇索引表+shade_rowid_bits.

zhanggame1 · 2024 年11 月 25 日 02:11

非聚簇表除非tikv数据量很多，要是3个tikv比聚簇表慢不少

tidb菜鸟一只 · 2024 年11 月 25 日 03:20

现在的问题是，导入完成了？查询的时候有热点？还是导入一半，写入的时候有热点嫌导入的太慢？导入方式是什么？

有猫万事足 · 2024 年11 月 25 日 05:41

可是自增id用聚簇是根本没法用的。

zhanggame1 · 2024 年11 月 25 日 06:17

没那么夸张，自增默认是也是多个tidb节点分布式各自自增各自的

有猫万事足 · 2024 年11 月 25 日 10:20

这么一想好像确实是可以的。

cchouqiang · 2024 年11 月 26 日 01:35

kevinsna · 2024 年11 月 26 日 10:33