持续高并发写入pd与leader同步数据出错

xfworld · 2021 年12 月 21 日 01:52

目前测试的瓶颈是网络，还是 PD？
有没有部署 prometheus 去收集这些测试的信息？如果有的话，可以放出来

预期值，需要从并发量的量级（每秒多少并发请求），要充分的考虑网络带宽，客户端的处理能力，以及 tikv Raw 模式需要多少节点来支持

一般 tikv 最佳划分是 2W 个region，每个 Region 差不多 96MB，最大 144MB，基本上就一个节点 2T 的磁盘空间；

你需要自己估算下，我不清楚你的场景需求

gopher · 2021 年12 月 21 日 02:02

按照估算我们的盘的容量是足够，现在你需要哪一个监控数据我给你从面板上拿一下。并发的线程数是4000，均摊到三个节点的。现在我们也是结合日志和官方文档推测瓶颈应该是pd

gopher · 2021 年12 月 21 日 02:10

这是pd_cluster_healthy_status监控指标，我也不太清楚你需要那个指标你看要哪个我给你拿一下

xfworld · 2021 年12 月 21 日 02:16

有个案例，你们可以参考

这里的关键问题：场景的预期到底是什么？

希望这个案例能给你们提示

gopher · 2021 年12 月 21 日 02:22

我们也是直接往tikv写入的，现在是每次都能复现这个bug

xfworld · 2021 年12 月 21 日 02:38

给你的案例都上线了… 还是 4.0.8

现在的版本都5.3.x 了

然后你这边如果提供不了更多的信息，我也帮不了你，希望你能明白

gopher · 2021 年12 月 21 日 02:57

你好你需要什么信息你可以直接回复我们给你提供，你给的案例我们也认真看了可是并没有解决我们的问题。他的案例应用场景我们这不一样啊我们写入数据到六亿就停机。具体的信息发了好几次给你你留意看了吗

xfworld · 2021 年12 月 21 日 03:28

出现日志中无法访问 PD时，PD 的状态是什么？是可用，还是不可用？
整个集群的资源占用和网络流量是否有异常？

你能自己把这些描述出来么？需要来判断的问题点，或者异常点

xfworld · 2021 年12 月 21 日 03:52

从你上传的日志来看，基本上网络通讯全断了

gopher · 2021 年12 月 28 日 01:07

你好现在我们升级了版本目前是pd+tikv的配置现在写入到34亿左右的数据还是会到达pd的瓶颈

system · 2022 年10 月 31 日 19:06

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。