这个表测试数据,大概在7千万条左右,该表使用了tiflash列式存储,但是在测试使用时发现,有时候查询会很慢,返回错误9005 region is unavailable。有时候过一段时候又没问题了。这是什么原因?感觉tiflash很不稳定。(集群环境中 tiflash节点配置了一个,cpu 32,内存64G)。报错时查询tiflash是显示正常在线状态,且sql查询tiflash副本也是正常可用状态。
请问是什么版本?另外在查询出现 9005 报错的时候,有观察到日志里面有异常信息吗?
v4.0.6 , tiflash_error.log日志里面没有看到异常信息。
麻烦把 log 目录下包括异常时间段的日志打包传上来,另外说明下异常的时间段。
日志里面没有看到明显的报错,能否看下当时监控里面节点的 CPU以及磁盘负载情况?
tidb-test-TiFlash-Summary_2021-01-18T08_42_09.543Z.json (1.9 MB) tidb-test-Overview_2021-01-18T08_42_42.657Z.json (3.1 MB)
请问查询不稳定的 query 有哪些呢?是只有带 limit 的 count 查询不稳定吗?单独的 count 查询时间是否稳定呢?
不是某一类查询不稳定,单独的count查询也会有返回9005报错的情况。是在使用过程中有时候查询tiflash的表返回9005报错,和sql的内容看起来是没有关系。大部分时候查询都是正常,但是在少数不确定的情况下会出现查询tiflash的表速度很慢且最后返回报错的情况。
- 从 tiflash 的日志和监控可以确认 tiflash 这边没有异常,可以帮忙再发一下异常期间 tidb 的日志吗?
- 另外是否可以发一些其他 query (不带 limit) 不稳定情况下执行的截图?
我也有这样的问题。我不是不稳定。肯定就查不了
我 ALTER TABLE tpch50
.lineitem
SET TIFLASH REPLICA 0
在创建复本也没用
具体问题可以在开个贴子详细描述下哈。