阿里云生产数据库出现rockdb读取出错

【 TiDB 使用环境`】生产环境
【 TiDB 版本】tidb v3.0.8
【遇到的问题】其中一个节点出现

[2022/07/14 10:31:13.553 +08:00] [WARN] [endpoint.rs:454] [error-response] [err=“[src/storage/kv/raftkv.rs:378]: RocksDb Corruption: block checksum mismatch: expected 2341394949, got 2266477260 in /data/tidb/deploy/data/db/11559286.sst offset 1232057 size 29030”]

导致一批SQL出现问题,其他节点都是正常的,就这个节点的几个sst文件出现这个问题,现在不好排查是磁盘坏道还是tidb数据库问题,并且这个节点其他文件都是正常,节点也是正常。

1)云主机的云存储底层比较复杂,底层也是分布式的,既然是分布式 就有一致性的问题。
2)查看对应tikv的日志,看看是否异常问题,有没有panic的现象?
3)查看os的日志,看看硬件有什么告警 dmesg 或者kern log?
4)可能只能通过缩容和扩容的方式重新复制一份数据。

2 我检查过tikv日志,并没有这个相关的错误
3 检查过dmesg 没有问题,上次启动还是2年多了
1 没法确认

现在节点虽然已经恢复了,并没有做什么操作,比较担心下次还会不会遇到这个问题。

那很可能就是1的情况,但是你就没证据

我们用的阿里云的Rds 数据库,底层用的是号称分布式ceph存储,这种看来就是底层ceph 存储报错了

这种头部的云厂家核心技术就是网络和存储,这是他们云产品的核心竞争力,很少用开源的,也不会对外公开他们的技术。

我看过现场运维的人敲过命令,也是用的ceph -s之类,应该是在这个基础做的定制开发

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。