短暂宕机

【 TiDB 使用环境】测试环境 /测试/ Poc
【 TiDB 版本】v7.1.1
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
短暂宕机,客户端无法连接。tiflash错误日志很多。
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】











各位大佬帮忙分析下原因

两个Tikv,三个TiDB,一个Tiflash?机器配置多少

3台虚拟机,都是8c+32g

2个kv是几副本的??没有高可用。某个kv波动下整个集群就不可用了

tiflash就一个

3个以下tikv我只试过1个tikv和3个tikv部署,还没试过2个tikv是否稳定;
看上去是114主机的问题?可以试试把114的tidb驱逐,然后看看主机的日志

问题是在114上,114装的tiflash。114的tidb干掉?还是再扩个tiflash节点好?

从截图上看,你的tiflash cpu瓶颈很明显,我的意思是把114上的tidb server干掉,只保留一个tiflash;
如果再测,可以用dstat 1看看主机的负载;
另外tiflash日志没看到宕机重启的记录,方便的话发下?

:joy:我从你的截图上看tiflash在不停地重启
image

1 个赞

:joy:见笑了

理解成我手工重启了 :joy:

日志900多M有点大

切割下,看看里面有没有start / out of / shutdown /abort的关键词

好的 :grinning:

tiflash.rar (13.7 MB)

有劳啦 :handshake:

[2023/11/16 15:16:35.470 +08:00] [INFO] [FlashService.cpp:163] ["Handling coprocessor request, is_remote_read: true, start ts: 445675976869281798, region info: 1043, region epoch: conf_ver: 4\nversion: 116\n"] [source=FlashService] [thread_id=222]
[2023/11/16 15:16:35.481 +08:00] [DEBUG] [LateMaterializationBlockInputStream.cpp:100] ["Late materialization skip read block at start_offset: 1642772, rows: 2545"] [source="LateMaterializationBlockInputStream CoprocessorHandler table_id=97"] [thread_id=7]
[2023/11/16 15:16:35.519 +08:00] [INFO] [FlashService.cpp:163] ["Handling coprocessor request, is_remote_read: true, start ts: 445675975558561814, region info: 700, region epoch: conf_ver: 4\nversion: 66\n"] [source=FlashService] [thread_id=285]
[2023/11/16 15:16:54.940 +08:00] [INFO] [BaseDaemon.cpp:1172] ["Welcome to TiFlash"] [thread_id=1]
[2023/11/16 15:16:54.940 +08:00] [INFO] [BaseDaemon.cpp:1173] ["Starting daemon with revision 54381"] [thread_id=1]
[2023/11/16 15:16:54.940 +08:00] [INFO] [BaseDaemon.cpp:1176] ["TiFlash build info: TiFlash\nRelease Version: v7.1.1\nEdition:         Community\nGit Commit Hash: 338634ade2b7cf60c9a993c44c259bfe69b9ad7b\nGit Branch:      heads/refs/tags/v7.1.1\nUTC Build Time:  2023-07-13 09:56:39\nEnable Features: jemalloc sm4(GmSSL) avx2 avx512 unwind thinlto\nProfile:         RELWITHDEBINFO\n"] [thread_id=1]
[2023/11/16 15:16:54.940 +08:00] [INFO] [<unknown>] ["starting up"] [source=Application] [thread_id=1]

看不出什么问题,除了日志截断和tiflash启动记录 :upside_down_face:
你只连了一个tidb server吗?是的话,可以发下出问题那段时间的tidb server log和 pd log

我看下程序的配置文件

资源拓扑图能看下吗?