invalid connection 的问题属于可以自动恢复的错误,看日志数据也在同步
搜关键字 “dispatch auto resume task” 可以看到 client_building_relation 和 client_building_visited,平均 5 分钟左右触发一次该错误,是不是下游有什么超时设置,导致5分钟断开一次连接?建议沿路排查一下设置。包括
- TiDB wait timeout 和 interactive_timeout
- Linux 服务器内核参数中 tcp 超时时间的设置
- 链路上是否有 HAProxy 之类的代理设置