云服务的cache占用大量内存,是否会对tikv有影响

tikv在机器内存不够的时候,会自动清理cache的内存使用么,还是会挂掉。最近服务很不稳定,数据库时常挂个二十分钟。另外我的单个tikv无论什么时间段,常年占用内存17g以上。cpu从16%有时候会飙到700%。这种情况有什么优化方案么,还是只能升级配置了。

TiKV 不会自动释放内存,出现的数据库挂二十分钟的具体现象是什么?不能用还是响应慢?另外 CPU 飙升的时候是否有业务再跑?如果是没有业务的时候出现 CPU 飙升,考虑拿下 CPU 火焰图:go tool pprof http://${TiDB}:10080/debug/pprof/profile?seconds=30s 。内存高问题,是否调整过 scheduler-concurrency 这个参数,考虑调整小一些观察下。

挂的话主要体现在大面积的查询超时,查询sql并不复杂。业务因为是线上,所以一定是每时每刻都有业务要跑。另外提供给第三方的注册入口有并发写入,当长时间持续并发写入,对登录和其他查询也会有影响,导致超时查询的概率会有所增加

分析 tikv 负载飙升的原因需要提供监控信息进行分析,另外数据库挂是指 tikv 节点挂吗?是服务终止进程异常退出,还是响应缓慢?需要收集下述信息:

1、拿下 CPU 火焰图:go tool pprof http://${TiDB}:10080/debug/pprof/profile?seconds=30s,包括服务正常和异常的连续的时间段

2、服务异常的 tikv 节点的 log 日志,以及操作系统 demsg 和 message 日志,包括服务正常和异常的连续的时间段

3、提供 grafana 中 tikv-details 整个监控面板信息,包括服务正常和异常的连续的时间段

第一点我那个报 go: command not found可能是go语言没设置。 第二个的话没有找到,第三个只有七号的tidb界面的,tikv的是空。 不知道是不是集群停止和启动的关系。

非常抱歉,只能提供这样的图。没有找到detail的信息,版本是2.1的

请问下现在还有问题吗 ?

现在比较稳定了,增加了cpu的配置,然后把写入的接口改成了非实时的批量写入。目前感觉正常了

:+1::+1::+1: