云服务的cache占用大量内存，是否会对tikv有影响

Hacker_geAzbQk0 · 2019 年12 月 5 日 07:07

tikv在机器内存不够的时候，会自动清理cache的内存使用么，还是会挂掉。最近服务很不稳定，数据库时常挂个二十分钟。另外我的单个tikv无论什么时间段，常年占用内存17g以上。cpu从16%有时候会飙到700%。这种情况有什么优化方案么，还是只能升级配置了。

不懂就问 · 2019 年12 月 5 日 12:40

TiKV 不会自动释放内存，出现的数据库挂二十分钟的具体现象是什么？不能用还是响应慢？另外 CPU 飙升的时候是否有业务再跑？如果是没有业务的时候出现 CPU 飙升，考虑拿下 CPU 火焰图：go tool pprof http://${TiDB}:10080/debug/pprof/profile?seconds=30s 。内存高问题，是否调整过 scheduler-concurrency 这个参数，考虑调整小一些观察下。

Hacker_geAzbQk0 · 2019 年12 月 5 日 15:55

挂的话主要体现在大面积的查询超时，查询sql并不复杂。业务因为是线上，所以一定是每时每刻都有业务要跑。另外提供给第三方的注册入口有并发写入，当长时间持续并发写入，对登录和其他查询也会有影响，导致超时查询的概率会有所增加

zhenjiaogao · 2019 年12 月 6 日 02:10

分析 tikv 负载飙升的原因需要提供监控信息进行分析，另外数据库挂是指 tikv 节点挂吗？是服务终止进程异常退出，还是响应缓慢？需要收集下述信息：

1、拿下 CPU 火焰图：go tool pprof http://${TiDB}:10080/debug/pprof/profile?seconds=30s，包括服务正常和异常的连续的时间段

2、服务异常的 tikv 节点的 log 日志，以及操作系统 demsg 和 message 日志，包括服务正常和异常的连续的时间段

3、提供 grafana 中 tikv-details 整个监控面板信息，包括服务正常和异常的连续的时间段

Hacker_geAzbQk0 · 2019 年12 月 7 日 08:50

第一点我那个报 go: command not found可能是go语言没设置。
第二个的话没有找到，第三个只有七号的tidb界面的，tikv的是空。
不知道是不是集群停止和启动的关系。

非常抱歉，只能提供这样的图。没有找到detail的信息，版本是2.1的

小王同学 · 2019 年12 月 10 日 04:09

请问下现在还有问题吗？

Hacker_geAzbQk0 · 2019 年12 月 14 日 02:47

现在比较稳定了，增加了cpu的配置，然后把写入的接口改成了非实时的批量写入。目前感觉正常了

张鱼小丸子-PingCAP · 2019 年12 月 14 日 07:24

system · 2022 年10 月 31 日 19:04

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。