为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。
若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。
我们刚刚尝试搭建tidb,目前正在进行insert性能测试。发现insert无法超过30k ops,请问关注哪些监控指标可以能够方便的找到性能瓶颈?或是否有完整的最佳实践?或者我应该如何进行排查?
服务器配置如下:
node 数量6
tidb-server 2
pd 3
tikv 3
cpu 32c
内存128g
硬盘 200G1 ssd 3.2T12
{'tidb_log_dir': '{{ deploy_dir }}/log', 'dummy': None, 'tidb_port': 4000, 'tidb_status_port': 10080, 'tidb_cert_dir': '{{ deploy_dir }}/conf/ssl'}
系统信息
+----------------------------------+-----------------------+
| Host | Release |
+----------------------------------+-----------------------+
| JXQ-xxx-56 | 3.10.0-693.el7.x86_64 |
| JXQ-xxx-62 | 3.10.0-693.el7.x86_64 |
| JXQ-xxx-64 | 3.10.0-693.el7.x86_64 |
| JXQ-xxx-66 | 3.10.0-693.el7.x86_64 |
| JXQ-xxx-71 | 3.10.0-862.el7.x86_64 |
| JXQ-xxx-74 | 3.10.0-693.el7.x86_64 |
+----------------------------------+-----------------------+
TiDB 集群信息
+--------------------+--------------+------+----+------+
| TiDB_version | Clu_replicas | TiDB | PD | TiKV |
+--------------------+--------------+------+----+------+
| 5.7.25-TiDB-v3.0.2 | 3 | 2 | 3 | 5 |
+--------------------+--------------+------+----+------+
集群节点信息
+------------+--------------+
| Node_IP | Server_info |
+------------+--------------+
| instance_1 | tikv |
| instance_2 | tikv |
| instance_3 | tidb+pd |
| instance_4 | tikv |
| instance_5 | tikv+pd |
| instance_0 | pd+tikv+tidb |
+------------+--------------+
容量 & region 数量
+---------------------+-----------------+--------------+
| Storage_capacity_GB | Storage_uesd_GB | Region_count |
+---------------------+-----------------+--------------+
| 1122.06 | 101.03 | 4130 |
+---------------------+-----------------+--------------+
QPS
+----------+----------------+-----------------+
| Clu_QPS | Duration_99_MS | Duration_999_MS |
+----------+----------------+-----------------+
| 19253.58 | 1.91 | 31.80 |
+----------+----------------+-----------------+
热点 region 信息
+---------+----------+-----------+
| Store | Hot_read | Hot_write |
+---------+----------+-----------+
| store-1 | 0 | 92 |
| store-5 | 0 | 0 |
| store-4 | 0 | 48 |
| store-7 | 1 | 34 |
| store-6 | 0 | 39 |
+---------+----------+-----------+
磁盘延迟信息
+--------+------------+-------------+--------------+
| Device | Instance | Read_lat_MS | Write_lat_MS |
+--------+------------+-------------+--------------+
| sda | instance_0 | nan | 983.46 |
| sda | instance_1 | nan | 197.20 |
| sda | instance_3 | nan | 0.02 |
| sda | instance_5 | nan | 116.57 |
| sda | instance_2 | nan | 0.53 |
| sda | instance_4 | nan | 3.57 |
| sdb | instance_0 | nan | nan |
| sdb | instance_1 | nan | nan |
| sdb | instance_3 | nan | nan |
| sdb | instance_5 | nan | nan |
| sdb | instance_2 | nan | 0.04 |
| sdb | instance_4 | nan | nan |
| sdc | instance_0 | nan | nan |
| sdc | instance_1 | nan | nan |
| sdc | instance_3 | nan | nan |
| sdc | instance_5 | nan | nan |
| sdc | instance_2 | nan | 0.00 |
| sdc | instance_4 | nan | nan |
| sdd | instance_0 | nan | nan |
| sdd | instance_1 | nan | nan |
| sdd | instance_3 | nan | nan |
| sdd | instance_5 | nan | nan |
| sdd | instance_2 | nan | 0.00 |
| sdd | instance_4 | nan | nan |
| sde | instance_0 | nan | nan |
| sde | instance_1 | nan | nan |
| sde | instance_3 | nan | nan |
| sde | instance_5 | nan | nan |
| sde | instance_2 | nan | 0.04 |
| sde | instance_4 | nan | nan |
| sdf | instance_0 | nan | nan |
| sdf | instance_1 | nan | nan |
| sdf | instance_3 | nan | nan |
| sdf | instance_5 | nan | nan |
| sdf | instance_2 | nan | nan |
| sdf | instance_4 | nan | nan |
| sdg | instance_0 | nan | nan |
| sdg | instance_1 | nan | nan |
| sdg | instance_3 | nan | nan |
| sdg | instance_5 | nan | nan |
| sdg | instance_2 | nan | 0.00 |
| sdg | instance_4 | nan | nan |
| sdh | instance_0 | nan | nan |
| sdh | instance_1 | nan | nan |
| sdh | instance_3 | nan | nan |
| sdh | instance_5 | nan | nan |
| sdh | instance_2 | nan | nan |
| sdh | instance_4 | nan | nan |
| sdi | instance_0 | nan | nan |
| sdi | instance_1 | nan | nan |
| sdi | instance_3 | nan | nan |
| sdi | instance_5 | nan | nan |
| sdi | instance_2 | nan | 0.04 |
| sdi | instance_4 | nan | nan |
| sdj | instance_0 | nan | nan |
| sdj | instance_1 | nan | nan |
| sdj | instance_3 | nan | nan |
| sdj | instance_5 | nan | nan |
| sdj | instance_2 | nan | 0.04 |
| sdj | instance_4 | nan | nan |
| sdk | instance_0 | nan | nan |
| sdk | instance_1 | nan | nan |
| sdk | instance_3 | nan | nan |
| sdk | instance_5 | nan | nan |
| sdk | instance_2 | nan | 0.00 |
| sdk | instance_4 | nan | nan |
| sdl | instance_0 | nan | nan |
| sdl | instance_1 | nan | nan |
| sdl | instance_3 | nan | nan |
| sdl | instance_5 | nan | nan |
| sdl | instance_2 | nan | 0.04 |
| sdl | instance_4 | nan | nan |
| sdm | instance_0 | nan | nan |
| sdm | instance_1 | nan | nan |
| sdm | instance_3 | nan | nan |
| sdm | instance_5 | nan | nan |
| sdm | instance_2 | nan | nan |
| sdm | instance_4 | nan | nan |
+--------+------------+-------------+--------------+
确实有热点写入,建议看看能不能通过 SHARD_ROW_ID_BITS 或者其他方式打散