SQL 跨库查询，怎么优化

yuelu86 · 2019 年11 月 7 日 08:21

为提高效率，提问时请尽量提供详细背景信息，问题描述清晰可优先响应。以下信息点请尽量提供：

【系统版本 & kernel 版本】 centos7
【TiDB 版本】 tidb v2.1.1
【磁盘型号】 ssd
【集群节点分布】 2tidb+3PD+3tikv
【数据量 & region 数量 & 副本数】 2
【问题描述（我做了什么）】SQL 跨库查询，怎么优化 SQL 跨库查询，怎么优化现在从应用本身的数据库查询很快，但是需要跨其他的数据库查询，这样就很慢，请问有什么优化措施吗？

GangShen · 2019 年11 月 7 日 08:35

请问具体的跨库查询操作是怎么样的？

yuelu86 · 2019 年11 月 7 日 08:48

在tidb实例下有两个数据库、customerdb、employeedb客户数据库和人事数据库，现在有一个应用通过关联关系通过SQL在两个数据库下查询 SQL如下： SELECT DISTINCT cr.customer_id FROM tb_customer_relationship cr where EXISTS ( select e.id_number FROM employeedb.employee e JOIN employeedb.employee_record er ON e.user_id = er.oid WHERE e.id_number = cr.employee_certi_no and (er.employee_status = 8 or e.std_is_deleted = 1) )

GangShen · 2019 年11 月 7 日 08:52

可以提供一下 explain analyze 的执行计划吗

yuelu86 · 2019 年11 月 7 日 08:56

其实这是其中一个SQL，这样的SQL还是很多的。

GangShen · 2019 年11 月 7 日 09:25

这个跨库关联查询的关联操作都是在 TiDB 层完成的，无法利用 Coprocessor 下推到 TiKV 层利用 TiKV 的计算资源，所以效率上会比较低，而且下推的 Coprocessor 也是 tablescan ，属于低效操作

yuelu86 · 2019 年11 月 7 日 09:27

能不能给一个推荐的优化方案，优化SQL也行。

GangShen · 2019 年11 月 7 日 09:42

可以看下

explain analyze SELECT e.id_number
FROM employeedb.employee e
JOIN employeedb.employee_record er ON e.user_id = er.oid
WHERE e.id_number = cr.employee_certi_no
AND (er.employee_status = 8
OR e.std_is_deleted = 1

子查询的执行计划以及

explain analyze
SELECT e.id_number
FROM employeedb.employee e
JOIN employeedb.employee_record er ON e.user_id = er.oid
WHERE e.id_number = cr.employee_certi_no
AND er.employee_status = 8
union
SELECT e.id_number
FROM employeedb.employee e
JOIN employeedb.employee_record er ON e.user_id = er.oid
WHERE e.id_number = cr.employee_certi_no
AND e.std_is_deleted = 1

的执行计划

不一样的卡梅拉找大海 · 2019 年11 月 9 日 07:53

1。建议先从架构层面优化。 yuelu86
中心数据库是按照三范式设计的，面向业务端单表的增删改查。
同时跨库场景为联合客户和员工表统计。
类似这种需求应从服务中心（类似数仓的服务层）整合数据之后提供。
2。尽快升级3.0
3.0版本对SQL多表关联查询有一定优化，性能翻倍。
3、后续版本希望能够将利用Coprocessor 结合pd元数据信息将不需要数据迁移的在节点完成join后返回 @ gangshen-PingCAP

system · 2022 年10 月 31 日 19:10

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。