• 面试官:MySQL JOIN 表太多,你有哪些优化思路?

面试官:MySQL JOIN 表太多,你有哪些优化思路?

2025-06-04 10:00:07 栏目:宝塔面板 104 阅读

工作中,我们有时会遇到 MySQL join 表太多的情况,可能来自两个背景,一个是历史老代码,一个是去 o(Oracle) 改造,从 Oracle 迁移到 MySQL 的 SQL。

多张表的 join 很可能会带来问题,引发生产事故,增加后期维护成本。一个新系统上线时可能测不出问题,但随着数据量的增加,问题就会逐渐暴露出来了。

阿里开发手册中明确规定禁止三个表禁止 join。

图片

那对于 MySQL 中 join 表多的 SQL,一般该怎么优化呢?

多个表使用 join 语句的根本原因是业务代码需要整合多张表里面的字段才能完成处理。那具体怎样优化呢?先来模拟一个多表 join 的 SQL,这里我们创建 5 张表:

CREATE TABLE`test1` (
`id`TINYINT(3) NOTNULLCOMMENT'主键ID',
`a`VARCHAR(20) DEFAULTNULL,
`b`VARCHAR(20) DEFAULTNULL,
`c`VARCHAR(200) DEFAULTNULL,
`d`TINYINT(3) DEFAULTNULL,
`create_time`TIMESTAMPNOTNULLDEFAULTCURRENT_TIMESTAMPONUPDATECURRENT_TIMESTAMPCOMMENT'创建时间',
`update_time`TIMESTAMPNOTNULLDEFAULTCURRENT_TIMESTAMPCOMMENT'更新时间',
  PRIMARY KEY (`id`),
KEY`a` (`a`),
KEY`b` (`b`),
KEY`c` (`c`),
KEY`d` (`d`)
) ENGINE=INNODBDEFAULTCHARSET=utf8

CREATETABLE test2 LIKE test1;
CREATETABLE test3 LIKE test1;
CREATETABLE test3 LIKE test1;
CREATETABLE test4 LIKE test1;

假如我们有这样一个包括多个表 join 的 SQL:

SELECT t1.id ,t1.a,t2.b,t3.c,t4.d FROM test1 t1 JOIN test2 t2 ON t1.a=t2.a JOIN test3 t3 ON t1.b=t3.b AND t3.id <= 1000 JOIN test4 t4 ON t1.c=t4.c;

1.拆分 SQL

把多张表 join 的 SQL 拆解成多个 join 语句,在应用代码中进行组合。比如拆解成 2 个 SQL:

SELECT t1.id ,t1.a,t2.b,t3.c FROM test1 t1 JOIN test2 t2 ON t1.a=t2.a JOIN test3 t3 ON t1.b=t3.b;
SELECT t1.id ,t1.a,t4.d FROM test1 t1 JOIN test4 t4 ON t1.c=t4.c;

在业务代码中对两个 SQL 结果进行组合。

2.使用临时表

在上面的优化中,我们使用了 SQL 拆分的方式。如果 test3 表的数据量比较大,比如有 100万。但 test3 表使用到的结果集只有 1000 条,可以使用临时表:

CREATE TEMPORARY TABLE temp_t3(id TINYINT PRIMARY KEY, b VARCHAR(20),INDEX(b))ENGINE=INNODB;
SELECT t1.id ,t1.a,t2.b,t3.c FROM test1 t1 JOIN test2 t2 ON t1.a=t2.a JOIN temp_t3 t3 ON t1.b=t3.b;
SELECT t1.id ,t1.a,t4.d FROM test1 t1 JOIN test4 t4 ON t1.c=t4.c;

3.使用冗余字段

比如我们把 test4 表的 d 字段冗余到 test1 表中,假定字段名叫 t4c,这样就可以减少一个 join(当然,这样违反范式了)。最后只用下面的 SQL 就可以了:

SELECT t1.id ,t1.a,t2.b,t3.c,t1.t4c FROM test1 t1 JOIN test2 t2 ON t1.a=t2.a JOIN test3 t3 ON t1.b=t3.b AND t3.id <= 1000;

这样需要先在 test1 表中增加新字段 t4c,然后把 t4c 字段的值从 test4 表中更新过去。

改造需要注意两点,一个是评估更新字段的开销,第二个是要注意数据一致性,每次更新 test4 表中的 d 字段时也需要同步更新 test1 表中的 t4c 字段。

4.用好索引

join 语句对索引的使用非常重要,我们要注意下面几点:

  • 驱动表(MySQL 会选择 where 语句筛选出记录少的表作为驱动表)和被驱动表的 join 列都应该有索引;
  • 如果 join 语句涉及表的多个列,可以考虑为这些列建一个复合索引,比如下面 SQL:
SELECT t1.id ,t1.a,t2.b,t3.c FROM test1 t1 JOIN test2 t2 ON t1.a = t2.a AND t1.b = t2.b AND t1.c = t2.c;
  • 避免索引失效,比如 = 两端数据类型不同、使用函数、表达式等情况要避免;
  • 优化 join 顺序,如果我们能确定哪个表做驱动表更合适,这时我们可以考虑使用 straight_join;
SELECT t1.id ,t1.a,t2.b,t3.c FROM test1 t1 straight_join test2 t2 ON t1.a = t2.a AND t1.b = t2.b AND t1.c = t2.c;
  • order by、limit 使用到的列尽量加上索引;
  • 通过执行计划查看索引使用情况。

5.修改查询语句

如果某一个 join 表只是判断数据行是否存在,不需要使用表里面的字段时,我们可以考虑使用 exists 或 in 语句进行优化。对于下面这个 SQL:

SELECT t1.id ,t1.a,t2.b,t3.c FROM test1 t1 JOIN test2 t2 ON t1.a=t2.a JOIN test3 t3 ON t1.b=t3.b AND t3.id <= 1000 JOIN test4 t4 ON t1.c=t4.c;

可以优化成如下 SQL:

SELECT t1.id ,t1.a,t2.b,t3.c FROM test1 t1 JOIN test2 t2 ON t1.a=t2.a JOIN test3 t3 ON t1.b=t3.b AND t3.id <= 1000 WHERE EXISTS(SELECT id FROM test4 t4 WHERE t4.d=t1.d);

6.减少结果集

减少结果集,也是一种优化手段:

  • 通过增加 where 条件来让驱动表结果集降到最小;
  • 限制返回给应用的数据量,比如对返回结果做分页;
  • 对于返回结果的列,如果不用则去掉,这样对 join_buffer 的使用也会有好处。

7.修改数据库配置

当然,也可以修改数据库一些配置,比如 join_buffer_size、tmp_table_size,增加 join_buffer 和临时表大小,但是数据库参数的修改影响范围太大了,尤其是对于老系统,坑很多,不好做影响分析,所以不建议使用。

8.引入大数据工具

如果 join 表的数据量都很大,我们也可以考虑引入大数据工具,比如 ETL、数据湖,将表数据抽取到数据仓库(比如 ClickHouse)中进行加工后把数据结果提供出来。当然,这样存在的问题是数据时效性低。

9.汇总表

如果查询时效性要求不高,可以通过定时任务把查询结果放到一张汇总表,查询的时候直接查询这张汇总表。也可以把结果放到缓存,从缓存中查询。

CREATE TABLE`test_join_result` (
`id`TINYINT(3) NOTNULLCOMMENT'主键ID',
`a`VARCHAR(20) DEFAULTNULL,
`b`VARCHAR(20) DEFAULTNULL,
`c`VARCHAR(200) DEFAULTNULL,
`d`TINYINT(3) DEFAULTNULL,
`e`TINYINT(1) DEFAULTNULL,
`create_time`TIMESTAMPNOTNULLDEFAULTCURRENT_TIMESTAMPONUPDATECURRENT_TIMESTAMPCOMMENT'创建时间',
`update_time`TIMESTAMPNOTNULLDEFAULTCURRENT_TIMESTAMPCOMMENT'更新时间',
  PRIMARY KEY (`id`)
) ENGINE=INNODBDEFAULTCHARSET=utf8

--定时任务执行下面 SQL
insertinto test_join_result(id,a,b,c,d) SELECT t1.id ,t1.a,t2.b,t3.c,t4.d FROM test1 t1 JOIN test2 t2 ON t1.a=t2.a JOIN test3 t3 ON t1.b=t3.b AND t3.id <= 1000JOIN test4 t4 ON t1.c=t4.c;

最后,对于新系统、新代码,使用多表 join 的情况比较少,因为开发规范一般不允许这样做。但是老系统或者做过数据库迁移的系统,可能会遇到这种情况。要多个因素综合考虑再下手优化。

本文地址:https://www.yitenyun.com/263.html

搜索文章

Tags

数据库 API FastAPI Calcite 电商系统 MySQL Web 应用 异步数据库 数据同步 ACK 双主架构 循环复制 TIME_WAIT 运维 负载均衡 JumpServer SSL 堡垒机 跳板机 HTTPS HexHub Docker 服务器 管理口 服务器性能 JumpServer安装 堡垒机安装 Linux安装JumpServer Deepseek 宝塔面板 Linux宝塔 生命周期 esxi esxi6 root密码不对 无法登录 web无法登录 SQL 查询 序列 核心机制 Windows Windows server net3.5 .NET 安装出错 HTTPS加密 Windows宝塔 Mysql重置密码 开源 PostgreSQL 存储引擎 锁机制 宝塔面板打不开 宝塔面板无法访问 查看硬件 Linux查看硬件 Linux查看CPU Linux查看内存 行业 趋势 Oracle 处理机制 无法访问宝塔面板 Undo Log 机制 Spring Redis 异步化 优化 万能公式 连接控制 InnoDB 数据库锁 监控 机器学习 动态查询 Serverless 无服务器 语言 ES 协同 响应模型 group by 索引 技术 openHalo 分页查询 scp Linux的scp怎么用 scp上传 scp下载 scp命令 Postgres OTel Iceberg 缓存方案 缓存架构 缓存穿透 工具 存储 高可用 GreatSQL 连接数 数据 主库 SVM Embedding 日志文件 MIXED 3 R edis 线程 国产数据库 Linux 安全 R2DBC Netstat Linux 服务器 端口 SQLite-Web SQLite 数据库管理工具 加密 场景 启动故障 ​Redis 推荐模型 Recursive 自定义序列化 防火墙 黑客 云原生 SQLark RocketMQ 长轮询 配置 共享锁 OB 单机版 AI 助手 向量数据库 大模型 Hash 字段 PG DBA Rsync Ftp 信息化 智能运维 不宕机 磁盘架构 架构 电商 系统 向量库 Milvus 数据分类 Python 修改DNS Centos7如何修改DNS 业务 IT运维 Canal 传统数据库 向量化 filelock 流量 • 索引 • 数据库 线上 库存 预扣 分库 分表 聚簇 非聚簇 MySQL 9.3 sftp 服务器 参数 PostGIS mini-redis INCR指令 MVCC 人工智能 推荐系统 语句 同城 双活 频繁 Codis redo log 重做日志 Doris SeaTunnel MongoDB MCP 开放协议 缓存 Redisson 锁芯 失效 高效统计 今天这篇文章就跟大家 工具链 数据类型 虚拟服务器 虚拟机 内存 INSERT COMPACT 事务 Java 开发 主从复制 代理 千万级 大表 prometheus Alert 数据备份 窗口 函数 容器 数据结构 ZODB 发件箱模式 SSH 分布式架构 分布式锁​ 聚簇索引 非聚簇索引 网络架构 网络配置 EasyExcel MySQL8 引擎 性能 QPS 高并发 崖山 新版本 Web B+Tree ID 字段 RDB AOF 数据脱敏 加密算法 分布式 集中式 分页 核心架构 订阅机制 Go 数据库迁移 Web 接口 OAuth2 Token Redis 8.0 速度 服务器中毒 播客 模型 数据页 数据集成工具 读写 自动重启 网络故障 容器化 DBMS 管理系统 StarRocks 数据仓库 SpringAI JOIN 排行榜 排序 池化技术 连接池 微软 SQL Server AI功能 Redka MGR 分布式集群 Caffeine CP 部署 原子性 Entity 网络 LRU 业务场景 事务隔离 Pottery Valkey Valkey8.0 Testcloud 云端自动化 dbt 数据转换工具 分页方案 排版 数据字典 兼容性 1 ReadView 优化器 事务同步 sqlmock 意向锁 记录锁 悲观锁 乐观锁 关系数据库 日志 Weaviate UUIDv7 主键 对象 单点故障 单线程 仪表盘 InfluxDB Order AIOPS UUID ID 编程 RAG HelixDB Ansible Pump Crash 代码 IT 双引擎 分布式锁 Zookeeper 产业链 恢复数据 字典 订单 LLM 线程安全 List 类型 国产 用户 慢SQL优化 表空间 拦截器 动态代理 解锁 调优 Next-Key RR 互联网 GitHub Git 快照读 当前读 视图 矢量存储 数据库类型 AI代理 神经系统 查询规划 count(*) count(主键) 行数 CAS 算法 技巧 多线程 并发控制 恢复机制 闪回