• 面试官:MySQL 使用 group by 语句时发现执行很慢,可能是什么原因?

面试官:MySQL 使用 group by 语句时发现执行很慢,可能是什么原因?

2025-06-20 03:00:03 栏目:宝塔面板 142 阅读

.大家好,我是君哥。

使用 MySQL 时,group by 是我们经常会用到的分组语句,可以帮我们做各种聚合统计工作。但有时候会发现 group by 语句执行很慢,可能是什么原因呢?今天来介绍一下。

1.简介

下面我们创建一张员工表:

CREATE TABLE`db_staff` (
`staff_id` i  nt(8) NOTNULL AUTO_INCREMENT COMMENT'员工编号',
`id_no`varchar(20) DEFAULTNULLCOMMENT'员工姓名',
`name`varchar(20) DEFAULTNULLCOMMENT'员工姓名',
`email`varchar(200) DEFAULTNULLCOMMENT'邮件地址',
`age`tinyint(3) DEFAULTNULLCOMMENT'年龄',
`sex`tinyint(1) DEFAULT'0'COMMENT'性别,0:男 1:女',
`address`varchar(300) DEFAULTNULLCOMMENT'家庭住址',
`create_time`timestampNOTNULLDEFAULTCURRENT_TIMESTAMPONUPDATECURRENT_TIMESTAMPCOMMENT'创建时间',
`update_time`timestampNOTNULLDEFAULTCURRENT_TIMESTAMPCOMMENT'更新时间',
  PRIMARY KEY (`staff_id`),
KEY`union_idno_name_email` (`id_no`,`name`,`email`)
) ENGINE=InnoDB AUTO_INCREMENT=1001DEFAULTCHARSET=utf8

然后往表中插入 20 条数据:

图片

我们用一个简单的分组函数,对年龄(age)进行分组

SELECT age,COUNT(age) ca FROM db_staff GROUP BY age;

查询结果如下图:

图片

可以看到,使用 group by 语句非常方便地对各年龄的员工数量做了统计。

2.查询分析

那使用 group by 语句时为什么会执行慢呢? 我们看一下这条 sql 的执行计划:

图片

从执行计划可以看到,这条 sql 没有走索引,并且使用到了临时表(Using temporary)和排序(Using filesort)。

注意:filesort 很容易被理解成文件排序,其实不然,MySQL 所有不走索引的排序统称为 filesort,即使数据完全在内存中排序,执行计划 Extra 也会显示 Using filesort。

下面看一下这个语句的执行流程: 

  • 创建一个内存临时表,表里有两个字段 age 和 ca,其中 age 字段是主键。
  • 扫描要查询的表中记录,取出 age 字段;
  • 如果临时表中有这条 age(比如 ag=20) 的记录,则 ca 值加 1,否则插入一条新的记录,比如(age=30,ca=1);
  • 4根据 age 做排序,将结果返回。

3.如何优化

3.1 是否需要排序

在 MySQL 8.0 以前,GROUP BY 默认是会对分组字段做排序的,即使 sql 中没写 ORDER BY,也会排序。

而且,内存中排序要用到 sort_buffer,如果 sort_buffer 内存不够,就需要依靠磁盘临时表辅助排序,非常影响性能。

如果想要 sql 语句不排序,可以在 sql 尾部加 order by null,修改后的 sql 如下:

SELECT age,COUNT(age) ca FROM db_staff GROUP BY age ORDER BY NULL;

修改后再看执行计划,Extra 字段中没有了 Using filesort。

3.2 走索引

对分组字段加索引是最好的优化方法。我们对 age 字段加一个索引:

ALTER TABLE db_staff ADD KEY age_idx(age);

修改后我们再看一下执行计划

图片

给 age 字段加上索引后,就不走临时表和 filesort 了。

3.3 磁盘临时表

前面提到过,如果 sort_buffer 内存不够,就需要依靠磁盘临时表辅助排序。为了避免使用磁盘临时表,可以考虑减小结果集,或者临时增加 sort_buffer 大小。

对于内存临时表也一样,如果内存不够,就需要依靠磁盘临时表,可以通过修改 tmp_table_size 参数来避免使用磁盘临时表。

3.4 应用层分组

对于非常复杂的聚合,可以考虑在应用层通过代码分批处理,利用多线程并发处理能力提高效率。这样可以减小数据库压力。

3.5 物理视图

对于超大表,可以考虑增加物理视图来代替 sql 分组,或者使用大数据工具。这样可以同时减少数据库和应用服务的压力,但也带来了额外维护物理视图的工作量,结果集时效性低也不高。

4.总结

group by 语句是非常好用的分组聚合函数,但如果使用不上覆盖索引,效率可能会非常低,尤其是表中数据量比较大的情况下。可以参考本文的方法进行优化。


本文地址:https://www.yitenyun.com/299.html

搜索文章

Tags

数据库 API FastAPI Calcite 电商系统 MySQL Web 应用 异步数据库 数据同步 ACK 双主架构 循环复制 JumpServer SSL 堡垒机 跳板机 HTTPS TIME_WAIT 运维 负载均衡 HexHub Docker JumpServer安装 堡垒机安装 Linux安装JumpServer Deepseek 宝塔面板 Linux宝塔 生命周期 服务器 管理口 esxi esxi6 root密码不对 无法登录 web无法登录 序列 核心机制 服务器性能 Windows Windows server net3.5 .NET 安装出错 HTTPS加密 查看硬件 Linux查看硬件 Linux查看CPU Linux查看内存 宝塔面板打不开 宝塔面板无法访问 开源 PostgreSQL 存储引擎 Windows宝塔 Mysql重置密码 Oracle 处理机制 无法访问宝塔面板 InnoDB 数据库锁 监控 连接控制 机制 Serverless 无服务器 语言 Spring Redis 异步化 SQL 查询 Undo Log ES 协同 group by 索引 优化 万能公式 技术 缓存方案 缓存架构 缓存穿透 分页查询 高可用 动态查询 机器学习 GreatSQL 连接数 响应模型 锁机制 scp Linux的scp怎么用 scp上传 scp下载 scp命令 工具 数据 主库 日志文件 MIXED 3 R edis 线程 加密 场景 SVM Embedding Linux 安全 Postgres OTel Iceberg R2DBC Netstat Linux 服务器 端口 openHalo SQLite-Web SQLite 数据库管理工具 行业 趋势 Recursive 云原生 RocketMQ 长轮询 配置 自定义序列化 存储 启动故障 AI 助手 ​Redis 推荐模型 共享锁 SQLark Hash 字段 PG DBA 向量数据库 大模型 OB 单机版 防火墙 黑客 电商 系统 国产数据库 Ftp 架构 向量库 Milvus Rsync MySQL 9.3 Python mini-redis INCR指令 修改DNS Centos7如何修改DNS 业务 流量 sftp 服务器 参数 • 索引 • 数据库 线上 库存 预扣 数据分类 分库 分表 信息化 智能运维 redo log 重做日志 不宕机 磁盘架构 Doris SeaTunnel 人工智能 推荐系统 同城 双活 MVCC 聚簇 非聚簇 高效统计 今天这篇文章就跟大家 Canal Redisson 锁芯 PostGIS 虚拟服务器 虚拟机 内存 传统数据库 向量化 语句 数据备份 缓存 filelock INSERT COMPACT IT运维 prometheus Alert 失效 事务 Java 开发 网络架构 网络配置 窗口 函数 引擎 性能 Web ZODB 数据脱敏 加密算法 核心架构 订阅机制 速度 服务器中毒 MongoDB 容器 RDB AOF 发件箱模式 数据结构 读写 Go 数据库迁移 自动重启 数据类型 频繁 Codis 分布式 集中式 崖山 新版本 Redis 8.0 工具链 容器化 聚簇索引 非聚簇索引 B+Tree ID 字段 模型 OAuth2 Token 网络故障 QPS 高并发 JOIN 微软 SQL Server AI功能 MCP 开放协议 Web 接口 DBMS 管理系统 部署 SpringAI 池化技术 连接池 SSH Redka Caffeine CP 分布式架构 分布式锁​ 播客 原子性 Entity StarRocks 数据仓库 Pottery 数据页 数据集成工具 主从复制 代理 分页方案 排版 排行榜 排序 Testcloud 云端自动化 事务隔离 网络 sqlmock LRU 大表 业务场景 悲观锁 乐观锁 EasyExcel MySQL8 dbt 数据转换工具 1 意向锁 记录锁 AIOPS 分页 优化器 单点故障 日志 事务同步 UUIDv7 主键 仪表盘 InfluxDB Order 数据字典 兼容性 千万级 对象 RAG HelixDB Ansible ReadView Pump 订单 Crash 代码 单线程 IT UUID ID 字典 双引擎 LLM Weaviate 编程 线程安全 MGR 分布式集群 分布式锁 Zookeeper 产业链 Valkey Valkey8.0 恢复数据 List 类型 拦截器 动态代理 Next-Key 关系数据库 表空间 解锁 调优 慢SQL优化 矢量存储 数据库类型 AI代理 快照读 当前读 视图 算法 国产 用户 RR 互联网 GitHub Git 神经系统 count(*) count(主键) 行数 查询规划 技巧 CAS 并发控制 恢复机制 多线程 闪回