• 面试官:使用 MySQL 时,你们是怎样做大表清理的?

面试官:使用 MySQL 时,你们是怎样做大表清理的?

2025-06-13 02:37:03 栏目:宝塔面板 8 阅读

使用 MySQL 时,我们经常会遇到大表清理的情况。做大表清理的目的,一般是为了减表空间使用,提高表的操作性能。今天来聊一聊怎样做大表清理。

一、SQL 清除

最直接的方式就是使用 delete 语句来删除,可以使用主键:

delete from test1 where id in(...) order by id;

delete 语句存在的问题是 InnoDB 引擎只会把 SQL 中删除的记录标记为删除,并不会回收磁盘空间,也就是说磁盘数据文件大小并不会减小。当然删除的这条数据在磁盘文件中的位置是可以复用的,比如删除一条 id 为 4 的记录,就可以成功插入一条 id 为 4 的记录。

delete 语句删除还有一个缺点是会留下大量磁盘碎片,影响索引性能。


注意: 1.使用 delete 语句时可以使用 order by 对删除条件进行排序,这样可以保证删除顺序,避免全表扫描; 2.删除之前要做备份。

二、逻辑删除

既然使用 delete 语句做清理不能释放表空间,那我们不如对数据做逻辑删除。

//del_flag=1 表示逻辑删除
update test1 set del_flag = '1' where id in(...);

这样做的好处是并不会留下磁盘碎片,对索引性能没有影响。但也存在缺点,那就是归档的时候需要对所有数据的删除标识(del_flag)做判断。

三、使用分区表

如果业务上没有特殊要求,可以使用分区表,对分区直接做清理。比如以月为单位创建分区,对三个月以上的表做归档后直接把分区表 drop 掉。

ALTER TABLE test1 DROP PARTITION part202503;

分区表清理适合用于定期清理的场景,而且分区键必须要跟清理条件相符合,每月按周、按月、按季度,建表之前需要提前规划好清理策略。

如果分区键需要按照业务属性(比如身份证号)来定义,按照分区清理可能就不合适了。

四、使用临时表

MySQL 官方文档给的一种删除方式是先把不删除的数据备份到一张临时表,然后再把原表改名,把临时表改成原表名字,最后 drop 掉原表。

//1.备份数据到临时表
INSERT INTO test1_copy SELECT * FROM test1 WHERE id in(...) ;
//2.把原表改名,把临时表改名为原表名字
RENAME TABLE test1 TO test1_old, test1_copy TO test1_copy;
//3.删除原表
DROP TABLE test1_old;

RENAME 语句可以防止其他会话再操作 test1 表,所以这个过程不会有并发问题。

但是在写入频率高的情况下,如果服务不中断,并不能保证执行备份语句和 rename 语句之间没有数据写入。

五、重建表

为了避免上一节存在的问题,可以使用重建表的语句:

alter table test1 engine=InnoDB

在 MySQL 5.6 之后,支持 Online DDL,所以 SQL 执行过程中,test1 表依然可以进行增删改操作,这些操作会记录在日志文件中,重建表完成后,在新表上做重放,因此不用担心丢失数据。Online DDL 重建表的流程如下:

1. 建立一个临时文件,扫描 test1 表的所有记录并生成 B+ 树,存储到临时文件中;

2. 生成临时文件的过程中,对 test1 的所有增删改操作记录到一个日志文件中;

3. 临时文件生成后,将日志文件中的操作在临时文件做重放,这样临时文件的数据跟 test1 数据文件中数据逻辑上相同;

4. 用临时文件替换test1 表的数据文件。

六、使用归档工具

可以考虑使用归档工具比如 Percona Toolkit。

七、总结

大表清理是工作中经常遇到的情况,大表清理的方法有很多,可以根据自己实际的业务场景选择合理的清理方式,无论选择哪一种方案,都要注意一下三点:

1. 清理之前做好数据备份;

2. 清理过程要评估是否对业务有影响,是否会中段业务;

3. 确定好清理周期。

本文地址:https://www.yitenyun.com/284.html

搜索文章

Tags

数据库 API FastAPI Calcite 电商系统 MySQL 数据同步 ACK Web 应用 异步数据库 双主架构 循环复制 序列 核心机制 生命周期 Deepseek 宝塔面板 Linux宝塔 Docker JumpServer JumpServer安装 堡垒机安装 Linux安装JumpServer esxi esxi6 root密码不对 无法登录 web无法登录 Windows Windows server net3.5 .NET 安装出错 宝塔面板打不开 宝塔面板无法访问 SSL 堡垒机 跳板机 HTTPS Windows宝塔 Mysql重置密码 无法访问宝塔面板 查看硬件 Linux查看硬件 Linux查看CPU Linux查看内存 HTTPS加密 连接控制 机制 ES 协同 scp Linux的scp怎么用 scp上传 scp下载 scp命令 修改DNS Centos7如何修改DNS Serverless 无服务器 语言 Oracle 处理机制 存储 防火墙 服务器 黑客 Spring SQL 动态查询 RocketMQ 长轮询 配置 Linux 安全 加密 场景 Rsync MySQL 9.3 缓存方案 缓存架构 缓存穿透 日志文件 MIXED 3 HexHub 网络架构 工具 网络配置 Canal 开源 PostgreSQL 存储引擎 架构 InnoDB 线上 库存 预扣 Redis Redis 8.0 索引 数据 业务 数据库锁 信息化 智能运维 响应模型 自定义序列化 分页查询 聚簇 非聚簇 B+Tree ID 字段 监控 单点故障 prometheus Alert 云原生 openHalo AI 助手 查询 GreatSQL Hash 字段 分库 分表 DBMS 管理系统 技术 排行榜 排序 ​Redis 机器学习 推荐模型 容器化 共享锁 SQLark OB 单机版 Doris SeaTunnel 自动重启 运维 电商 系统 SpringAI 优化 万能公式 Netstat Linux 服务器 端口 数据集成工具 SQLite-Web SQLite 数据库管理工具 向量数据库 大模型 不宕机 Postgres OTel Iceberg SVM Embedding PostGIS • 索引 • 数据库 Entity 开发 RDB AOF 人工智能 推荐系统 Redka sqlmock sftp 服务器 参数 虚拟服务器 虚拟机 内存 redo log 重做日志 EasyExcel MySQL8 同城 双活 数据备份 缓存 分布式架构 分布式锁​ 聚簇索引 非聚簇索引 崖山 新版本 高可用 OAuth2 Token Testcloud 云端自动化 分页 数据结构 MongoDB 容器 数据类型 向量库 Milvus StarRocks 数据仓库 IT运维 Ftp AIOPS IT Python Web MVCC 池化技术 连接池 数据脱敏 加密算法 LRU mini-redis INCR指令 ZODB 悲观锁 乐观锁 微软 SQL Server AI功能 Caffeine CP 磁盘架构 流量 MCP 开放协议 Web 接口 窗口 函数 部署 1 字典 原子性 单线程 线程 事务隔离 R2DBC RAG HelixDB 模型 PG DBA 速度 服务器中毒 QPS 高并发 对象 Order 网络 dbt 数据转换工具 双引擎 主库 工具链 引擎 SSH 性能 Pottery InfluxDB 频繁 Codis INSERT COMPACT Undo Log 优化器 LLM List 类型 连接数 网络故障 Crash 代码 JOIN 事务同步 Redisson 锁芯 管理口 发件箱模式 意向锁 记录锁 Recursive 高效统计 今天这篇文章就跟大家 线程安全 传统数据库 向量化 Go 数据库迁移 仪表盘 filelock UUIDv7 主键 订单 分页方案 排版 Pump 核心架构 订阅机制 大表 业务场景 启动故障 分布式 集中式