• 面试官:使用 MySQL 时,你们是怎样做大表清理的?

面试官:使用 MySQL 时,你们是怎样做大表清理的?

2025-06-13 02:37:03 栏目:宝塔面板 42 阅读

使用 MySQL 时,我们经常会遇到大表清理的情况。做大表清理的目的,一般是为了减表空间使用,提高表的操作性能。今天来聊一聊怎样做大表清理。

一、SQL 清除

最直接的方式就是使用 delete 语句来删除,可以使用主键:

delete from test1 where id in(...) order by id;

delete 语句存在的问题是 InnoDB 引擎只会把 SQL 中删除的记录标记为删除,并不会回收磁盘空间,也就是说磁盘数据文件大小并不会减小。当然删除的这条数据在磁盘文件中的位置是可以复用的,比如删除一条 id 为 4 的记录,就可以成功插入一条 id 为 4 的记录。

delete 语句删除还有一个缺点是会留下大量磁盘碎片,影响索引性能。


注意: 1.使用 delete 语句时可以使用 order by 对删除条件进行排序,这样可以保证删除顺序,避免全表扫描; 2.删除之前要做备份。

二、逻辑删除

既然使用 delete 语句做清理不能释放表空间,那我们不如对数据做逻辑删除。

//del_flag=1 表示逻辑删除
update test1 set del_flag = '1' where id in(...);

这样做的好处是并不会留下磁盘碎片,对索引性能没有影响。但也存在缺点,那就是归档的时候需要对所有数据的删除标识(del_flag)做判断。

三、使用分区表

如果业务上没有特殊要求,可以使用分区表,对分区直接做清理。比如以月为单位创建分区,对三个月以上的表做归档后直接把分区表 drop 掉。

ALTER TABLE test1 DROP PARTITION part202503;

分区表清理适合用于定期清理的场景,而且分区键必须要跟清理条件相符合,每月按周、按月、按季度,建表之前需要提前规划好清理策略。

如果分区键需要按照业务属性(比如身份证号)来定义,按照分区清理可能就不合适了。

四、使用临时表

MySQL 官方文档给的一种删除方式是先把不删除的数据备份到一张临时表,然后再把原表改名,把临时表改成原表名字,最后 drop 掉原表。

//1.备份数据到临时表
INSERT INTO test1_copy SELECT * FROM test1 WHERE id in(...) ;
//2.把原表改名,把临时表改名为原表名字
RENAME TABLE test1 TO test1_old, test1_copy TO test1_copy;
//3.删除原表
DROP TABLE test1_old;

RENAME 语句可以防止其他会话再操作 test1 表,所以这个过程不会有并发问题。

但是在写入频率高的情况下,如果服务不中断,并不能保证执行备份语句和 rename 语句之间没有数据写入。

五、重建表

为了避免上一节存在的问题,可以使用重建表的语句:

alter table test1 engine=InnoDB

在 MySQL 5.6 之后,支持 Online DDL,所以 SQL 执行过程中,test1 表依然可以进行增删改操作,这些操作会记录在日志文件中,重建表完成后,在新表上做重放,因此不用担心丢失数据。Online DDL 重建表的流程如下:

1. 建立一个临时文件,扫描 test1 表的所有记录并生成 B+ 树,存储到临时文件中;

2. 生成临时文件的过程中,对 test1 的所有增删改操作记录到一个日志文件中;

3. 临时文件生成后,将日志文件中的操作在临时文件做重放,这样临时文件的数据跟 test1 数据文件中数据逻辑上相同;

4. 用临时文件替换test1 表的数据文件。

六、使用归档工具

可以考虑使用归档工具比如 Percona Toolkit。

七、总结

大表清理是工作中经常遇到的情况,大表清理的方法有很多,可以根据自己实际的业务场景选择合理的清理方式,无论选择哪一种方案,都要注意一下三点:

1. 清理之前做好数据备份;

2. 清理过程要评估是否对业务有影响,是否会中段业务;

3. 确定好清理周期。

本文地址:https://www.yitenyun.com/284.html

搜索文章

Tags

数据库 API FastAPI Calcite 电商系统 MySQL Web 应用 异步数据库 数据同步 ACK 双主架构 循环复制 Deepseek 宝塔面板 Linux宝塔 Docker 生命周期 JumpServer JumpServer安装 堡垒机安装 Linux安装JumpServer 序列 核心机制 esxi esxi6 root密码不对 无法登录 web无法登录 Windows Windows server net3.5 .NET 安装出错 宝塔面板打不开 宝塔面板无法访问 SSL 堡垒机 跳板机 HTTPS 查看硬件 Linux查看硬件 Linux查看CPU Linux查看内存 无法访问宝塔面板 连接控制 机制 Windows宝塔 Mysql重置密码 HTTPS加密 ES 协同 Serverless 无服务器 语言 Oracle 处理机制 HexHub 运维 技术 Spring SQL 动态查询 响应模型 scp Linux的scp怎么用 scp上传 scp下载 scp命令 索引 OB 单机版 缓存方案 缓存架构 缓存穿透 存储 查询 Redis 电商 系统 分页查询 异步化 数据 主库 修改DNS Centos7如何修改DNS 自定义序列化 日志文件 MIXED 3 Rsync group by 架构 InnoDB RocketMQ 长轮询 配置 监控 数据库锁 开源 PostgreSQL 存储引擎 防火墙 服务器 黑客 管理口 工具 Linux 安全 聚簇 非聚簇 R edis 线程 流量 MySQL 9.3 • 索引 • 数据库 sftp 服务器 参数 SQLark 高可用 业务 ​Redis 机器学习 推荐模型 SQLite-Web SQLite 数据库管理工具 信息化 智能运维 缓存 同城 双活 Doris SeaTunnel AI 助手 prometheus Alert GreatSQL 连接数 共享锁 优化 万能公式 线上 库存 预扣 MVCC 人工智能 向量数据库 推荐系统 云原生 PG DBA RDB AOF Ftp 核心架构 订阅机制 加密 场景 Python Canal 数据备份 Postgres OTel Iceberg B+Tree ID 字段 网络架构 网络配置 INSERT COMPACT redo log 重做日志 Redis 8.0 高效统计 今天这篇文章就跟大家 向量库 Milvus Web 网络故障 模型 微软 SQL Server AI功能 不宕机 Redisson 锁芯 Netstat Linux 服务器 端口 IT运维 大模型 Hash 字段 自动重启 SVM Embedding 引擎 性能 事务 Java 开发 分库 分表 窗口 函数 Recursive sqlmock LRU 虚拟服务器 虚拟机 内存 OAuth2 Token Entity ZODB openHalo Undo Log MongoDB 容器 崖山 新版本 mini-redis INCR指令 单点故障 DBMS 管理系统 SpringAI JOIN 数据集成工具 数据脱敏 加密算法 容器化 悲观锁 乐观锁 数据类型 QPS 高并发 分布式 集中式 StarRocks 数据仓库 Testcloud 云端自动化 磁盘架构 排行榜 排序 PostGIS 启动故障 filelock 大表 业务场景 读写 意向锁 记录锁 Redka 分布式架构 分布式锁​ 原子性 分页 数据结构 EasyExcel MySQL8 数据分类 Pottery 聚簇索引 非聚簇索引 IT Caffeine CP 部署 R2DBC InfluxDB AIOPS RAG HelixDB 1 发件箱模式 池化技术 连接池 MCP 开放协议 数据页 工具链 SSH 网络 Web 接口 dbt 数据转换工具 字典 优化器 Order Go 数据库迁移 对象 单线程 速度 服务器中毒 仪表盘 传统数据库 向量化 事务隔离 双引擎 分页方案 排版 频繁 Codis LLM 日志 Crash 代码 线程安全 List 类型 订单 事务同步 UUIDv7 主键 Pump Ansible