• 面试官:使用 MySQL 时,你们是怎样做大表清理的?

面试官:使用 MySQL 时,你们是怎样做大表清理的?

2025-06-13 02:37:03 栏目:宝塔面板 88 阅读

使用 MySQL 时,我们经常会遇到大表清理的情况。做大表清理的目的,一般是为了减表空间使用,提高表的操作性能。今天来聊一聊怎样做大表清理。

一、SQL 清除

最直接的方式就是使用 delete 语句来删除,可以使用主键:

delete from test1 where id in(...) order by id;

delete 语句存在的问题是 InnoDB 引擎只会把 SQL 中删除的记录标记为删除,并不会回收磁盘空间,也就是说磁盘数据文件大小并不会减小。当然删除的这条数据在磁盘文件中的位置是可以复用的,比如删除一条 id 为 4 的记录,就可以成功插入一条 id 为 4 的记录。

delete 语句删除还有一个缺点是会留下大量磁盘碎片,影响索引性能。


注意: 1.使用 delete 语句时可以使用 order by 对删除条件进行排序,这样可以保证删除顺序,避免全表扫描; 2.删除之前要做备份。

二、逻辑删除

既然使用 delete 语句做清理不能释放表空间,那我们不如对数据做逻辑删除。

//del_flag=1 表示逻辑删除
update test1 set del_flag = '1' where id in(...);

这样做的好处是并不会留下磁盘碎片,对索引性能没有影响。但也存在缺点,那就是归档的时候需要对所有数据的删除标识(del_flag)做判断。

三、使用分区表

如果业务上没有特殊要求,可以使用分区表,对分区直接做清理。比如以月为单位创建分区,对三个月以上的表做归档后直接把分区表 drop 掉。

ALTER TABLE test1 DROP PARTITION part202503;

分区表清理适合用于定期清理的场景,而且分区键必须要跟清理条件相符合,每月按周、按月、按季度,建表之前需要提前规划好清理策略。

如果分区键需要按照业务属性(比如身份证号)来定义,按照分区清理可能就不合适了。

四、使用临时表

MySQL 官方文档给的一种删除方式是先把不删除的数据备份到一张临时表,然后再把原表改名,把临时表改成原表名字,最后 drop 掉原表。

//1.备份数据到临时表
INSERT INTO test1_copy SELECT * FROM test1 WHERE id in(...) ;
//2.把原表改名,把临时表改名为原表名字
RENAME TABLE test1 TO test1_old, test1_copy TO test1_copy;
//3.删除原表
DROP TABLE test1_old;

RENAME 语句可以防止其他会话再操作 test1 表,所以这个过程不会有并发问题。

但是在写入频率高的情况下,如果服务不中断,并不能保证执行备份语句和 rename 语句之间没有数据写入。

五、重建表

为了避免上一节存在的问题,可以使用重建表的语句:

alter table test1 engine=InnoDB

在 MySQL 5.6 之后,支持 Online DDL,所以 SQL 执行过程中,test1 表依然可以进行增删改操作,这些操作会记录在日志文件中,重建表完成后,在新表上做重放,因此不用担心丢失数据。Online DDL 重建表的流程如下:

1. 建立一个临时文件,扫描 test1 表的所有记录并生成 B+ 树,存储到临时文件中;

2. 生成临时文件的过程中,对 test1 的所有增删改操作记录到一个日志文件中;

3. 临时文件生成后,将日志文件中的操作在临时文件做重放,这样临时文件的数据跟 test1 数据文件中数据逻辑上相同;

4. 用临时文件替换test1 表的数据文件。

六、使用归档工具

可以考虑使用归档工具比如 Percona Toolkit。

七、总结

大表清理是工作中经常遇到的情况,大表清理的方法有很多,可以根据自己实际的业务场景选择合理的清理方式,无论选择哪一种方案,都要注意一下三点:

1. 清理之前做好数据备份;

2. 清理过程要评估是否对业务有影响,是否会中段业务;

3. 确定好清理周期。

本文地址:https://www.yitenyun.com/284.html

搜索文章

Tags

数据库 API FastAPI Calcite 电商系统 MySQL Web 应用 异步数据库 数据同步 ACK 双主架构 循环复制 JumpServer SSL 堡垒机 跳板机 HTTPS TIME_WAIT 运维 负载均衡 HexHub Docker JumpServer安装 堡垒机安装 Linux安装JumpServer Deepseek 宝塔面板 Linux宝塔 生命周期 服务器 管理口 esxi esxi6 root密码不对 无法登录 web无法登录 序列 核心机制 服务器性能 Windows Windows server net3.5 .NET 安装出错 HTTPS加密 查看硬件 Linux查看硬件 Linux查看CPU Linux查看内存 宝塔面板打不开 宝塔面板无法访问 开源 PostgreSQL 存储引擎 Windows宝塔 Mysql重置密码 Oracle 处理机制 无法访问宝塔面板 InnoDB 数据库锁 监控 连接控制 机制 Spring Redis 异步化 Serverless 无服务器 语言 SQL 查询 Undo Log 优化 万能公式 ES 协同 group by 索引 技术 高可用 缓存方案 缓存架构 缓存穿透 分页查询 动态查询 机器学习 GreatSQL 连接数 响应模型 锁机制 scp Linux的scp怎么用 scp上传 scp下载 scp命令 工具 数据 主库 R edis 线程 日志文件 MIXED 3 加密 场景 SVM Embedding Linux 安全 Postgres OTel Iceberg openHalo R2DBC Netstat Linux 服务器 端口 SQLite-Web SQLite 数据库管理工具 行业 趋势 RocketMQ 长轮询 配置 Recursive 云原生 自定义序列化 存储 启动故障 AI 助手 ​Redis 推荐模型 共享锁 SQLark Hash 字段 PG DBA 向量数据库 大模型 OB 单机版 国产数据库 防火墙 黑客 电商 系统 Ftp 架构 向量库 Milvus Rsync MySQL 9.3 Python mini-redis INCR指令 修改DNS Centos7如何修改DNS 业务 数据分类 不宕机 流量 sftp 服务器 参数 • 索引 • 数据库 线上 库存 预扣 redo log 重做日志 分库 分表 信息化 智能运维 磁盘架构 Doris SeaTunnel 人工智能 推荐系统 同城 双活 MVCC 聚簇 非聚簇 高效统计 今天这篇文章就跟大家 Canal Redisson 锁芯 PostGIS 虚拟服务器 虚拟机 内存 传统数据库 向量化 语句 数据备份 缓存 filelock INSERT COMPACT IT运维 事务 Java 开发 网络架构 网络配置 prometheus Alert 失效 窗口 函数 引擎 性能 Web ZODB 数据脱敏 加密算法 核心架构 订阅机制 速度 服务器中毒 MongoDB 容器 频繁 Codis RDB AOF 发件箱模式 读写 聚簇索引 非聚簇索引 数据结构 Go 数据库迁移 自动重启 数据类型 分布式 集中式 崖山 新版本 Redis 8.0 工具链 容器化 B+Tree ID 字段 模型 MCP 开放协议 OAuth2 Token 网络故障 分布式架构 分布式锁​ QPS 高并发 JOIN 池化技术 连接池 SSH 微软 SQL Server AI功能 Redka Web 接口 部署 DBMS 管理系统 SpringAI Caffeine CP 播客 原子性 数据页 Entity StarRocks 数据仓库 Pottery 数据集成工具 主从复制 代理 事务隔离 分页方案 排版 排行榜 排序 Testcloud 云端自动化 网络 sqlmock 大表 业务场景 dbt 数据转换工具 LRU 悲观锁 乐观锁 EasyExcel MySQL8 1 优化器 分页 意向锁 记录锁 AIOPS 单点故障 日志 Order 事务同步 数据字典 兼容性 UUIDv7 主键 仪表盘 InfluxDB 千万级 Ansible 对象 Pump RAG HelixDB ReadView 订单 Crash 代码 单线程 IT UUID ID 字典 双引擎 LLM MGR 分布式集群 Weaviate 编程 线程安全 分布式锁 Zookeeper 产业链 Valkey Valkey8.0 恢复数据 List 类型 拦截器 动态代理 关系数据库 Next-Key 表空间 解锁 调优 慢SQL优化 快照读 当前读 视图 矢量存储 数据库类型 AI代理 RR 互联网 算法 国产 用户 GitHub Git 神经系统 count(*) count(主键) 行数 查询规划 技巧 CAS 并发控制 恢复机制 多线程 闪回