• 面试官:使用 MySQL 时,你们是怎样做大表清理的?

面试官:使用 MySQL 时,你们是怎样做大表清理的?

2025-06-13 02:37:03 栏目:宝塔面板 106 阅读

使用 MySQL 时,我们经常会遇到大表清理的情况。做大表清理的目的,一般是为了减表空间使用,提高表的操作性能。今天来聊一聊怎样做大表清理。

一、SQL 清除

最直接的方式就是使用 delete 语句来删除,可以使用主键:

delete from test1 where id in(...) order by id;

delete 语句存在的问题是 InnoDB 引擎只会把 SQL 中删除的记录标记为删除,并不会回收磁盘空间,也就是说磁盘数据文件大小并不会减小。当然删除的这条数据在磁盘文件中的位置是可以复用的,比如删除一条 id 为 4 的记录,就可以成功插入一条 id 为 4 的记录。

delete 语句删除还有一个缺点是会留下大量磁盘碎片,影响索引性能。


注意: 1.使用 delete 语句时可以使用 order by 对删除条件进行排序,这样可以保证删除顺序,避免全表扫描; 2.删除之前要做备份。

二、逻辑删除

既然使用 delete 语句做清理不能释放表空间,那我们不如对数据做逻辑删除。

//del_flag=1 表示逻辑删除
update test1 set del_flag = '1' where id in(...);

这样做的好处是并不会留下磁盘碎片,对索引性能没有影响。但也存在缺点,那就是归档的时候需要对所有数据的删除标识(del_flag)做判断。

三、使用分区表

如果业务上没有特殊要求,可以使用分区表,对分区直接做清理。比如以月为单位创建分区,对三个月以上的表做归档后直接把分区表 drop 掉。

ALTER TABLE test1 DROP PARTITION part202503;

分区表清理适合用于定期清理的场景,而且分区键必须要跟清理条件相符合,每月按周、按月、按季度,建表之前需要提前规划好清理策略。

如果分区键需要按照业务属性(比如身份证号)来定义,按照分区清理可能就不合适了。

四、使用临时表

MySQL 官方文档给的一种删除方式是先把不删除的数据备份到一张临时表,然后再把原表改名,把临时表改成原表名字,最后 drop 掉原表。

//1.备份数据到临时表
INSERT INTO test1_copy SELECT * FROM test1 WHERE id in(...) ;
//2.把原表改名,把临时表改名为原表名字
RENAME TABLE test1 TO test1_old, test1_copy TO test1_copy;
//3.删除原表
DROP TABLE test1_old;

RENAME 语句可以防止其他会话再操作 test1 表,所以这个过程不会有并发问题。

但是在写入频率高的情况下,如果服务不中断,并不能保证执行备份语句和 rename 语句之间没有数据写入。

五、重建表

为了避免上一节存在的问题,可以使用重建表的语句:

alter table test1 engine=InnoDB

在 MySQL 5.6 之后,支持 Online DDL,所以 SQL 执行过程中,test1 表依然可以进行增删改操作,这些操作会记录在日志文件中,重建表完成后,在新表上做重放,因此不用担心丢失数据。Online DDL 重建表的流程如下:

1. 建立一个临时文件,扫描 test1 表的所有记录并生成 B+ 树,存储到临时文件中;

2. 生成临时文件的过程中,对 test1 的所有增删改操作记录到一个日志文件中;

3. 临时文件生成后,将日志文件中的操作在临时文件做重放,这样临时文件的数据跟 test1 数据文件中数据逻辑上相同;

4. 用临时文件替换test1 表的数据文件。

六、使用归档工具

可以考虑使用归档工具比如 Percona Toolkit。

七、总结

大表清理是工作中经常遇到的情况,大表清理的方法有很多,可以根据自己实际的业务场景选择合理的清理方式,无论选择哪一种方案,都要注意一下三点:

1. 清理之前做好数据备份;

2. 清理过程要评估是否对业务有影响,是否会中段业务;

3. 确定好清理周期。

本文地址:https://www.yitenyun.com/284.html

搜索文章

Tags

数据库 API FastAPI Calcite 电商系统 MySQL Web 应用 异步数据库 数据同步 ACK 双主架构 循环复制 TIME_WAIT 运维 负载均衡 JumpServer SSL 堡垒机 跳板机 HTTPS 服务器 管理口 HexHub Docker 服务器性能 JumpServer安装 堡垒机安装 Linux安装JumpServer Deepseek 宝塔面板 Linux宝塔 SQL 查询 生命周期 esxi esxi6 root密码不对 无法登录 web无法登录 序列 核心机制 锁机制 Windows Windows server net3.5 .NET 安装出错 HTTPS加密 行业 趋势 Windows宝塔 Mysql重置密码 开源 PostgreSQL 存储引擎 宝塔面板打不开 宝塔面板无法访问 查看硬件 Linux查看硬件 Linux查看CPU Linux查看内存 Oracle 处理机制 机器学习 Redis Undo Log 机制 无法访问宝塔面板 Spring 动态查询 InnoDB 数据库锁 连接控制 优化 万能公式 Serverless 无服务器 语言 监控 响应模型 异步化 ES 协同 openHalo group by 索引 Postgres OTel Iceberg 工具 技术 分页查询 高可用 缓存方案 缓存架构 缓存穿透 scp Linux的scp怎么用 scp上传 scp下载 scp命令 SVM Embedding 存储 GreatSQL 连接数 数据 主库 国产数据库 R edis 线程 日志文件 MIXED 3 Linux 安全 SQLite-Web SQLite 数据库管理工具 R2DBC Netstat Linux 服务器 端口 加密 场景 启动故障 ​Redis 推荐模型 Recursive 防火墙 黑客 云原生 OB 单机版 自定义序列化 RocketMQ 长轮询 配置 AI 助手 向量数据库 大模型 共享锁 SQLark Hash 字段 PG DBA Canal 信息化 智能运维 不宕机 Rsync 向量库 Milvus 磁盘架构 Python IT运维 Ftp 分库 分表 架构 电商 系统 传统数据库 向量化 修改DNS Centos7如何修改DNS 业务 数据分类 同城 双活 线上 库存 预扣 filelock redo log 重做日志 语句 流量 聚簇 非聚簇 频繁 Codis • 索引 • 数据库 MVCC MySQL 9.3 mini-redis INCR指令 人工智能 推荐系统 MongoDB MCP 开放协议 缓存 sftp 服务器 参数 PostGIS 数据结构 数据类型 失效 Doris SeaTunnel Redisson 锁芯 工具链 Web 接口 开发 千万级 大表 高效统计 今天这篇文章就跟大家 ZODB prometheus Alert 数据备份 窗口 函数 分布式架构 分布式锁​ 虚拟服务器 虚拟机 内存 INSERT COMPACT 聚簇索引 非聚簇索引 事务 Java 发件箱模式 EasyExcel MySQL8 主从复制 代理 崖山 新版本 分页 SSH 容器 网络架构 网络配置 引擎 性能 Web 数据脱敏 加密算法 RDB AOF 数据集成工具 核心架构 订阅机制 QPS 高并发 分布式 集中式 数据页 速度 服务器中毒 网络故障 B+Tree ID 字段 MGR 分布式集群 Redis 8.0 Go 数据库迁移 播客 模型 OAuth2 Token 读写 Redka 容器化 SpringAI Entity StarRocks 数据仓库 微软 SQL Server AI功能 自动重启 原子性 排行榜 排序 Caffeine CP Valkey Valkey8.0 JOIN 池化技术 连接池 DBMS 管理系统 Weaviate 业务场景 LRU 分页方案 排版 关系数据库 事务隔离 网络 部署 Testcloud 云端自动化 dbt 数据转换工具 ReadView 数据字典 兼容性 Pottery 1 事务同步 悲观锁 乐观锁 意向锁 记录锁 AIOPS sqlmock 日志 优化器 单点故障 Pump 单线程 UUIDv7 主键 仪表盘 UUID ID InfluxDB RAG HelixDB 对象 Order 编程 Crash 代码 Ansible 分布式锁 Zookeeper 产业链 字典 双引擎 IT 恢复数据 订单 LLM List 类型 拦截器 动态代理 线程安全 国产 用户 慢SQL优化 表空间 快照读 当前读 视图 解锁 调优 count(*) count(主键) 行数 Next-Key RR 互联网 GitHub Git 神经系统 矢量存储 数据库类型 AI代理 查询规划 技巧 算法 CAS 多线程 闪回 并发控制 恢复机制