• 删除大量数据后,数据库文件为何纹丝不动?MySQL 存储机制大揭秘

删除大量数据后,数据库文件为何纹丝不动?MySQL 存储机制大揭秘

2025-06-13 10:37:03 栏目:宝塔面板 107 阅读

一、问题背景

“删了90%数据,数据库文件为啥纹丝不动?这是MySQL的bug吗?”

上周一位读者面试被问懵了,这个问题也戳中了很多人的痛点——明明删了大把数据,硬盘空间死活不释放!

你是不是也遇到过:

  • 执行DELETE后,磁盘空间未释放
  • .ibd文件大小不变,运维报警频发
  • 明明数据量减少,统计信息却 “岿然不动”

别慌,这真不是Bug! 而是 InnoDB 存储引擎的底层设计机制决定的。今天就来扒开 InnoDB 的底层逻辑,教你 3 招驯服 “顽固” 的数据库文件。

二、删数据≠丢空间:MySQL 的 “假删除” 套路

先看一组颠覆认知的实验:

Step 1:创建 200 万条数据的表

-- 创建测试数据库
CREATEDATABASEtest;
-- 创建测试表
CREATETABLE test_demo (
    idINT PRIMARY KEY AUTO_INCREMENT,
    nameVARCHAR(100),
    contentTEXT,
    create_time DATETIME
) ENGINE=InnoDB;

插入测试数据:

-- 插入200万条测试数据
DELIMITER //
CREATEPROCEDURE insert_test_data()
BEGIN
    DECLARE i INTDEFAULT1;
    WHILE i <= 2000000 DO
        INSERTINTO test_demo (name, content, create_time)
        VALUES (
            CONCAT('name_', i),
            REPEAT('x', 1000),  -- 每条记录约1KB
            NOW()
        );
        SET i = i + 1;
    ENDWHILE;
END //
DELIMITER ;

-- 执行存储过程
CALL insert_test_data();

Step 2:查看初始文件大小(约 1GB)

-- 查看表空间文件大小
SELECT 
    table_name,
    data_length/1024/1024 as data_size_mb,
    index_length/1024/1024 as index_size_mb
FROM information_schema.tables 
WHERE table_schema = 'test' 
AND table_name = 'test_demo';

Step 3:删除 99% 数据(仅保留前 100 条)

-- 删除id大于100的记录
DELETE FROM test_demo WHERE id >100;

Step 4:查看文件大小

  • .ibd文件物理大小仍≈1GB(磁盘未释放)
  • SELECT COUNT(*)返回 100 条(逻辑数据正确)

灵魂拷问:删了 190 万条数据,为啥空间没释放?

三、InnoDB 存储的 3 个 “反直觉” 设计

1. 数据页:最小存储单位的 “空间垄断”

  • 每个数据页固定 16KB,相当于图书馆的书架格子
  • 删除 1 条记录(可能只有 KB 级),不会释放整个数据页(16KB)
  • 页内空洞累积,导致文件 “虚胖”

InnoDB 数据页的内部结构:

(1) 记录在页中的存储

还记得之前我们介绍的InnoDB 记录结构吗?

从图中我们可以看到,InnoDB 的 COMPACT 行格式确实分为两个主要部分:

  • 记录的额外信息
  • 记录的真实数据

关于删除的秘密其实藏在记录头信息中。

2. DELETE 的本质:标记删除而非物理删除

操作

本质行为

空间释放

DELETE FROM t

将记录头信息中的delete_mask标记为1(标记为“可复用”)

❌ 不释放

TRUNCATE TABLE

清空所有数据页,重建表空间

✅ 释放

为什么不直接物理删除?

事务安全优先:宁肯占空间,不能丢数据。

  • 若物理删除数据,事务回滚时无法恢复(违反 ACID)
  • 标记删除是 “软删除”,数据页可随时恢复(通过 undo 日志)
  • 这就是为什么ROLLBACK能秒级恢复数据 —— 因为数据根本没被物理删除

空间复用 vs 碎片累积

  • 标记删除的记录:数据页空间被标记为“空洞”,新数据可覆盖写入(空间复用)。
  • 碎片累积:频繁增删后,数据页内空洞增多,导致.ibd文件“虚胖”(实际数据量小,但文件占用大)。

3. 预分配策略:空间只增不减的 “霸道总裁”

  • InnoDB 按innodb_autoextend_increment(默认 64MB)自动扩展表空间
  • 扩展后即使数据删除,空间也不会还给系统(文件系统不支持收缩)
  • 就像买房时买了 120㎡,住了 50㎡后想退 70㎡—— 不可能

四、实战攻略:三招让数据库 “瘦身成功”

场景

方案

命令

原理

注意事项

紧急清空全表(数据可丢)

TRUNCATE TABLE

TRUNCATE TABLE your_table;

销毁并重建表空间,释放所有空间

不可逆,适用于日志表等场景

重建表清理碎片(可停机)

ALTER TABLE ... ENGINE=InnoDB

ALTER TABLE your_table ENGINE=InnoDB;

重建表空间,回收空洞和碎片

锁表,大表需在低峰期操作

分区表删除(历史数据归档)

分区删除

ALTER TABLE orders DROP PARTITION p_old;

删除指定分区,释放对应空间

需提前设计分区策略

我们看下执行后的效果:

ALTER TABLE test_demo ENGINE=INNODB;

五、总结

  • 本质原因:DELETE是逻辑删除,空间释放需依赖重建表或分区操作。
  • 核心认知:MySQL优先保证事务安全和性能,而非实时回收空间。
  • 面试要点:需清晰区分“标记删除”与“物理删除”,并能结合业务场景选择合适的空间释放方案。

通过理解InnoDB存储机制,合理运用定期监控碎片率、分区表,可有效避免删除数据后表文件“虚胖”问题,提升数据库存储效率。

本文地址:https://www.yitenyun.com/287.html

搜索文章

Tags

数据库 API FastAPI Calcite 电商系统 MySQL Web 应用 异步数据库 数据同步 ACK 双主架构 循环复制 TIME_WAIT 运维 负载均衡 JumpServer SSL 堡垒机 跳板机 HTTPS 服务器 管理口 HexHub Docker 服务器性能 JumpServer安装 堡垒机安装 Linux安装JumpServer Deepseek 宝塔面板 Linux宝塔 生命周期 esxi esxi6 root密码不对 无法登录 web无法登录 SQL 查询 序列 核心机制 Windows Windows server net3.5 .NET 安装出错 HTTPS加密 Windows宝塔 Mysql重置密码 锁机制 开源 PostgreSQL 存储引擎 查看硬件 Linux查看硬件 Linux查看CPU Linux查看内存 宝塔面板打不开 宝塔面板无法访问 行业 趋势 Oracle 处理机制 无法访问宝塔面板 Undo Log 机制 优化 万能公式 监控 Spring 动态查询 机器学习 Redis 异步化 连接控制 InnoDB 数据库锁 响应模型 Serverless 无服务器 语言 ES 协同 group by 索引 openHalo 技术 scp Linux的scp怎么用 scp上传 scp下载 scp命令 Postgres OTel Iceberg 分页查询 缓存方案 缓存架构 缓存穿透 工具 高可用 存储 GreatSQL 连接数 数据 主库 SVM Embedding R edis 线程 日志文件 MIXED 3 Linux 安全 R2DBC 国产数据库 SQLite-Web SQLite 数据库管理工具 加密 场景 Netstat Linux 服务器 端口 启动故障 ​Redis 推荐模型 Recursive 防火墙 黑客 云原生 自定义序列化 SQLark RocketMQ 长轮询 配置 向量数据库 大模型 共享锁 OB 单机版 AI 助手 Hash 字段 PG DBA 不宕机 Rsync 信息化 智能运维 磁盘架构 Ftp 电商 系统 架构 Python 向量库 Milvus Canal 数据分类 修改DNS Centos7如何修改DNS 业务 流量 IT运维 redo log 重做日志 分库 分表 频繁 Codis • 索引 • 数据库 传统数据库 向量化 线上 库存 预扣 filelock 语句 同城 双活 MySQL 9.3 PostGIS MVCC MongoDB MCP 开放协议 聚簇 非聚簇 sftp 服务器 参数 mini-redis INCR指令 人工智能 推荐系统 Doris SeaTunnel 缓存 Redisson 锁芯 高效统计 今天这篇文章就跟大家 失效 工具链 prometheus Alert 主从复制 代理 数据备份 千万级 大表 数据类型 虚拟服务器 虚拟机 内存 事务 Java 开发 INSERT COMPACT 分布式架构 分布式锁​ 窗口 函数 聚簇索引 非聚簇索引 数据结构 ZODB SSH EasyExcel MySQL8 容器 崖山 新版本 发件箱模式 引擎 性能 Web QPS 高并发 网络架构 网络配置 数据脱敏 加密算法 RDB AOF 速度 服务器中毒 B+Tree ID 字段 Redis 8.0 分页 核心架构 订阅机制 Go 数据库迁移 Web 接口 分布式 集中式 自动重启 OAuth2 Token 数据集成工具 读写 Redka 网络故障 容器化 播客 模型 数据页 微软 SQL Server AI功能 DBMS 管理系统 JOIN MGR 分布式集群 StarRocks 数据仓库 SpringAI 排行榜 排序 池化技术 连接池 Caffeine CP 原子性 Entity 网络 部署 事务隔离 Valkey Valkey8.0 LRU 业务场景 Pottery Testcloud 云端自动化 数据字典 兼容性 dbt 数据转换工具 分页方案 排版 事务同步 sqlmock 1 ReadView 优化器 意向锁 记录锁 悲观锁 乐观锁 AIOPS 关系数据库 单线程 UUIDv7 主键 仪表盘 日志 Weaviate 单点故障 InfluxDB 对象 UUID ID Order 编程 Crash 代码 RAG HelixDB Ansible Pump IT 双引擎 订单 分布式锁 Zookeeper 产业链 字典 恢复数据 LLM List 类型 线程安全 国产 用户 慢SQL优化 表空间 拦截器 动态代理 解锁 调优 Next-Key RR 互联网 GitHub Git 快照读 当前读 视图 count(*) count(主键) 行数 神经系统 矢量存储 数据库类型 AI代理 查询规划 算法 CAS 技巧 多线程 并发控制 恢复机制 闪回