CMU15-445 数据库系统播客：适用于数据库的经典哈希结构与设计权衡

CMU15-445 数据库系统播客：适用于数据库的经典哈希结构与设计权衡

CMU15-445 数据库系统播客：适用于数据库的经典哈希结构与设计权衡

2025-08-16 12:32:51 栏目：宝塔面板 93 阅读

速度与碰撞的权衡 (Trade-off between Speed and Collision Rate)

不使用加密哈希函数，我们只关注 速度快 和 碰撞率低 的哈希函数。

常数因子很重要 (Constant Factors Matter) ：在处理大量数据时，即使O(1)操作的常数因子差异也会导致巨大的性能差距和金钱成本。

• 静态哈希方案 (Static Hashing Schemes)：静态哈希方案的哈希表大小是固定的。如果存储空间不足，DBMS必须从头开始重建一个更大的哈希表（通常是原大小的两倍），这会 非常昂贵 。

线性探测哈希 (Linear Probe Hashing)

实现原理/方法 ：哈希函数计算出槽位后，如果该槽位已被占用，则 线性扫描 到下一个空闲槽位进行插入。查找时，也从哈希到的槽位开始线性扫描，直到找到目标键或遇到空槽。为了进行验证，每个槽位必须存储原始键。

• 优点： 最基本也通常是最快 的哈希方案，因为它具有良好的缓存局部性，且分支预测失败较少。

• 代价：删除操作很复杂。如果直接删除，会中断后续键的查找链； 墓碑标记 (Tombstone) 复杂，在删除的槽位放置一个“墓碑”标记，表示该槽位逻辑上为空但物理上占用，查找时会跳过此标记继续扫描。浪费空间，需要后续垃圾回收。将后续的键向前移动以填充空位，代价是移动后的键可能不再位于其最佳哈希位置的下游，导致查找失败。

罗宾汉哈希 (Robin Hood Hashing)

实现原理/方法 ：线性探测哈希的一种变体。每个键都会记录它 距离其理想哈希位置的“跳跃”次数 （即贫富程度）。在插入时，如果新键比当前占据该槽位的键“更贫穷”（即距离其理想位置更远），新键会 “偷走” 这个槽位，而被“偷走”的键则会被重新插入到哈希表中。

• 优点：旨在 平衡整个哈希表中键的距离 ，最小化任何键距离其理想位置的最大距离。

• 代价： 写入/插入更昂贵 ，在实践中，对于内存中的数据结构，通常 比线性探测哈希慢 。

布谷鸟哈希 (Cuckoo Hashing)

实现原理/方法 ：使用 多个哈希表 （通常是两个）和 不同的哈希函数种子 。插入时，尝试在每个哈希表中找到一个空闲槽位。如果所有可能的槽位都被占用，则驱逐其中一个哈希表中的现有元素，并将其重新哈希以找到新位置，这可能导致连锁驱逐（像布谷鸟占巢）。

• 优点： 查找和删除总是O(1) ，因为只需检查每个哈希表中的一个特定位置。

• 代价： 插入可能昂贵 ，可能导致“乒乓”效应或连锁驱逐，甚至陷入循环（无限循环）；如果检测到循环或哈希表变得太满，就需要 重建所有哈希表 ，使用新的哈希函数种子或更大的表。

• 动态哈希方案 (Dynamic Hashing Schemes)，能够在需要时 按需调整大小 ，而无需重建整个哈希表。

链式哈希 (Chained Hashing / Bucket Hashing)

实现原理/方法 ：每个主槽位都维护一个 桶（bucket）的链表 。所有哈希到同一个槽位的键都放在该链表的桶中。当桶满时，就 分配并链接一个新的桶 。

• 优点：实现简单，且通过不断添加新桶可以“无限”增长。易于实现线程安全，只需对槽位或单个页面进行加锁。

• 代价：如果所有键都映射到同一个桶链，哈希表可能会退化为 O(n)的线性搜索 ，性能显著下降；可能存在空间浪费，尤其是有许多短链时。

可扩展哈希 (Extendible Hashing)

实现原理/方法 ：链式哈希的改进变体，它会 分裂桶 而不是让链无限增长。维护一个 全局计数器（global depth） ，指示哈希值需要检查的位数，以确定在槽数组中的位置。

每个桶也有一个 局部计数器（local depth） 。

当桶溢出时，会触发分裂。如果局部深度小于全局深度，则重新分配桶中的元素到新的桶中。如果局部深度等于全局深度，则 全局深度会增加，槽数组的大小会加倍 （这个操作是廉价的，因为只是指针数组），然后重新分配桶中的元素。

• 优点： 数据移动被局部化 到溢出的桶链，其他桶不受影响。槽数组的加倍操作相对廉价，因为它只涉及指针数组的更新，不涉及数据的物理移动。

• 代价：槽数组加倍时，需要对整个槽数组 获取全局锁 ，这可能成为并发访问的瓶颈；删除操作比较复杂，可能需要合并桶并逆向分裂过程

线性哈希 (Linear Hashing)

实现原理/方法 ：维护一个 分裂指针 (split pointer) ，它跟踪下一个要分裂的桶，而不管哪个桶实际溢出。使用 多个哈希函数 （例如 key % n 和 key % 2n）。

当任何桶溢出时， 分裂指针指向的桶 会被分裂（即使它不是溢出的那个），将其内容重新分配到新的槽位，并添加一个新的哈希函数（key % 2n）。

查询时，首先使用第一个哈希函数。如果映射到的槽位在分裂指针之上（即已被分裂），则需要使用第二个哈希函数来找到实际位置。

• 优点：将 调整大小的操作局部化 到分裂指针所指向的桶，避免了对整个哈希表进行全局加锁，从而减少了并发瓶颈。

• 代价：由于分裂的桶不一定是溢出的桶，这可能导致 临时出现更多的溢出链 ；删除操作很复杂，可能涉及分裂指针的逆向移动和内存回收。

• 线性探测哈希 (Linear Probe Hashing)

本文地址：https://www.yitenyun.com/328.html

上一篇：如何使用Weaviate构建语义搜索引擎

下一篇：CMU15-445 数据库系统播客：数据库系统的内存管···

搜索文章

最新文章

运维必杀技：关闭这些默认服务，让你的服务器飞起来···

千万别忽视！TIME_WAIT 堆积背后的秘密和应对技巧

数据库优化实战：25 个 SQL 性能调优技巧，查询速度···

数据库事务与锁机制：十个核心场景 + SQL 实战案例

2025 TDBC 大会归来...

热门文章

FastAPI 实战：打造高效的 CRUD 接口（增删改查优秀···

SpringBoot与Calcite整合，实现多数据源统一查询系统···

FastAPI + Tortoise-ORM：异步数据库操作优秀实践

阿里二面：聊聊 MySQL 主从同步方案的优缺点

面试官：MySQL双主架构有什么优缺点？

所有分类

宝塔面板（254） Windows （2） Linux （8）香港服务器（0）美国服务器（0）香港站群服务器（0）美国站群服务器（0）

Tags

数据库 API FastAPI Calcite 电商系统 MySQL Web 应用异步数据库数据同步 ACK 双主架构循环复制 TIME_WAIT 运维负载均衡服务器管理口 JumpServer SSL 堡垒机跳板机 HTTPS HexHub Docker 服务器性能 JumpServer安装堡垒机安装 Linux安装JumpServer SQL 查询 Deepseek 宝塔面板 Linux宝塔生命周期 esxi esxi6 root密码不对无法登录 web无法登录序列核心机制锁机制 Windows Windows server net3.5 .NET 安装出错行业趋势 HTTPS加密开源 PostgreSQL 存储引擎 Windows宝塔 Mysql重置密码宝塔面板打不开宝塔面板无法访问查看硬件 Linux查看硬件 Linux查看CPU Linux查看内存机器学习 Redis Undo Log 机制 Oracle 处理机制 Spring 动态查询无法访问宝塔面板响应模型优化万能公式 InnoDB 数据库锁异步化连接控制 Serverless 无服务器语言监控 ES 协同工具 group by 索引 openHalo Postgres OTel Iceberg 技术高可用缓存方案缓存架构缓存穿透分页查询 scp Linux的scp怎么用 scp上传 scp下载 scp命令存储 SVM Embedding 国产数据库 GreatSQL 连接数数据主库日志文件 MIXED 3 Linux 安全 R edis 线程 R2DBC SQLite-Web SQLite 数据库管理工具 Netstat Linux 服务器端口加密场景 OB 单机版 Recursive 启动故障防火墙黑客云原生 RocketMQ 长轮询配置 Redis 推荐模型 SQLark 自定义序列化 AI 助手向量数据库大模型共享锁 PG DBA Canal 信息化智能运维 Hash 字段不宕机 Rsync Python 库向量库 Milvus 同城双活 Ftp 磁盘架构电商系统业务 IT运维分库分表架构修改DNS Centos7如何修改DNS 语句聚簇非聚簇 PostGIS 传统数据库向量化 filelock 数据分类频繁 Codis 线上库存预扣 MongoDB 数据结构 MVCC 流量缓存失效 • 索引 • 数据库 redo log 重做日志 MCP 开放协议 MySQL 9.3 mini-redis INCR指令 Web 接口开发数据类型 sftp 服务器参数人工智能推荐系统千万级大表 ZODB 工具链 Doris SeaTunnel 分布式架构分布式锁 Redisson 锁芯聚簇索引非聚簇索引 EasyExcel MySQL8 INSERT 数据备份高效统计今天这篇文章就跟大家 prometheus Alert 窗口函数虚拟服务器虚拟机内存事务 Java 主从复制代理容器崖山新版本 COMPACT 发件箱模式 SSH 网络架构网络配置分页引擎性能 Web RDB AOF MGR 分布式集群数据脱敏加密算法网络故障核心架构订阅机制容器化 QPS 高并发 B+Tree ID 字段播客分布式集中式数据页 Redis 8.0 数据集成工具读写速度服务器中毒 Go 数据库迁移自动重启 OAuth2 Token Redka 模型 SpringAI StarRocks 数据仓库微软 SQL Server AI功能 DBMS 管理系统 Entity 排行榜排序池化技术连接池 Valkey Valkey8.0 JOIN 关系数据库 Caffeine CP 原子性表事务隔离业务场景 LRU Weaviate 数据字典兼容性部署 Testcloud 云端自动化网络 dbt 数据转换工具分页方案排版 Pottery 1 ReadView 事务同步优化器 sqlmock 日志 AIOPS UUID ID InfluxDB 悲观锁乐观锁意向锁记录锁单点故障 Pump 单线程 UUIDv7 主键仪表盘 Ansible 对象 Order 编程 Crash 代码 RAG HelixDB 分布式锁 Zookeeper 产业链字典双引擎 IT 恢复数据订单 List 类型拦截器动态代理 LLM 国产用户线程安全慢SQL优化表空间快照读当前读视图解锁调优 RR 互联网 Next-Key 锁 count(*) count(主键) 行数神经系统 GitHub Git 矢量存储数据库类型 AI代理 CAS 查询规划技巧算法多线程闪回并发控制恢复机制

Copyright © 2014-2025 yitenyun.com 保留所有权利网站地图皖ICP备16015960号-7