• 如何应对 Redis 大 Key 问题

如何应对 Redis 大 Key 问题

2025-05-28 03:37:03 栏目:宝塔面板 60 阅读

日常业务运行过程中,Redis 实例经常因各种 Big keys / Hot Keys 的问题未及时处理,导致服务性能下降、访问超时、用户体验变差,甚至可能造成实例大范围故障 。

这篇文章,我们聊聊生产环境,如何应对 Redis 大 Key 问题。

图片

一、什么是大 key

大 Key 具体表现为 Redis 中的 Key 对应的 Value 很大,占用 Redis 空间比较大,本质上是大 Value 问题。

对于 Redis 中不同的数据结构类型,常见示例如下所示:

对于 String 类型的 Value 值,值超过 10MB(数据值太大)。

对于 Set 类型的 Value 值,含有的成员数量为 10000 个(成员数量多)。

对于 List 类型的 Value 值,含有的成员数量为 10000 个(成员数量多)。

对于 Hash 格式的 Value 值,含有的成员数量 1000 个,但所有成员变量的总 Value 值大小为 1000 MB(成员总的体积过大)。

在 Redis 的实际应用中,大 Key  问题的定义和评判标准并非固定不变,而是需要结合具体业务场景和性能需求进行综合考量。

例如,在高并发、低延迟的敏感场景下,即使 10 KB  的数据也可能被视为大 Key;而在低并发、高吞吐量的离线处理环境中,大 Key 的阈值可能放宽至 100 KB 甚至更高。

因此,在 Redis  的设计和使用过程中,应该基于业务特性和性能指标来制定合理的大 Key 评估标准

二、大 key 有什么影响

Redis 是单线程执行命令 ,当前面的任务完成不了,那后面的命令就会阻塞,从而导致如下的结果:

1.请求响应时间上升,超时阻塞。

Redis 是单线程架构,操作大 Key 耗时较长,可能造成请求阻塞。

2.同步中断或主从切换

内存不足时,对大 Key 进行驱逐操作或者 rename 一个大 Key,容易长时间阻塞主库,进而可能引发同步中断或主从切换。

3.网络拥塞

一个大 Key 占用空间是 1MB,每秒访问1000 次,就有1000 MB 的流量,可能造成实例或局域网的带宽被占满,自身服务变慢,同时影响其他服务。

4.内存使用不均匀

在 Redis 集群架构中,某个数据分片的内存使用率远超其他数据分片,内存资源无法达到均衡。另外,Redis 内存可能达到 maxmemory 参数定义的上限,导致重要的 Key 被逐出,甚至引发内存溢出。

需要强调的是:

对于 Java 应用来讲,高并发场景 大 Key 问题容易导致应用服务器 CPU Load / 内存占用飙高。

图片

如图,这个一个非常标准的通过 redisTemplate 查询用户缓存信息的方法。

但当用户 DTO 对象占用内存大小达到 300k ~ 500k 时,并发高情况下,海量 UserDTO 对象会在新生代产生,对象序列化 和 GC 线程会大量占用 CPU 资源,导致 CPU Load 飙高 ,最终应用线程大面积阻塞。

三、大 key 是如何产生的

1.错误的技术选型

比如使用 String 类型的 Key 存放大体积二进制文件型数据,从而造成 key 对应的 value 值特别大 ;

2.List 、Set 数据类型数据未清理

如图,我们经常使用 Redis List 作为消息队列,在实际使用中经常出现如下问题:生产者发送消息过快,但消费者消费消息速度低,导致数据堆积占用大量内存空间 。

3.数据没有合理做分片

业务上线前,对业务分析不准确,没有对 Key 中的成员进行合理的拆分,造成个别 Key 中的成员数量过多。

四、如何找到大 key

1.bigkeys 命令

执行 redis-cli 命令时带上–bigkeys 选项,对整个数据库中的键值对大小情况进行统计分析,统计每种数据类型的键值对个数以及平均大小。

此外,这个命令执行后,会输出每种数据类型中最大的 bigkey 的信息:

  • 对于 String 类型来说,会输出最大 bigkey 的字节长度
  • 对于集合类型来说,会输出最大 bigkey 的元素个数

图片

bigkeys 是通过扫描数据库来查找的,在执行的过程中,会对 Redis 实例的性能产生影响。

  • 主从集群,建议在从节点上执行该命令,避免阻塞主节点。
  • 没有从节点情况下,在 Redis 实例业务压力的低峰阶段进行扫描查询,以免影响到实例的正常运行。

2.监控平台

公有云或者公司内部架构部门一般都有监控平台,可以可视化分析 Redis 服务监控指标。

如下图是阿里云的 Redis 监控大 Key 分析界面 。

图片

假如是架构部门自己的监控平台,可以添加 Redis 的 Key 监控统计。

下图是UMP 监控平台的设计思路:

图片

流程如下:

  • 业务系统引入通 UMP SDK ,当业务系统运行时,SDK 会将日志文件(JVM、TP 、HeatBeat)写到磁盘 ;
  • FileBeat  读取日志文件,发送到 Kafka ;
  • UMP 计算服务 从 Kafka 中获取消息,根据消息类型,执行分析逻辑(JVM、TP 、HeatBeat );
  • 计算完成之后,指标结果数据存储到 Hbase,MySQL 用于存储元数据,Redis 用于存储临时计算数据 ;
  • 研发人员登录控制台查看监控信息 ,核心的监控数据存储在 Hbase 中,通过 HighChart 组件渲染。

UMP 可以对应用端的 Redis 操作实现全面的监控,包括命令超时、Key大小、使用频率等关键指标。

五、如何解决大 key 问题

1.清理无效的数据

主要针对 list 和 set 这种类型,在使用的过程中,list 和 set 中对应的内容不断增加,需要定时的对 list 和 set 进行清理。

2.压缩对应的大 Key 的 Value

通过序列化或者压缩的方法对 value 进行压缩,使其变为较小的 value,但是如果压缩之后如果对应的 value 还是特别大的话,就需要使用拆分的方法进行解决。

3.针对大 Key 进行拆分

通过将 BigKey 拆分成多个小 Key 的键值对,并且拆分后的对应的 value 大小和拆分成的成员数量比较合理,然后进行存储即可,在获取的时候通过 get 不同的 key 或是用 mget 批量获取存储的键值对。

4.实时监控 Redis 内存、带宽及 Key 增长变化趋势

通过监控系统,监控 Redis 中的内存占用大小和网络带宽的占用大小,以及固定时间内的内存占用增长率,当超过设定的阈值的时候,进行报警通知处理。

本文地址:https://www.yitenyun.com/247.html

搜索文章

Tags

数据库 API FastAPI Calcite 电商系统 MySQL Web 应用 异步数据库 数据同步 ACK 双主架构 循环复制 TIME_WAIT 运维 负载均衡 Deepseek 宝塔面板 Linux宝塔 Docker JumpServer JumpServer安装 堡垒机安装 Linux安装JumpServer esxi esxi6 root密码不对 无法登录 web无法登录 生命周期 序列 核心机制 SSL 堡垒机 跳板机 HTTPS HexHub Windows Windows server net3.5 .NET 安装出错 宝塔面板打不开 宝塔面板无法访问 HTTPS加密 查看硬件 Linux查看硬件 Linux查看CPU Linux查看内存 InnoDB 数据库锁 Oracle 处理机制 连接控制 机制 无法访问宝塔面板 ES 协同 监控 Windows宝塔 Mysql重置密码 Serverless 无服务器 语言 开源 PostgreSQL 存储引擎 技术 group by 索引 Spring Redis 异步化 分页查询 服务器 管理口 高可用 缓存方案 缓存架构 缓存穿透 SQL 动态查询 响应模型 自定义序列化 数据 主库 SVM Embedding 日志文件 MIXED 3 GreatSQL 连接数 服务器性能 SQLark 云原生 PG DBA Netstat Linux 服务器 端口 scp Linux的scp怎么用 scp上传 scp下载 scp命令 ​Redis 机器学习 推荐模型 向量数据库 大模型 R edis 线程 AI 助手 工具 Undo Log Linux 安全 共享锁 openHalo 存储 查询 SQLite-Web SQLite 数据库管理工具 OB 单机版 Recursive 电商 系统 Rsync Postgres OTel Iceberg 架构 R2DBC • 索引 • 数据库 聚簇 非聚簇 RocketMQ 长轮询 配置 数据分类 加密 流量 sftp 服务器 参数 优化 万能公式 修改DNS Centos7如何修改DNS redo log 重做日志 磁盘架构 同城 双活 防火墙 黑客 Hash 字段 信息化 智能运维 Ftp 场景 数据备份 MySQL 9.3 mini-redis INCR指令 RDB AOF MVCC 人工智能 推荐系统 缓存 窗口 函数 高效统计 今天这篇文章就跟大家 业务 网络架构 网络配置 INSERT COMPACT Redisson 锁芯 向量库 Milvus 线上 库存 预扣 Doris SeaTunnel 事务 Java 开发 Python B+Tree ID 字段 IT运维 核心架构 订阅机制 prometheus Alert 引擎 性能 不宕机 Web PostGIS 崖山 新版本 MongoDB 数据结构 数据脱敏 加密算法 数据类型 分布式 集中式 虚拟服务器 虚拟机 内存 传统数据库 向量化 ZODB 容器 JOIN 读写 容器化 网络故障 DBMS 管理系统 模型 OAuth2 Token filelock Canal QPS 高并发 Redis 8.0 自动重启 Pottery 微软 SQL Server AI功能 部署 聚簇索引 非聚簇索引 锁机制 Testcloud 云端自动化 发件箱模式 事务隔离 SpringAI 分页方案 排版 Entity 工具链 排行榜 排序 速度 服务器中毒 分库 分表 启动故障 数据页 StarRocks 数据仓库 Caffeine CP Web 接口 sqlmock 1 悲观锁 乐观锁 SSH MCP 开放协议 LRU 数据集成工具 池化技术 连接池 单点故障 Go 数据库迁移 频繁 Codis 原子性 大表 业务场景 Redka 分页 AIOPS 网络 意向锁 记录锁 分布式架构 分布式锁​ 优化器 Order 仪表盘 dbt 数据转换工具 EasyExcel MySQL8 日志 IT 字典 InfluxDB 对象 单线程 双引擎 RAG HelixDB 行业 趋势 Ansible 事务同步 Crash 代码 国产数据库 LLM UUIDv7 主键 订单 线程安全 List 类型 Pump UUID ID 主从复制 代理 Valkey Valkey8.0 Next-Key 编程 关系数据库 播客 解锁 调优 ReadView 产业链 兼容性 语句 恢复数据 失效 MGR 分布式集群 数据字典 算法 国产 用户 矢量存储 数据库类型 AI代理 查询规划 千万级 快照读 当前读 视图 RR 互联网 GitHub Git 慢SQL优化 Weaviate count(*) count(主键) 行数 神经系统 表空间 分布式锁 Zookeeper 拦截器 动态代理 并发控制 恢复机制 CAS 多线程 技巧 闪回