Redis Streams 消费者组消息堆积怎么办:从 XPENDING 到 XACK 一步步排查
Redis Streams 很适合做轻量消息队列,但消费者组用久了以后,很多人会遇到一个现象:生产端一直写入,消费者看起来也在跑,可业务延迟越来越高,甚至告警提示队列积压。
这篇文章我们不直接背命令,而是按一次真实排查走:先看 Stream 和消费者组状态,再看 Pending 列表,接着判断消息为什么没有被确认,最后用认领、重试和 XACK 把消费链路恢复正常。
- 问题现场:订单事件消费越来越慢
- 初步判断:是队列太长还是 Pending 太多
- 动手验证:用 XINFO 和 XPENDING 看清积压
- 定位原因:消费者掉线后消息没确认
- 修复方案:认领、重试、确认
- 验证结果:队列恢复和告警解除
- 总结清单
问题现场:订单事件消费越来越慢
先看一个典型场景:订单服务把事件写入 Stream,异步消费者负责更新统计、发送通知、同步搜索索引。刚上线时一切正常,过一段时间后,接口没有明显报错,但异步处理延迟越来越高。
我们先画一下现场:生产者继续写消息,Stream 队列增长,其中一个消费者掉线,未确认消息停在 Pending 列表里,最后触发告警。

此时不要急着重启所有消费者。先确认到底是新消息太多,还是旧消息卡在 Pending 里没有被确认。
初步判断:是队列太长还是 Pending 太多
我们先准备一个最小示例。假设 Stream 名为 order_events,消费者组名为 order_group:
XGROUP CREATE order_events order_group $ MKSTREAM
XADD order_events * order_id 10001 event paid
XADD order_events * order_id 10002 event paid
消费者读取时一般使用 XREADGROUP:
XREADGROUP GROUP order_group consumer-a COUNT 10 BLOCK 5000 STREAMS order_events >
这里的关键点是:消费者读到消息后,并不代表消息已经完成。只有业务处理成功,并调用 XACK,这条消息才会从 Pending 列表里移除。
动手验证:用 XINFO 和 XPENDING 看清积压
接着我们先看 Stream 自身信息:
XINFO STREAM order_events
再看消费者组信息:
XINFO GROUPS order_events
如果你看到某个消费者组的 pending 数量持续上升,说明消息已经被投递给消费者,但没有被确认。进一步查看 Pending 概览:
XPENDING order_events order_group
输出里通常会看到总 Pending 数、最小消息 ID、最大消息 ID,以及消费者分布。继续查明细:
XPENDING order_events order_group - + 10
这一步我们要关注两个信号:消息闲置时间是否越来越长,Pending 是否集中在某个消费者名下。如果都符合,基本可以判断:不是生产太快,而是某个消费者拿了消息后没有确认。
定位原因:消费者掉线后消息没确认
现在我们有了第一条线索:Pending 积压集中在 consumer-a。接着要问:为什么它没有确认?常见原因有三类:
- 消费者进程退出,消息已经投递但业务没有完成。
- 业务处理失败后没有进入重试逻辑。
- 处理成功了,但代码漏掉了
XACK。
如果消费者还能启动,先检查业务日志和错误记录。如果原消费者已经不可用,就要让其他消费者认领这些闲置太久的 Pending 消息。
修复方案:认领、重试、确认
修复时不要直接删除消息。更稳的流程是:先查 Pending,确认闲置时间,再认领给新的消费者,重新执行业务逻辑,成功后 XACK。

1. 认领闲置消息
Redis 6.2 以后,可以用 XAUTOCLAIM 批量认领闲置超过阈值的消息:
XAUTOCLAIM order_events order_group consumer-recover 60000 0-0 COUNT 20
这里 60000 表示只认领闲置超过 60 秒的消息,避免刚刚被正常消费者拿到的消息被抢走。
2. 重新处理业务
认领后要重新执行业务处理。这里一定要保证业务幂等,比如订单通知不要重复发,统计写入不要重复加。常见做法是按消息 ID 或业务单号做去重记录。
3. 成功后 XACK
处理成功后再确认消息:
XACK order_events order_group 1700000000000-0
这一步非常关键。只处理业务但不 XACK,消息仍然会留在 Pending 里;只 XACK 但业务没成功,又会造成消息丢失。顺序应该是:业务成功,再确认。
验证结果:队列恢复和告警解除
最后我们重新检查消费者组状态:
XINFO GROUPS order_events
XPENDING order_events order_group
如果 Pending 数量下降,消费者延迟恢复,业务日志里没有大量重复处理,就说明这次恢复是有效的。还可以补一个简单监控:
- 消费者组 pending 数量。
- Pending 最大闲置时间。
- 每分钟 XACK 数量。
- 消费者在线数量。
- 业务处理失败次数。
容易踩坑
- 只看 Stream 长度:Stream 长度正常,不代表 Pending 没有堆积。
- 处理成功忘记 XACK:业务完成但消息仍在 Pending,后续会被重复认领。
- 重试没有幂等:认领重试可能导致重复写库、重复通知。
- 闲置阈值太短:正常慢任务可能被其他消费者抢走。
- 直接删除消息:没有确认业务状态前,不建议粗暴删除。
总结清单
| 现象 | 检查命令 | 处理动作 |
|---|---|---|
| 消费延迟升高 | XINFO GROUPS | 确认 pending 是否增长 |
| 某消费者掉线 | XPENDING 明细 | 查看闲置时间和消费者分布 |
| Pending 长时间不降 | XAUTOCLAIM | 认领闲置消息并重试 |
| 消息重复处理 | 业务去重记录 | 补幂等和 XACK 顺序检查 |
Redis Streams 的消费者组并不难用,真正要注意的是“读取”和“完成”之间的状态。只要把 Pending 当作一等监控对象,消费堆积就不会变成黑盒问题。
Cloudflare AI Gateway 加入 Spend Limits:从 AI 账单失控到预算治理的完整流程
- 上一篇
- Cloudflare AI Gateway 加入 Spend Limits:从 AI 账单失控到预算治理的完整流程
- 下一篇
- PHP 旧 MD5 密码如何平滑迁移到 password_hash:兼容登录与自动升级完整流程
-
- 数据库 · Redis | 2天前 | Redis · 数据库 · HyperLogLog · UV统计 · redis hyperloglog UV统计 PFADD PFCOUNT 去重计数
- Redis HyperLogLog 统计 UV 实战:PFADD、PFCOUNT 和误差边界怎么用
- 180浏览 收藏
-
- 数据库 · Redis | 2天前 | Redis · 消息队列 · Stream · 消费组 · redis 消息队列 Redis Stream 消费组 XREADGROUP XACK XPENDING XAUTOCLAIM
- Redis Stream 消息队列实战:消费组、ACK 和失败重投怎么配
- 187浏览 收藏
-
- 数据库 · Redis | 2星期前 |
- RedisLua脚本实现复杂正则匹配方法
- 438浏览 收藏
-
- 数据库 · Redis | 2星期前 |
- Redis客户端缓冲区优化技巧
- 146浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- MiMo Code
- MiMo Code 是小米大模型团队开源的新一代 AI 编程助手,面向开发者提供代码理解、生成与辅助开发能力,适合作为 AI 编程工具收藏和体验。
- 67次使用
-
- TRAE Work
- TRAE AI IDE | 国内首款 AI 原生集成开发环境,深度集成 Doubao-1.5-pro 与 DeepSeek 模型,支持中文自然语言一键生成完整代码框架,实时预览前端效果并智能修复 BUG。首创 Builder 模式实现需求到代码的自动化开发,兼容 Windows/macOS 系统,官网下载即用。
- 94次使用
-
- MeloLab
- MeloLab 是一款 AI 音乐生成工具,可根据文本创意生成歌曲、人声、混音、分轨和背景音乐,适合创作者快速制作音乐素材。
- 75次使用
-
- ChatExcel酷表
- ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
- 8728次使用
-
- Any绘本
- 探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
- 9143次使用
-
- 分享Redis高可用架构设计实践
- 2023-01-24 286浏览
-
- Go与Redis实现分布式互斥锁和红锁
- 2022-12-22 117浏览
-
- Redis的各项功能解决了哪些问题?
- 2023-02-18 185浏览
-
- Go+Redis实现延迟队列实操
- 2023-02-23 426浏览
-
- 分享 echo-framework 项目基础框架
- 2023-01-11 134浏览

