当前位置：网站首页 > 技术文章 > 正文

Redis大量请求导致数据淘汰，不可用的线上问题复盘

nanshan 2025-05-21 15:24 19 浏览 0 评论

问题：凌晨3点，程序员老王被刺耳的报警声惊醒。监控大屏显示：Redis内存爆表、缓存命中率雪崩、订单服务集体躺平！！！

解决方式：紧急定位相关变更，回退相关操作，问题恢复，复盘分析解决！

根本原因：有大量的慢查询请求，打到redis服务，触发了驱逐策略，希望各位小伙伴少踩坑！！！引以为戒！！！

问题链： 大量慢查询->缓冲区打满->内存达到上限->触发驱逐->未开启持久化大导致数据丢失

以下是详细分析介绍：

一、解剖Redis的"消化系统"：缓冲区与内存管理的黑暗森林法则

1.客户端输出缓冲区：你以为的"快递柜"，其实是"黑洞"

Redis处理客户端请求的核心流程：

客户端请求 → 输入缓冲区解析 → 命令执行 → 输出缓冲区排队 → 网络传输

致命细节：

输出缓冲区三巨头：

普通客户端：处理常规请求（默认硬限制1GB，软限制256MB/60秒）-此处未限制大小！
发布订阅客户端：实时消息投递（默认无限制！）
复制客户端：主从同步数据流（默认无限制！）

底层数据结构：使用链表（linkedlist）存储响应数据，每个节点存储16KB数据块

 // Redis源码片段（networking.c）
typedef struct client {
    list *reply;           // 输出缓冲区链表
    unsigned long reply_bytes; // 当前缓冲区总大小
} client;

暴走原理：
当生产者（Redis）速度 > 消费者（网络传输）速度时，链表无限增长。想象在双11用吸管喝珍珠奶茶——珍珠（数据）疯狂堆积直到杯子（内存）爆炸！

2.内存淘汰策略：你以为的"智能清理"，其实是"玄学抽卡"

LRU算法真相：
Redis的LRU并非传统链表实现，而是基于采样的近似LRU：

每次淘汰时随机选取5个（可配置）候选键
在这5个键中选择最久未使用的淘汰

# 修改采样数量（redis.conf）
maxmemory-samples 10

数学证明：
当采样数为N时，命中理想LRU的概率为：

P = 1 - ( (N-1)/N )^M  
（M为当前内存中键数量）

当M=100万，N=5时，P≈67% —— 超过30%的概率误杀热键！

3.持久化的量子纠缠：RDB与AOF的"猫鼠游戏"

RDB的致命温柔：

COW（Copy-On-Write）陷阱：
fork() → 创建子进程 → 子进程遍历内存写RDB → 父进程持续处理请求
当内存达10GB时，fork耗时可能超过1秒！在此期间所有写操作触发页复制，导致内存双倍膨胀！

AOF的死亡螺旋：

fsync策略对比：
策略同步频率数据安全性能宕机丢数据always每条命令刷盘最高最差0everysec每秒批量刷盘高中等≤1秒no交给操作系统低最高任意量
当使用appendfsync no时，Linux默认30秒刷盘——足够让老板心跳停止300次！

RDB和AOP对比

二、内核级解密：操作系统如何给Redis"挖坑"

1.Overcommit的黑暗魔法

Linux内存分配策略：

# 查看当前策略
cat /proc/sys/vm/overcommit_memory

0（启发式overcommit）：
允许分配CommitLimit = Swap + RAM * overcommit_ratio%
（默认50%，即8GB内存+8GB swap时允许分配12GB）
2（禁止overcommit）：
只能分配Swap + RAM * overcommit_ratio%

Redis的死亡场景：
当使用RDB持久化且overcommit_memory=2时：

fork()需要创建虚拟内存映射 → 申请内存被拒绝 → BGSAVE失败 → 数据无法落盘！

2.Transparent Huge Pages（THP）的温柔一刀

THP的罪与罚：

原理：自动将小页（4KB）合并为大页（2MB）
对Redis的影响：

fork时延迟增加300%
内存碎片率飙升

# 禁用THP（必须写入rc.local）
echo never > /sys/kernel/mm/transparent_hugepage/enabled

三、从硅基到碳基：人类可理解的解决方案

1.缓冲区防御矩阵（来自Redis源码的启示）

动态调控算法：
Redis实际使用令牌桶算法控制缓冲区：

每次写入前检查：
if (当前缓冲区大小 > 硬限制) → 立即断开连接 elif (当前缓冲区大小 > 软限制 && 持续时间 > 软限制时间) → 断开连接

最佳配置公式：

client-output-buffer-limit <type> <hard> <soft> <soft_seconds>  
# 示例：普通客户端256MB硬限制，60秒内持续超过128MB则断开
client-output-buffer-limit normal 256mb 128mb 60

数学推导：
假设客户端最大网络带宽为B（MB/s），则：

hard_limit ≥ B * soft_seconds + initial_buffer

2.内存淘汰的"三体法则"

策略选择决策树：

是否所有数据都可丢失？  
├─ 是 → allkeys-lru  
└─ 否 → 是否有过期时间设置？  
       ├─ 是 → volatile-lfu  
       └─ 否 → 混合存储（热数据永不过期+冷数据设置TTL）

LFU算法深度优化：

# 调整LFU衰减因子（默认1）
config set lfu-decay-time 30

衰减公式：
新频率 = 旧频率 * exp(-衰减时间/半衰期)
半衰期越长，历史权重越高

3.持久化的时空穿越术

混合持久化的魔法配方：

# 开启混合模式（Redis 4.0+）
aof-use-rdb-preamble yes

文件结构：

[RDB二进制数据] + [AOF增量命令]

恢复过程对比：

模式	10GB数据恢复时间	数据完整性
纯RDB	2分钟	丢失最后5分钟数据
纯AOF	30分钟	最多丢1秒数据
混合模式	3分钟	最多丢1秒数据

四、思想的圣殿：分布式系统的熵增哲学

1.CAP定理的Redis变种

在Redis的世界里：

            C（一致性）  
           / \  
          /   \  
         /     \  
        A（可用性）—— P（分区容忍性）

Redis的选择：

主从异步复制 → 放弃强一致性（C）
哨兵自动故障转移 → 优先可用性（A）
网络分区时 → 可能出现脑裂（牺牲C保AP）

2.墨菲定律的运维启示

Redis死亡四重奏：

未限制缓冲区 + 危险淘汰策略 + 关闭持久化 + 单点部署 = 定时核弹

幸存者公式：

系统存活概率 = 1 - (配置错误概率 × 监控盲区概率 × 告警响应时间)

五、给勇敢者的挑战：Redis内核魔改指南

1.自定义内存驱逐策略

// 示例：优先驱逐大value（需修改redis源码）
int compareKeys(void *privdata, const void *k1, const void *k2) {
    size_t size1 = getKeySize(k1); 
    size_t size2 = getKeySize(k2);
    return size2 - size1; // 按value大小降序
}

2.基于AI的预测驱逐

使用LSTM神经网络预测访问模式：

实时监控 → 训练预测模型 → 标记冷热数据 → 动态调整淘汰策略

（注：可能需要把Redis改造成Terminator）

六、终极灵魂拷问

当Redis的maxmemory设置为0时，Linux的OOM Killer会如何"优雅"地杀死Redis？
（提示：参考/proc/<pid>/oom_score_adj）
为什么在Kubernetes中，Redis的used_memory可能比maxmemory还大？
（答案与cgroup的内存统计有关）
如果同时设置maxmemory 0和client-output-buffer-limit 0 0 0，你的服务器多久会变成砖头？
（欢迎在评论区晒出你的测试结果）

记住：技术没有银弹，但配置错误绝对是木乃伊的诅咒！ 现在，是时候用INFO MEMORY命令检查你的Redis了——除非你想体验数据在内存中跳楼的感觉！

redis清理缓存

上一篇：使用 Redisson 实现支持 TTL 和 LRU 策略的本地缓存
下一篇：UOS扩容攻略:迁移home

Redis大量请求导致数据淘汰，不可用的线上问题复盘

一、解剖Redis的"消化系统"：缓冲区与内存管理的黑暗森林法则

1.客户端输出缓冲区：你以为的"快递柜"，其实是"黑洞"

2.内存淘汰策略：你以为的"智能清理"，其实是"玄学抽卡"

3.持久化的量子纠缠：RDB与AOF的"猫鼠游戏"

二、内核级解密：操作系统如何给Redis"挖坑"

1.Overcommit的黑暗魔法

2.Transparent Huge Pages（THP）的温柔一刀

三、从硅基到碳基：人类可理解的解决方案

1.缓冲区防御矩阵（来自Redis源码的启示）

2.内存淘汰的"三体法则"

3.持久化的时空穿越术

四、思想的圣殿：分布式系统的熵增哲学

1.CAP定理的Redis变种

2.墨菲定律的运维启示

五、给勇敢者的挑战：Redis内核魔改指南

1.自定义内存驱逐策略

2.基于AI的预测驱逐

六、终极灵魂拷问

相关推荐

取消回复欢迎你发表评论:

UOS服务器操作系统防火墙设置（uos20关闭防火墙）

极空间如何无损移机，新Z4 Pro又有哪些升级?极空间Z4 Pro深度体验

NAS:DS video/DS file/DS photo等群晖移动端APP远程访问的教程

如何在安装前及安装后修改黑群晖的Mac地址和Sn系列号

手机如何设置与显示准确时间的详细指南

如何修复用户配置文件服务在 WINDOWS 上登录失败的问题

一加手机与电脑互传文件的便捷方法FileDash

日本海上自卫队的军衔制度（日本海上自卫队的军衔制度是什么）

10个免费文件中转服务站，分享文件简单方便，你知道几个?

爱折腾的特斯拉车主必看!手把手教你TESLAMATE的备份和恢复

Redis大量请求导致数据淘汰，不可用的线上问题复盘

一、解剖Redis的"消化系统"：缓冲区与内存管理的黑暗森林法则

1.客户端输出缓冲区：你以为的"快递柜"，其实是"黑洞"

2.内存淘汰策略：你以为的"智能清理"，其实是"玄学抽卡"

3.持久化的量子纠缠：RDB与AOF的"猫鼠游戏"

二、内核级解密：操作系统如何给Redis"挖坑"

1.Overcommit的黑暗魔法

2.Transparent Huge Pages（THP）的温柔一刀

三、从硅基到碳基：人类可理解的解决方案

1.缓冲区防御矩阵（来自Redis源码的启示）

2.内存淘汰的"三体法则"

3.持久化的时空穿越术

四、思想的圣殿：分布式系统的熵增哲学

1.CAP定理的Redis变种

2.墨菲定律的运维启示

五、给勇敢者的挑战：Redis内核魔改指南

1.自定义内存驱逐策略

2.基于AI的预测驱逐

六、终极灵魂拷问

相关推荐

取消回复欢迎 你 发表评论:

UOS服务器操作系统防火墙设置（uos20关闭防火墙）

极空间如何无损移机，新Z4 Pro又有哪些升级?极空间Z4 Pro深度体验

NAS:DS video/DS file/DS photo等群晖移动端APP远程访问的教程

如何在安装前及安装后修改黑群晖的Mac地址和Sn系列号

手机如何设置与显示准确时间的详细指南

如何修复用户配置文件服务在 WINDOWS 上登录失败的问题

一加手机与电脑互传文件的便捷方法FileDash

日本海上自卫队的军衔制度（日本海上自卫队的军衔制度是什么）

10个免费文件中转服务站，分享文件简单方便，你知道几个?

爱折腾的特斯拉车主必看!手把手教你TESLAMATE的备份和恢复

取消回复欢迎你发表评论: