redis big key分析及shell删除(redis删除hashkey)
nanshan 2024-11-06 11:15 16 浏览 0 评论
目前coids 8个master节点8个slave节点,把两台机器600G的内存吃完了,有点夸张。业务上的人只管用,并没有过多关注redis的健康状况,经过分析后发现有很多的垃圾数据。
1、153上 节点6379 - 6386上每个几点大约有1300 - 1400W个key。
?
也可以通过redis desktop manager 连接单节点来查看。
?
可以看到这些key的数量是动态变化的。是因为有的key设定了过期时间代表它已经过期了,关于设定了expire的key何时释放空间?这篇文章中 内存溢出控制策略 有详细阐述。
2、查找big key,redis 提供了一个bigkeys的命令。
得到的结果不一定准确,是因为其统计key的数据规模并不是占用内存最大的key。
bigkeys的原理,非常简单,通过scan命令遍历,各种不同数据结构的key,分别通过不同的命令得到最大的key:
- 如果是string结构,通过strlen判断;
- 如果是list结构,通过llen判断;
- 如果是hash结构,通过hlen判断;
- 如果是set结构,通过scard判断;
- 如果是sorted set结构,通过zcard判断。
redis-cli -p 6380 --bigkeys
[root@P1QMSPL2RTM01 ~]# redis-cli -p 6380 --bigkeys
# Scanning the entire keyspace to find biggest keys as well as
# average sizes per key type. You can use -i 0.1 to sleep 0.1 sec
# per 100 SCAN commands (not usually needed).
......
-------- summary -------
Sampled 13788262 keys in the keyspace!
Total key length in bytes is 376277646 (avg len 27.29)
Biggest string found 'RPT_20200327044033141' has 15102 bytes
Biggest list found 'opehis:A196E06WBE' has 1058 items
Biggest hash found 'HMS:ERROR:HMS_ERROR2' has 2393 fields
Biggest zset found 'history:L6400' has 4736943 members
12788812 strings with 367806347 bytes (92.75% of keys, avg size 28.76)
915321 lists with 8590020 items (06.64% of keys, avg size 9.38)
0 sets with 0 members (00.00% of keys, avg size 0.00)
4397 hashs with 30777 fields (00.03% of keys, avg size 7.00)
79732 zsets with 98114217 members (00.58% of keys, avg size 1230.55)
#!/bin/bash
#/usr/local/codis/src/github.com/CodisLabs/codis/bin/redis-cli -p 6379 -i 0.1 --bigkeys >/home/scripts/6379_153.log
#sleep 40m
#/usr/local/codis/src/github.com/CodisLabs/codis/bin/redis-cli -p 6380 -i 0.1 --bigkeys >/home/scripts/6380_153.log
#sleep 40m
#/usr/local/codis/src/github.com/CodisLabs/codis/bin/redis-cli -p 6381 -i 0.1 --bigkeys >/home/scripts/6381_153.log
#sleep 40m
#/usr/local/codis/src/github.com/CodisLabs/codis/bin/redis-cli -p 6382 -i 0.1 --bigkeys >/home/scripts/6382_153.log
#sleep 40m
/usr/local/codis/src/github.com/CodisLabs/codis/bin/redis-cli -p 6383 -i 0.1 --bigkeys >/home/scripts/6383_153.log
sleep 40m
/usr/local/codis/src/github.com/CodisLabs/codis/bin/redis-cli -p 6384 -i 0.1 --bigkeys >/home/scripts/6384_153.log
sleep 40m
/usr/local/codis/src/github.com/CodisLabs/codis/bin/redis-cli -p 6385 -i 0.1 --bigkeys >/home/scripts/6385_153.log
sleep 40m
/usr/local/codis/src/github.com/CodisLabs/codis/bin/redis-cli -p 6386 -i 0.1 --bigkeys >/home/scripts/6386_153.log
事实上并不用在master上做这个操作,因为master和slave上的数据是同步的,在master上执行此命令可能会严重阻塞client的写命令,尽管使用了-i 0.1 这个参数。
尽管是统计某个key的数据规模,但是看到这些数据有点夸张,有的key竟然还是19年6月的甚至更早,history:L6400 竟然能有470W个value,而这仅仅是一个站点的数据。
事实上,是有一只删除redis 旧key的程序,可是通过分析其逻辑是典型的顾头不顾尾。那当务之急就是为何释放redis的内存,因为redis服务器的内存使用率一直高达99%。
删除当然是找数据最多的,这个key是 zset类型。用了几个小时学习了sorted set的基本使用方法。
删除的逻辑大致是:遍历站点list,拼凑history:ope这个key,然后用zremrangebyscore删除,score根据实际业务来决定。
删除脚本如下
#!/bin/bash
#/usr/local/codis/src/github.com/CodisLabs/codis/bin/redis-cli -p 6379 -i 0.1 --bigkeys >/home/scripts/6379_153.log
#redis-cli -p 6385 zscan history:L7100 0 match '*:*:*:*:*:**M' count 10000 >history_ope.log
#redis-cli -p 6385 zrangebyscore history:L7100 -inf +inf WITHSCORES > history_L7100.log
#sleep 5s
#2017-01-01 00:00:00 ->
#fromTime='1483200000'
#2018-12-31 23:59:59 ->
#toTime='1546271999'
#2018-12-31 23:59:59 ->
fromTime='1546271999'
#2019/08/31 23:59:59
toTime='1567267199'
logname='del_19_1-8.log'
bkname='del_19_1-8.bk'
TIME=$(date '+%Y%m%d%H%M%S')
count=0
#path='/home/scripts/test/opeList.txt'
path='/home/scripts/test/delete/opeList.txt'
while read -r ope
do
#for ope in $(cat ${path}) //在执行删除的时候遇到过效能问题,例如删除result:glass这个key的时候每次读取5-7W行数据然后进行后面的逻辑发现需要2300s,如果减少数据量到2W速度能到100s,这个差距由点大,用for循环每次读一行比从while缓存中读快吗? 改天测试一下
#do
var1=$(/usr/local/codis/src/github.com/CodisLabs/codis/bin/redis-cli -p 19000 zrangebyscore history:${ope} $fromTime $toTime|wc -l)
# zcard 统计数量可考虑使用该命令计算
#count=$($[count] + $[var1])
count=`expr $count + $var1`
#echo $var1
/usr/local/codis/src/github.com/CodisLabs/codis/bin/redis-cli -p 19000 zremrangebyscore history:${ope} $fromTime $toTime
sleep 1s
echo "$TIME /usr/local/codis/src/github.com/CodisLabs/codis/bin/redis-cli -p 19000 zremrangebyscore history:${ope} $fromTime $toTime " >> /home/scripts/test/delete/$bkname
echo "$TIME ope: $ope,delQty: $var1 " >> /home/scripts/test/delete/$logname
#test
#redis-cli -p 6385 zscan history:${ope} 0 match '*:*:*:*:*:**M' count 1000 > history_6383_${ope}.log
#done
done < opeList.txt
echo "totalQty: $count" >> /home/scripts/test/delete/$logname
删除数据量统计
时间 | 17年- 18年 | 19年1-6月 |
Value数量 | 约1000W | 36970313 |
Key数量 | ? | 211 |
内存 | 1.6GB | 7.2GB |
这总算是解了燃眉之急,至少redis能撑2-5天。毕竟不是长久之计。
内存使用一个脚本估算出来的:
精确评估 history:ope 的大小
概述:在测试环境,将history:ope zadd 10000笔, 打印前后的内存变化,同时根据模型计算,比较两者的差距。
Shell 脚本如下
#!/bin/sh
key="history:A3850"
old_memory=`/usr/local/bin/redis-cli -h 0 -p 6380 info|grep used_memory:|awk -F: '{printf "%d", $2}'`
echo "before test, memory used: $old_memory"
#for((i=100; i<900; i++))
#do
for((j=1483200000; j<1483210000; j++))
do
/usr/local/bin/redis-cli -h 0 -p 6380 zadd $key $j AOIH0200:AOIH0200:A3850E495A1:A1495A1ANK1:A183A00VN01:$j:M > /dev/null
done
sleep 0.5
#done
new_memory=`/usr/local/bin/redis-cli -h 0 -p 6380 info|grep used_memory:|awk -F: '{printf "%d", $2}'`
echo "after test, memory used: $new_memory"
let difference=new_memory-old_memory
echo "difference is: $difference"
[root@gptest01 redis]# ./evaluateHisOpeMem.sh
before test, memory used: 415131248
after test, memory used: 417395400
difference is: 2264152
一个key的写入10000笔数据,需要占用2.16MB
故4000W的value规模可以释放8.5GB的数据
前期用模型估算出来的大小为7G左右。
Value 长度 67byte
共7段
平均每段 = (8 + 8 + 11 + 11 + 11 + 10 + 1)/7 = 8.58byte≈9byte
?
参考:
https://www.jianshu.com/p/5c5dc0d7d776
http://doc.redisfans.com/index.html
3、利用rdb tool来讲dump导出写入mysql 通过下sql 的方式查redis数据。
rdb -c memory -l 5 dump.rdb
找出前5大key。
[root@P1QMSPL2RTM01 redis]# rdb -c memory -l 5 dump.rdb
database,type,key,size_in_bytes,encoding,num_elements,len_largest_element,expiry
WARNING: python-lzf package NOT detected. Parsing dump file will be very slow unless you install it. To install, run the following command:
pip install python-lzf
后来运维人员装好了rdb tool,经过分析原来result:glassId才是终极大boss。
至此,才算真正意义上找到了”bigkeys”,这才是占用reids最大的内存了。
在处理这次事故中,发现目前架构是主从读写分离的架构,在重放slave的aof文件时发生了瞬时读取不到key的情况,着实让人操心。关于此请参照我写的另外一篇。
-------------update 2020年4月26日08:44:45 -----------------------
还有一点是非常奇怪的现象:
旧的数据清理完了之后发现一个奇怪的现象,6385节点的内存交其他节点多10GB,这是很奇怪的,通过codis-proxy写入key时会根据冗余校验算法分配到每一个slot上,理论上来说数据倾斜不会这么严重。
?
对该节点重新做了bgsave ,分析dump之后,发现更奇怪的事情, 某些过期数据残存在6385上,透过proxy竟然访问不到,这是为何呢???
[root@P1PL2RTM01 redis]# redis-cli -p 19000 zrange result:A18BR04NAY 0 -1
(empty list or set)
You have new mail in /var/spool/mail/root
[root@P1PL2RTM01 redis]# redis-cli -p 6385 zrange result:A18BR04NAY 0 -1
1) "{\"actualEqptId\":\"MSPU0200\",\"defectCnt\":0,\"glassId\":\"A18BR04NAY\",\"ifPreProcess\":true,\"ooc\":false,\"oos\":false,\"panelCnt\":8,\"processEndTime\":1543355980,\"ruleSeqId\":3277}"
2) "{\"actualEqptId\":\"MSPU0200\",\"defectCnt\":2,\"glassId\":\"A18BR04NAY\",\"ifPreProcess\":true,\"ooc\":false,\"oos\":false,\"panelCnt\":8,\"processEndTime\":1543355980,\"ruleSeqId\":3298}"
针对目前的怪现象:
codisproxy把某个key写在哪个slot了?这些信息会记录在zk吗?client现在想读刚才写入的数据 应该从哪个slot读呢?
是不是可以从这几个方面入手呢?
更详尽的内容请参考:
https://redis.io/topics/rediscli#scanning-for-big-keys
源代码分析
https://blog.csdn.net/aoerqileng/article/details/86687499
?
相关推荐
- 0722-6.2.0-如何在RedHat7.2使用rpm安装CDH(无CM)
-
文档编写目的在前面的文档中,介绍了在有CM和无CM两种情况下使用rpm方式安装CDH5.10.0,本文档将介绍如何在无CM的情况下使用rpm方式安装CDH6.2.0,与之前安装C5进行对比。环境介绍:...
- ARM64 平台基于 openEuler + iSula 环境部署 Kubernetes
-
为什么要在arm64平台上部署Kubernetes,而且还是鲲鹏920的架构。说来话长。。。此处省略5000字。介绍下系统信息;o架构:鲲鹏920(Kunpeng920)oOS:ope...
- 生产环境starrocks 3.1存算一体集群部署
-
集群规划FE:节点主要负责元数据管理、客户端连接管理、查询计划和查询调度。>3节点。BE:节点负责数据存储和SQL执行。>3节点。CN:无存储功能能的BE。环境准备CPU检查JDK...
- 在CentOS上添加swap虚拟内存并设置优先级
-
现如今很多云服务器都会自己配置好虚拟内存,当然也有很多没有配置虚拟内存的,虚拟内存可以让我们的低配服务器使用更多的内存,可以减少很多硬件成本,比如我们运行很多服务的时候,内存常常会满,当配置了虚拟内存...
- 国产深度(deepin)操作系统优化指南
-
1.升级内核随着deepin版本的更新,会自动升级系统内核,但是我们依旧可以通过命令行手动升级内核,以获取更好的性能和更多的硬件支持。具体操作:-添加PPAs使用以下命令添加PPAs:```...
- postgresql-15.4 多节点主从(读写分离)
-
1、下载软件[root@TX-CN-PostgreSQL01-252software]#wgethttps://ftp.postgresql.org/pub/source/v15.4/postg...
- Docker 容器 Java 服务内存与 GC 优化实施方案
-
一、设置Docker容器内存限制(生产环境建议)1.查看宿主机可用内存bashfree-h#示例输出(假设宿主机剩余16GB可用内存)#Mem:64G...
- 虚拟内存设置、解决linux内存不够问题
-
虚拟内存设置(解决linux内存不够情况)背景介绍 Memory指机器物理内存,读写速度低于CPU一个量级,但是高于磁盘不止一个量级。所以,程序和数据如果在内存的话,会有非常快的读写速度。但是,内存...
- Elasticsearch性能调优(5):服务器配置选择
-
在选择elasticsearch服务器时,要尽可能地选择与当前业务量相匹配的服务器。如果服务器配置太低,则意味着需要更多的节点来满足需求,一个集群的节点太多时会增加集群管理的成本。如果服务器配置太高,...
- Es如何落地
-
一、配置准备节点类型CPU内存硬盘网络机器数操作系统data节点16C64G2000G本地SSD所有es同一可用区3(ecs)Centos7master节点2C8G200G云SSD所有es同一可用区...
- 针对Linux内存管理知识学习总结
-
现在的服务器大部分都是运行在Linux上面的,所以,作为一个程序员有必要简单地了解一下系统是如何运行的。对于内存部分需要知道:地址映射内存管理的方式缺页异常先来看一些基本的知识,在进程看来,内存分为内...
- MySQL进阶之性能优化
-
概述MySQL的性能优化,包括了服务器硬件优化、操作系统的优化、MySQL数据库配置优化、数据库表设计的优化、SQL语句优化等5个方面的优化。在进行优化之前,需要先掌握性能分析的思路和方法,找出问题,...
- Linux Cgroups(Control Groups)原理
-
LinuxCgroups(ControlGroups)是内核提供的资源分配、限制和监控机制,通过层级化进程分组实现资源的精细化控制。以下从核心原理、操作示例和版本演进三方面详细分析:一、核心原理与...
- linux 常用性能优化参数及理解
-
1.优化内核相关参数配置文件/etc/sysctl.conf配置方法直接将参数添加进文件每条一行.sysctl-a可以查看默认配置sysctl-p执行并检测是否有错误例如设置错了参数:[roo...
- 如何在 Linux 中使用 Sysctl 命令?
-
sysctl是一个用于配置和查询Linux内核参数的命令行工具。它通过与/proc/sys虚拟文件系统交互,允许用户在运行时动态修改内核参数。这些参数控制着系统的各种行为,包括网络设置、文件...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- linux 查询端口号 (58)
- docker映射容器目录到宿主机 (66)
- 杀端口 (60)
- yum更换阿里源 (62)
- internet explorer 增强的安全配置已启用 (65)
- linux自动挂载 (56)
- 禁用selinux (55)
- sysv-rc-conf (69)
- ubuntu防火墙状态查看 (64)
- windows server 2022激活密钥 (56)
- 无法与服务器建立安全连接是什么意思 (74)
- 443/80端口被占用怎么解决 (56)
- ping无法访问目标主机怎么解决 (58)
- fdatasync (59)
- 405 not allowed (56)
- 免备案虚拟主机zxhost (55)
- linux根据pid查看进程 (60)
- dhcp工具 (62)
- mysql 1045 (57)
- 宝塔远程工具 (56)
- ssh服务器拒绝了密码 请再试一次 (56)
- ubuntu卸载docker (56)
- linux查看nginx状态 (63)
- tomcat 乱码 (76)
- 2008r2激活序列号 (65)