百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Java面试题|Redis缓存穿透如何使用布隆过滤器预处理无效key

nanshan 2024-12-12 14:06 14 浏览 0 评论

Redis缓存穿透是指当缓存中的数据失效时,多个请求同时访问数据库,导致数据库压力过大。为了解决这个问题,可以使用布隆过滤器来进行预处理。

一、布隆过滤器概述

布隆过滤器是一种高效的数据结构,用于快速判断一个元素是否可能存在于集合中。其核心思想是通过多个哈希函数将元素映射到一个位数组中,从而利用空间换时间的方式提高查询效率。

二、布隆过滤器处理缓存穿透的原理

初始化布隆过滤器

  1. 创建一个固定大小的位数组,通常初始化为0。
  2. 选择多个独立的哈希函数,这些函数将输入数据(如字符串或数字)映射到位数组的索引位置。

插入元素

  1. 当要将一个元素添加到集合中时,使用每个哈希函数对该元素进行哈希计算,并将位数组中对应位置的位设置为1。

检查元素

  1. 要检查一个元素是否可能在集合中时,再次使用每个哈希函数对该元素进行哈希计算,并检查位数组中对应位置的位是否都为1。
  2. 如果任何一位为0,则元素肯定不在集合中;如果所有位都为1,则元素可能在集合中(注意,这里存在误判的可能性)。

三、使用布隆过滤器处理Redis缓存穿透的步骤

在Redis前添加布隆过滤器

  1. 在应用服务器和Redis缓存之间添加一层布隆过滤器,用于快速判断请求的数据是否存在于集合中。

预检查请求数据

  1. 在查询Redis缓存之前,先使用布隆过滤器对请求的数据进行预检查。
  2. 如果布隆过滤器判断该数据不存在于集合中,则直接返回404或错误信息,避免进一步查询Redis和数据库。

处理缓存未命中情况

  1. 如果布隆过滤器判断该数据可能存在于集合中(即所有相关位都为1),则继续查询Redis缓存。
  2. 如果Redis缓存未命中,则再查询数据库。
  3. 如果数据库查询也未返回结果,则将该数据的键添加到布隆过滤器中(对于不存在的数据,可以通过这种方式减少未来的无效请求)。

更新缓存

  1. 当从数据库中查询到数据时,将该数据更新到Redis缓存中,并设置适当的过期时间。

四、注意事项

误判率

  1. 布隆过滤器存在误判的可能性,即可能将不存在的元素误判为存在。但在缓存穿透的场景中,我们更关注的是对数据库的保护,因此这个特性不会造成太大问题。
  2. 可以通过调整布隆过滤器的参数(如位数组的大小和哈希函数的数量)来降低误判率。

元素删除

  1. 标准布隆过滤器不支持删除元素。如果需要删除元素,可以考虑使用计数式布隆过滤器或其他变种。

性能考虑

  1. 布隆过滤器的插入和查询操作都非常快,可以达到常数时间复杂度O(k),其中k是哈希函数的数量。
  2. 在高并发场景下,布隆过滤器能够显著降低数据库的压力,提高系统的性能和稳定性。


布隆过滤器(Bloom Filter)是一种空间效率极高的概率型数据结构,用于快速判断一个元素是否存在于一个集合中。它利用位数组来存储信息,通过多个哈希函数将元素映射到位数组中的多个位置,并将这些位置的值设置为1。在查询时,只需检查这些位置的值是否都为1,如果有一个位置为0,则元素一定不存在;如果所有位置都为1,则元素可能存在(存在一定的误判率)。在Redis中,可以使用其位图数据结构来实现布隆过滤器的功能。以下是一个使用Java和Jedis(Redis的Java客户端)实现布隆过滤器的示例代码:

首先,确保已经在项目中引入了Jedis库。如果使用Maven构建项目,可以在`pom.xml`文件中添加以下依赖:

<dependency>
    <groupId>redis.clients</groupId>
    <artifactId>jedis</artifactId>
    <version>3.7.0</version>
</dependency>


以下是Java代码实现:

import redis.clients.jedis.Jedis;

public class BloomFilterExample {

    private static final int[] seeds = {3, 5, 7, 11, 13, 17, 19, 23, 29, 31}; // 哈希函数种子
    private static final int DEFAULT_SIZE = 2 << 24; // 布隆过滤器的默认大小(可根据实际需求调整)
    private static final double DEFAULT_FALSE_POSITIVE_PROBABILITY = 0.01; // 误判率(可根据实际需求调整)

    private Jedis jedis;
    private int[] offsets;
    private int numHashes;

    public BloomFilterExample() {
        this.jedis = new Jedis("localhost", 6379); // 根据实际Redis连接信息修改
        this.numHashes = optimalNumOfHashFunctions(DEFAULT_FALSE_POSITIVE_PROBABILITY, DEFAULT_SIZE);
        this.offsets = new int[numHashes];
    }

    // 计算最优的哈希函数数量
    private int optimalNumOfHashFunctions(double falsePositiveProbability, int size) {
        return (int) Math.ceil(-Math.log(falsePositiveProbability) / Math.log(2));
    }

    // 计算哈希函数的偏移量
    private void calculateOffsets(String value) {
        for (int i = 0; i < numHashes; i++) {
            int hash = hash(value, seeds[i]);
            offsets[i] = Math.abs(hash % DEFAULT_SIZE);
        }
    }

    // 向布隆过滤器中添加元素
    public void add(String key, String value) {
        calculateOffsets(value);
        for (int offset : offsets) {
            jedis.setbit(key, offset, true);
        }
    }

    // 判断元素是否可能存在于布隆过滤器中(可能存在误判)
    public boolean mightContain(String key, String value) {
        calculateOffsets(value);
        for (int offset : offsets) {
            if (!jedis.getbit(key, offset)) {
                return false;
            }
        }
        return true;
    }

    // 关闭Redis连接
    public void close() {
        jedis.close();
    }

    // 简单的哈希函数实现(可根据需要替换为更复杂的哈希函数)
    private int hash(String value, int seed) {
        int hash = 0;
        for (int i = 0; i < value.length(); i++) {
            hash = hash * seed + value.charAt(i);
        }
        return hash & 0x7FFFFFFF;
    }

    public static void main(String[] args) {
        BloomFilterExample bloomFilter = new BloomFilterExample();

        String key = "bloom-filter-example";
        String value1 = "hello";
        String value2 = "world";

        bloomFilter.add(key, value1);

        System.out.println("Does '" + value1 + "' might exist? " + bloomFilter.mightContain(key, value1));
        System.out.println("Does '" + value2 + "' might exist? " + bloomFilter.mightContain(key, value2));

        bloomFilter.close();
    }
}


在上述代码中:

- `BloomFilterExample`类实现了一个简单的布隆过滤器功能,通过Jedis与Redis进行交互。

- 构造函数中初始化了Jedis连接、计算了哈希函数数量,并创建了用于存储偏移量的数组。

- `add`方法用于向布隆过滤器中添加元素,通过计算元素的哈希值得到多个偏移量,并在Redis的位图中将对应位置设置为`true`。

- `mightContain`方法用于判断元素是否可能存在于布隆过滤器中,计算元素的哈希偏移量后,检查Redis位图中对应位置是否都为`true`,如果有一个为`false`,则元素一定不存在;如果都为`true`,则元素可能存在(存在误判可能)。

- `main`方法演示了如何使用布隆过滤器,向过滤器中添加一个元素并进行存在性判断。

请注意,这只是一个简单的示例,实际应用中可能需要根据具体需求进行优化和扩展,例如处理大规模数据时可能需要考虑分布式布隆过滤器等更高级的实现方式,同时还需要根据实际情况调整布隆过滤器的大小、误判率等参数以平衡性能和准确性。此外,Redis的位图操作在处理大规模数据时可能会占用较多内存,需要确保Redis服务器有足够的资源可用。

相关推荐

0722-6.2.0-如何在RedHat7.2使用rpm安装CDH(无CM)

文档编写目的在前面的文档中,介绍了在有CM和无CM两种情况下使用rpm方式安装CDH5.10.0,本文档将介绍如何在无CM的情况下使用rpm方式安装CDH6.2.0,与之前安装C5进行对比。环境介绍:...

ARM64 平台基于 openEuler + iSula 环境部署 Kubernetes

为什么要在arm64平台上部署Kubernetes,而且还是鲲鹏920的架构。说来话长。。。此处省略5000字。介绍下系统信息;o架构:鲲鹏920(Kunpeng920)oOS:ope...

生产环境starrocks 3.1存算一体集群部署

集群规划FE:节点主要负责元数据管理、客户端连接管理、查询计划和查询调度。>3节点。BE:节点负责数据存储和SQL执行。>3节点。CN:无存储功能能的BE。环境准备CPU检查JDK...

在CentOS上添加swap虚拟内存并设置优先级

现如今很多云服务器都会自己配置好虚拟内存,当然也有很多没有配置虚拟内存的,虚拟内存可以让我们的低配服务器使用更多的内存,可以减少很多硬件成本,比如我们运行很多服务的时候,内存常常会满,当配置了虚拟内存...

国产深度(deepin)操作系统优化指南

1.升级内核随着deepin版本的更新,会自动升级系统内核,但是我们依旧可以通过命令行手动升级内核,以获取更好的性能和更多的硬件支持。具体操作:-添加PPAs使用以下命令添加PPAs:```...

postgresql-15.4 多节点主从(读写分离)

1、下载软件[root@TX-CN-PostgreSQL01-252software]#wgethttps://ftp.postgresql.org/pub/source/v15.4/postg...

Docker 容器 Java 服务内存与 GC 优化实施方案

一、设置Docker容器内存限制(生产环境建议)1.查看宿主机可用内存bashfree-h#示例输出(假设宿主机剩余16GB可用内存)#Mem:64G...

虚拟内存设置、解决linux内存不够问题

虚拟内存设置(解决linux内存不够情况)背景介绍  Memory指机器物理内存,读写速度低于CPU一个量级,但是高于磁盘不止一个量级。所以,程序和数据如果在内存的话,会有非常快的读写速度。但是,内存...

Elasticsearch性能调优(5):服务器配置选择

在选择elasticsearch服务器时,要尽可能地选择与当前业务量相匹配的服务器。如果服务器配置太低,则意味着需要更多的节点来满足需求,一个集群的节点太多时会增加集群管理的成本。如果服务器配置太高,...

Es如何落地

一、配置准备节点类型CPU内存硬盘网络机器数操作系统data节点16C64G2000G本地SSD所有es同一可用区3(ecs)Centos7master节点2C8G200G云SSD所有es同一可用区...

针对Linux内存管理知识学习总结

现在的服务器大部分都是运行在Linux上面的,所以,作为一个程序员有必要简单地了解一下系统是如何运行的。对于内存部分需要知道:地址映射内存管理的方式缺页异常先来看一些基本的知识,在进程看来,内存分为内...

MySQL进阶之性能优化

概述MySQL的性能优化,包括了服务器硬件优化、操作系统的优化、MySQL数据库配置优化、数据库表设计的优化、SQL语句优化等5个方面的优化。在进行优化之前,需要先掌握性能分析的思路和方法,找出问题,...

Linux Cgroups(Control Groups)原理

LinuxCgroups(ControlGroups)是内核提供的资源分配、限制和监控机制,通过层级化进程分组实现资源的精细化控制。以下从核心原理、操作示例和版本演进三方面详细分析:一、核心原理与...

linux 常用性能优化参数及理解

1.优化内核相关参数配置文件/etc/sysctl.conf配置方法直接将参数添加进文件每条一行.sysctl-a可以查看默认配置sysctl-p执行并检测是否有错误例如设置错了参数:[roo...

如何在 Linux 中使用 Sysctl 命令?

sysctl是一个用于配置和查询Linux内核参数的命令行工具。它通过与/proc/sys虚拟文件系统交互,允许用户在运行时动态修改内核参数。这些参数控制着系统的各种行为,包括网络设置、文件...

取消回复欢迎 发表评论: