百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

MYSQL千万级大表如何做数据清理?

nanshan 2024-11-27 18:14 16 浏览 0 评论

前言:

mysql数据库表数据的清理,在工作中我们会经常遇见,那么对于千万级大表数据的清理还是按照常规的使用delete命令来清理吗?下面就聊一聊千万级数据如何清理。

数据清理

当我们要清理表中的历史数据时,一般都是通过时间来进行判断的,执行delete的语句如下“

DELETE FRoM table useronline  WHERE gmt_create < SUBDATE(CURDATE(),INTERVAL 300 DAY);

如上SQL,就是删除300天之前的数据,如果是小表的话,执行这个SQL没啥问题,但是如果是大表,如果表中的数据量达到千万级别的话,就会有问题了

像以上这样的SQL,如果没有在gmt_create字段上创建索引,那么delete操作就会进行全表扫描,进行大范围的加锁,甚至效果相当于锁表,而锁表给业务带来的影响就是业务都无法进行写操作了,这肯定是无法接受的。

而且,即使业务说我可以允许锁表上面的操作也有可能会失败,因为数据库会对单条SQL产生的bin log有大小是有限制的,删除这么大量的数据,产生的日志大小如果超过该阈值,最终还是会失败!

max_binlog_cache_size参数指定了单个事务最大允许使用的Binlog,当超出这个值会出现报错:Multi-statement transaction required more than时,'max binlog cache size' bytes of storage; increase this mysqld variable andtry again.

而且,删除操作还涉及到磁盘I0,如果要删除的数据太多,就会导致频繁的I0,对数据也会造成一定的压力。

还有就是,数据的删除过程,也会伴随着索引更新,大量的数据删除操作,会因为频繁的索引重建而导致业务无法进行写操作。

那么,怎么解决呢?如何实现高效、安全的大表的批量删除呢?

总的清理方案可以参考:删除历史数据_数据管理(DMS)-阿里云帮助中心 (aliyun.com):https://help.aliyun.com/zh/dms/clear-historical-data

DMS在清理数据时会扫描全表,根据主键或非空唯一键分批执行。

1、获取要做数据清理的表的主键,或者非空唯一键的最大值和最小值,

如:

select min(id) as min_id,max(id) as max_id from useronlinetable

假如我们得到min_id = 100,max_id=100000;

2、分段取出第一个区间的所有数据,默认区间可能是1000,也可以根据binlog配置等进行调整

这段 SQL代码的主要目的是查询出表useronline中 id值在 100 到 100000 之间的记录,并为每条记录增加一个额外的字段 hasNeedDelItem 。这个字段用于标识是否存在一个条件满足的记录。以下是详细的逐步解析:

外层查询:

这部分查询 table_hollis 表中 id 在100 到 100000 范围内的前 1000 条记录。查询的结果包括每条记录的 id 和一个名为hasNeedDelItem的计算字段。

内层查询:(计算字段hasNeedDelItem)

子查询:

select gmt_create from username where id >= 100 and id <= 100000 order by id asc limit 1000

这个子查询从同样的 table hollis 表中选取 id 在同一范围内的记录,并提取这些记录的 gmt_ creare字段。结果集限制为前 1000 条记录。

条件查询:

在子查询结果的基础上,这个条件进一步检查gmt create 是否小于当前日期向前推算 300 天的日期。这里使用的 SUBDATE 函数用于日期的计算。

最终解释:

如果找到任何 gmt_create满足上述条件的记录,这个查询就返回数字1。由于使用了 limit 1,查询最多返回一条记录。如果没有找到任何符合条件的记录,则不返回任何结果。

结果解释:

hasNeedDelItem 字段对于每个符合外层查询条件的id,都会检查是否存在gmt create 日期小于当前日期 300 天的记录。如果存在, hasNeedDelItem 为1(即记录需要被删除的标识),否则为 NULL(因为没有记录返回1)。

这样的 SOL逻辑通常用于标记或检索需要基于某些时间条件进行处理或删除的数据记录。

这样,在按照ID删除的时候,就可以用到主键索引,进行删除,而且因为做了分批,也不会一次性删除大量数据。

总结

在阿里云MDS的数据清理功能中,还可以设置开始执行时间和结束执行时间,只有在这个时间范围内才会执行,如果超过了这个时间,就不再执行了。也可以避免数据清理导致线上数据库不可用!

相关推荐

如何为MySQL服务器和客户机启用SSL?

用户想要与MySQL服务器建立一条安全连接时,常常依赖VPN隧道或SSH隧道。不过,获得MySQL连接的另一个办法是,启用MySQL服务器上的SSL封装器(SSLwrapper)。这每一种方法各有其...

Mysql5.7 出现大量 unauthenticated user

线上环境mysql5.7突然出现大量unauthenticateduser,进mysql,showprocesslist;解决办法有:在/etc/hosts中添加客户端ip,如192.16...

MySQL 在 Windows 系统下的安装(mysql安装教程windows)

更多技术文章MySQL在Windows系统下的安装1.下载mysql和Framework链接链接:百度网盘请输入提取码提取码:6w3p双击mysql-installer-communit...

MySql5.7.21.zip绿色版安装(mysql数据库绿色版安装)

1、去网上下载满足系统要求的版本(mysql-5.7.21-winx64.zip)2、直接解压3、mysql的初始化(1)以管理员身份运行cmd,在mysql中的bin目录下shift+右键-在...

MySQL(8.0)中文全文检索 (亲测有效)

在一堆文字中找到含有关键字的应用。当然也可以用以下语句实现:SELECT*FROM<表名>WHERE<字段名>like‘%ABC%’但是它的效率太低,是全盘扫描。...

新手教程,Linux系统下MySQL的安装

看了两三个教程。终于在哔哩哔哩找到一个简单高效的教程,成功安装,up主名叫bili逍遥bili,感兴趣可以去看看。下面这个是我总结的安装方法环境:CentOS764位1.下载安装包,个人觉得在...

麒麟服务器操作系统安装 MySQL 8 实战指南

原文连接:「链接」Hello,大家好啊,今天给大家带来一篇麒麟服务器操作系统上安装MySQL8的文章,欢迎大家分享点赞,点个在看和关注吧!MySQL作为主流开源数据库之一,被广泛应用于各种业务...

用Python玩转MySQL的全攻略,从环境搭建到项目实战全解析

这是一篇关于“MySQL数据库入门实战-Python版”的教程,结合了案例实战分析,帮助初学者快速掌握如何使用Python操作MySQL数据库。一、环境准备1.安装Python访问Pytho...

安装MySQL(中标麒麟 安装mysql)

安装MySQL注意:一定要用root用户操作如下步骤;先卸载MySQL再安装1.安装包准备(1)查看MySQL是否安装rpm-qa|grepmysql(2)如果安装了MySQL,就先卸载rpm-...

Mysql最全笔记,快速入门,干货满满,爆肝

目录一、MySQL的重要性二、MySQL介绍三、软件的服务架构四、MySQL的安装五、SQL语句六、数据库相关(DDL)七、表相关八、DML相关(表中数据)九、DQL(重点)十、数据完...

MAC电脑安装MySQL操作步骤(mac安装mysqldb)

1、在官网下载MySQL:https://dev.mysql.com/downloads/mysql/根据自己的macOS版本,选择适配的MySQL版本根据自己需求选择相应的安装包,我这里选择macO...

mysql主从(mysql主从切换)

1、本章面试题什么是mysql主从,主从有什么好处什么是读写分离,有什么好处,使用mycat如何实现2、知识点2.1、课程回顾dubboORM->MVC->RPC->SOApro...

【linux学习】以MySQL为例,带你了解数据库

做运维的小伙伴在日常工作中难免需要接触到数据库,不管是MySQL,mariadb,达梦还是瀚高等其实命令都差不多,下面我就以MySQL为例带大家一起来了解下数据库。有兴趣的小伙伴不妨评论区一起交流下...

玩玩WordPress - 环境简介(0)(玩玩网络科技有限公司)

简介提到开源博客系统,一般都会直接想到WordPress!WordPress是使用PHP开发的,数据库使用的是MySQL,一般会在Linux上运行,Nginx作为前端。这时候就需要有一套LNMP(Li...

服务器常用端口都有哪些?(服务器端使用的端口号范围)

下面为大家介绍一下,服务器常用的一些默认端口,以及他们的作用:  21:FTP服务所开放的端口,用于上传、下载文件。  22:SSH端口,用于通过命令行模式远程连接Linux服务器或vps。  23:...

取消回复欢迎 发表评论: