百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

SQL Server 中处理重复数据:保留最新记录的两种方案

nanshan 2024-10-07 11:06 41 浏览 0 评论

大家在项目开发过程中,数据库几乎是每一个后端开发者必备的技能,并且经常会遇到对于数据表重复数据的处理,一般需要去除重复保留最新的记录。今天这里给大家分享两种种方案,希望对大家日常开发能够提供一些帮助!

首先准备测试的数据表

创建一个包含ID, OrderDate, ProductName以及可选的SequenceID的商品购买记录表Sales

CREATE TABLE Sales
(
    ID INT IDENTITY(1,1) PRIMARY KEY,
    OrderDate DATE NOT NULL,
    ProductName VARCHAR(100) NOT NULL, 
    SequenceID INT IDENTITY(1,1)
);

-- 订单日期增加当前日期默认值约束
ALTER TABLE Sales ADD DEFAULT (GETDATE()) FOR OrderDate;

准备一些测试数据

INSERT INTO Sales (OrderDate, ProductName)
VALUES 
    ('2023-04-01', '笔记本X1'), -- 示例商品A的最早购买日期
    ('2023-04-07', '智能手机Y7'),
    ('2023-04-15', '平板电脑Z3'),
    ('2023-04-09', '笔记本X1'), -- 商品A的第二次购买,较早日期
    ('2023-04-08', '智能手机Y7'), -- 商品B的第二次购买,较早日期
    ('2023-04-20', '平板电脑Z3'), -- 商品C的第二次购买,较晚日期
    ('2023-04-18', '笔记本X1'), -- 商品A的第三次购买,最新日期
    ('2023-04-22', '智能手机Y7 Pro'), -- 新产品,不同型号
    ('2023-04-25', '平板电脑Z3 Plus'), -- 新产品,不同型号
    ('2023-04-24 14:30:00', '笔记本X1'), -- 同日但较早时间的重复记录
    ('2023-04-24 15:45:00', '笔记本X1'); -- 同日但较晚时间的记录,应被视为最新

查询效果如下:



方案一. 使用ROW_NUMBER()函数删除重复项

ROW_NUMBER()函数是SQL Server中处理重复数据的强大工具之一,可以通过窗口函数来为每一组重复数据分配行号,然后保留每组数据中最新的一条记录。

示例SQL语句

假设有一个表Sales,包含ID, OrderDate, ProductName等字段,其中ID为主键,但ProductName和OrderDate上有重复数据,我们要保留每个产品的最新订单记录。

-- 查询不是最新的重复记录直接删除
WITH CTE AS (
    SELECT *,
           ROW_NUMBER() OVER(PARTITION BY ProductName ORDER BY OrderDate DESC) AS RowNum
    FROM Sales
)
DELETE FROM CTE
WHERE RowNum > 1;
-- 数据库不操作直接查询每一行不重复的最新记录
WITH CTE AS (
    SELECT *,
           ROW_NUMBER() OVER(PARTITION BY ProductName ORDER BY OrderDate DESC) AS RowNum
    FROM Sales
)
select * FROM CTE
WHERE RowNum = 1;

执行效果如下:


SQL说明

PARTITION BY ProductName:按照ProductName对数据分组。

ORDER BY OrderDate DESC:在每个分组内按OrderDate降序排序,确保最新记录排在首位。

ROW_NUMBER():为每组内的记录分配一个行号,最新的记录行号为1。

删除重复记录:在CTE中删除RowNum大于1的记录,即除了每个分组最新的一条记录外,其余视为重复并删除。

直接查询:针对CTE筛选RowNum等于1的记录

方案二. 使用临时表的方式

第二种方法是使用临时表来筛选并保留最新记录。具体步骤如下:

创建临时表:首先,创建一个临时表,结构与原表相同,用于存储去重后的数据。

使用MERGE语句:通过MERGE语句将原表数据与临时表数据进行比较,保留每个唯一标识下的最新记录。

INSERT INTO #TempSales
SELECT ID, OrderDate, ProductName
FROM (
    SELECT *, ROW_NUMBER() OVER(PARTITION BY ProductName ORDER BY OrderDate DESC) AS rn
    FROM Sales
) t
WHERE t.rn = 1;

select * from #TempSales; -- 直接查询就是去重后保留最新记录的查询数据

TRUNCATE TABLE Sales; -- 清空原表
-- 重新插入临时表的数据给Sales。适用数据量不是特别大的情况
INSERT INTO Sales
SELECT * FROM #TempSales;

DROP TABLE #TempSales; -- 删除临时表


说明

该方案先通过临时表存储每个产品的最新记录,然后清空原表,并将临时表中的数据重新插入原表,最终达到保留最新记录的目的。直接查询临时表就是所需要的数据。

相关推荐

Linux下C++访问web—使用libcurl库调用http接口发送解析json数据

一、背景这两天由于一些原因研究了研究如何在客户端C++代码中调用web服务端接口,需要访问url,并传入json数据,拿到返回值,并解析。 现在的情形是远程服务端的接口参数和返回类型都是json的字符...

干货 | 这 3 个超经典的Linux实战项目,让你分分钟入门Linux系统

编译安装nginx搭建小游戏网站编译安装流程下载nginx代码wget-P/server/tools/http:nginx.org/download/nginx1.22.0.tar.gz解压并进...

权限管理-树莓派linux⑦

前言当你在看这篇README,我感到非常荣幸。作为支持开源、分享的理念的我,给大家带来一些学习上的乐趣。由于本人并非专业的教育领域人士,很多时候天马行空,随心所欲的表达方式,可能让部分人感到不适。请根...

每天Linux学习:linux文件属性

ls-lih先通过这个命令来观察(-l列表显示目录内容详细,-i第一列显示inode,-h将文件大小显示为我们常见的kb,mb等单位)从截图中我们能看出文件属性由这9列信息组成:第1列:inod...

Linux ln、unlink命令用法

ln命令可以用来创建软链接或硬链接。1.创建软链接:ln-s源文件目标文件例如:ln-s/usr/lib/libc.so/usr/local/lib/libc.so.6这样就创建了一...

Linux 系统启动完整流程

一、启动系统流程简介如上图,简述系统启动的大概流程:1:硬件引导UEFi或BIOS初始化,运行POST开机自检2:grub2引导阶段系统固件会从MBR中读取启动加载器,然后将控制权交给启动加载器GRU...

最火的 CI/CD 平台 Jenkins 详细搭建教程(for Linux)

在正式学习Jenkins之前我们需要对两个名词有一定了解,其一是DevOps,另外一个就是CI/CD。何为DevOps?来自wiki百科介绍DevOps是一系列软件开发实践,强调开发人员(Dev)和测...

hadoop集群搭建详细方法

第一步:搭建配置新的虚拟机格式化之前先把tmp目录下所有与Hadoop有关的信息全部删除rm-rf/tmp/hadoop-centos*开启之后jps只有Java的进程:sudovi/et...

Linux 常用命令集合

系统信息arch显示机器的处理器架构(1)uname-m显示机器的处理器架构(2)uname-r显示正在使用的内核版本dmidecode-q显示硬件系统部件-(SMBIOS/DM...

inode文件索引,你了解嘛?你的Linux基础真的扎实嘛?

一、inode是什么?深入了解inode,就要从文件存储说起来!文件储存在硬盘上,硬盘的最小存储单位叫做"扇区"(Sector)。每个扇区储存512字节。读取硬盘的时候,不会一个个扇区地读取,这样效率...

linux实例之创建service服务

前面我们讲过可以通过service命令来启动,重启,停止指定的服务程序。service服务可以在系统启动时,自动运行该服务,我们可以利用这一特点,创建service文件,并且让系统重启时,自动执行命令...

linux之软连接和硬连接的区别

硬连接硬链接是通过索引节点进行的链接。在Linux中,多个文件指向同一个索引节点是允许的,像这样的链接就是硬链接。硬链接只能在同一文件系统中的文件之间进行链接,不能对目录进行创建。如果删除硬链接对应的...

Linux inode 详解

简介索引节点(IndexNode)是Linux/类unix系统文件系统上的一种数据结构,用于存储有关文件或目录的元数据。它包含文件的所有信息,除了文件名和数据。inode在文件系统如何存储和检...

Bash 脚本实例:获取符号链接的目标位置

我们都熟悉Linux中的符号链接,通常称为符号链接或软链接,符号链接是指向任何文件系统中的另一个文件或目录的特定文件。本文将介绍Linux中符号链接的基础知识,并创建一个简单的bash脚本...

windows快捷方式,符号链接,软链接和硬链接

当一个软件大量的向C盘写入数据,而我们又无法修改软件保存数据的位置时,可以使用windows系统的“符号链接”(SymbolicLink)功能,将保存数据的位置修改到其它分区中。符号链接类似于我们熟...

取消回复欢迎 发表评论: