轻量级分析利器再升级:解读 DuckDB 1.3.0 新特性
nanshan 2025-07-28 19:17 4 浏览 0 评论
DuckDB 团队近日正式发布了最新版本 —— DuckDB 1.3.0,代号 “Ossivalis”。此次版本以金眼鸭的远古祖先 Bucephala Ossivalis 命名,象征项目在演化和成长过程中的又一重要里程碑。
作为一款专注本地分析型查询的嵌入式数据库,DuckDB 一直以快速迭代和出色的性能受到关注。此次 1.3.0 更新引入了诸多关键特性和改进。不过,鉴于更新内容十分丰富,本文仅简要介绍其中的核心亮点。
DuckDB 正在以惊人的速度不断进化,其功能的持续增强正推动它逐步成为现代数据分析工作流中的关键组成部分。
重大变更与弃用通知
弃用旧版 Linux glibc 支持
随着主流 Linux 发行版已全面过渡至 glibc 2.28 或更高版本,DuckDB 官方发布的 Linux 预编译二进制包也随之调整,最低依赖版本提升至 glibc 2.28。
本次版本采用 Python 项目中的 manylinux_2_28 镜像构建,该镜像在保持兼容性的同时,引入了较新的编译器,以便更好地平衡兼容性与性能。
DuckDB 一直高度重视跨平台移植性,因此,仍然可以通过源码编译方式在较旧版本的 glibc 系统上使用 DuckDB。不过,对于希望使用官方预构建包的用户,需确保系统环境符合新的 glibc 要求。
Lambda 函数语法
以前,DuckDB 中的 lambda 函数可以使用单箭头语法指定:x -> x + 1。单箭头运算符也被 JSON 扩展用来通过语法表达JSON 提取->'field'。绑定器将单箭头运算符的两个含义视为相同,因此它们共享相同(低)优先级,因此需要在 JSON 表达式中使用额外的括号进行相等性检查:
这常常引起用户的困惑,因此,新版本弃用了旧的箭头 lambda 语法,并用 Python 风格的 lambda 语法取而代之:
为了使过渡更加顺畅,弃用工作将在明年分几个步骤进行。首先,DuckDB 1.3.0引入了一个用于配置 lambda 语法的新设置:
目前,DEFAULTDuckDB 1.4.0 启用两种语法样式,即旧的单箭头语法和 Python 风格的语法。DuckDB 1.4.0 将是最后一个支持单箭头语法且未明确启用该语法的版本。DuckDB 1.5.0 将默认禁用单箭头语法。DuckDB 1.6.0 将移除该lambda_syntax标志并完全弃用单箭头语法,因此旧的行为将不再可用。
使用转义符序列化列表中的字符串
从新版本开始,DuckDB 会对'嵌套数据结构中序列化的字符串进行转义,以便能够在序列化字符串和嵌套表示之间进行往返转换。例如:
SQL 解析器的细微调整
- AT:由于在 Iceberg 中用于时间旅行语法,AT 现已成为关键字。若希望将其作为标识符(如列名)使用,必须加上引号,例如 "AT"。
- LAMBDA:由于 Lambda 函数语法的更新,LAMBDA 现在被正式列为保留关键字,不能再作为普通标识符使用。
- GRANT:相比之下,GRANT 不再是保留关键字,开发者现在可以将其用作列名或其他标识符。
新特性亮点
在本次 DuckDB 更新中,新增了诸多令人期待的新功能,
外部文件缓存(External File Cache)
DuckDB 广泛用于读取远程文件,如通过 HTTP 或云端对象存储访问的 Parquet 文件。在此前的版本中,每次查询都会重新完整读取文件数据,效率较低。
本次版本引入了 外部文件缓存机制:
- 该缓存遵循 DuckDB 的总体内存限制;
- 若系统内存允许,将自动缓存远程文件中的数据块;
- 这样在重复执行查询时,能显著减少 I/O 访问次数,提高性能。
这一改进对处理远程大数据文件的用户尤其有益,例如反复分析存储在云端的数据集时将能获得明显的速度提升。
我们可以观察到:相同的查询在第二次执行时明显更快(首次执行需要18s,第二次需要1.3s),这得益于外部文件缓存机制的引入。而在之前的版本中,查询耗时是相同的,因为每次都需要完整读取远程文件。
用户还可以通过内置的表函数 duckdb_external_file_cache() 来查询当前的缓存内容。例如:
缓存默认启用,但可以通过以下方式禁用:
SET enable_external_file_cache = false;
TRY 表达式的通用支持
此前,DuckDB 支持 TRY_CAST,即尝试将值转换为指定类型,如果转换失败,不会报错,而是返回 NULL。例如:
本次版本将这一机制扩展至任意可能报错的表达式,新增了通用的 TRY 表达式。例如,计算对数时,log(0) 会抛出异常,提示“无法对零取对数”。使用新的 TRY 语法:
该特性适用于各种可能出错的表达式。不过需要注意,如果大量行的计算都可能出错,性能可能会受到影响。原因是 DuckDB 会切换为逐行执行模式,以准确定位出错的行,这会比批量执行更慢。因此建议在预期错误较少的情况下谨慎使用 TRY。
支持更新 Struct 类型字段的子模式
从本次 DuckDB 新版本开始,用户可以通过 ALTER TABLE 语句对 STRUCT 类型的子字段进行增删改操作。具体支持以下功能:
- 删除字段
- 添加字段
- 重命名字段
动态替换数据库:ATTACH OR REPLACE
DuckDB 新增了 ATTACH OR REPLACE 语句,允许用户在运行时动态替换已附加的数据库,实现“热切换”数据库的功能。示例如下:
这意味着可以先附加一个数据库(如 taxi_v1.duckdb),随后无需先卸载再附加,即可用新版数据库文件(如 taxi_v2.duckdb)替换原数据库,极大提升了灵活性和操作便捷性。
UUID v7 支持
DuckDB 现已支持 UUID v7,这是一种更新的 UUID 版本。UUID v7 结合了 Unix 毫秒时间戳和随机位,既保证了唯一性,也支持按时间排序。这对于按时间排序 UUID 或将常见的 ID 和 TIMESTAMP 两列合并为单列 UUIDv7 非常实用。
新 UUID 可通过标量函数 uuidv7() 生成,例如:
还有一些附加函数可用于确定 UUID 版本 ( uuid_extract_version()) 和提取内部时间戳 ( uuid_extract_timestamp()),例如:
表达式支持CREATE SECRET
DuckDB 拥有一个内部的“secret”管理工具,用于管理 S3 凭证等内容。在此版本中,可以在创建 secret 时使用标量表达式。这使得 secret 内容无需在查询文本中指定,从而更容易避免出现在日志文件等文件中。例如:
BEARER_TOKEN机密中的字段是通过getvariable中的函数设置的CREATE SECRET。在 CLI 中,也可以通过使用 的环境变量getenv()来实现。例如,现在可以这样做:
展开列(Unpacking Columns)功能增强
DuckDB 1.3.0 对广受欢迎的 COLUMNS(*) 表达式进行了进一步优化。此前,用户可以通过在表达式前加星号(*)来将列实体展开成列表,例如:
之前的 COLUMNS() 语法虽然能展开列,但不能与其他表达式(如类型转换)一起使用。例如,下面的写法会报错:
为了解决这个限制,DuckDB 引入了新的关键字 UNPACK。使用 UNPACK 后,以下语句:
等价于:
即可以将表中的所有列先展开,再统一转换为 VARCHAR 类型,极大提升了表达式的灵活性。
空间连接运算符(Spatial JOIN Operator)
DuckDB 在空间扩展中新增了专门的空间连接运算符,大幅提升了基于空间谓词函数(如 ST_Intersects 和 ST_Contains)对两个几何列进行连接查询的效率。
与传统的哈希连接(HASH_JOIN)类似,空间连接(SPATIAL_JOIN)会为连接中较小的一方构建临时的查找数据结构,不过这里用的是 R-Tree 而非哈希表。这意味着用户无需事先创建索引或做任何预处理,空间连接的优化工作完全由连接运算符内部自动完成。
查询优化器会尽力将该运算符应用于 LEFT、OUTER、INNER 和 RIGHT 空间连接中。但目前的限制是连接条件只能有一个,否则优化器会退回使用效率较低的连接策略。
以下示例展示了空间连接运算符如何成为查询计划的一部分。虽然示例查询较小,但在我的机器上,执行速度相比 DuckDB v1.2.2 版本提升了近 100 倍!
内部改进
本次发布还带来了大量内部改动:
- Parquet 读写器重构:DuckDB 几乎完全重新实现了 Parquet 文件的读写功能,大幅提升了 Parquet 文件的性能和稳定性,同时扩展了对一些不常见逻辑类型(如 UNKNOWN 和 FLOAT16)的支持。
- 多文件读取统一处理:针对读取多个文件(例如一个文件夹中的 Parquet 文件),DuckDB 新增了一个名为 MultiFileReader 的统一 API。该机制统一了对多种文件格式(Parquet、CSV、JSON、Avro 等)中多个文件的处理方式,能够更好地应对多文件间的模式差异。
- 新字符串压缩方法 DICT_FSST:以往 DuckDB 支持字符串的字典编码和 FSST(Fast Static Symbol Table,快速静态符号表)两种压缩方法,但这两种方法无法在同一个存储块(默认 265KB)中混合使用。实际应用中,部分数据块适合字典编码,另一部分更适合 FSST。FSST 默认不进行字符串去重。此次更新引入了结合两者优势的新压缩方法——DICT_FSST,先进行字典编码,再用 FSST 压缩字典。同时,字典编码和纯 FSST 编码仍然可用。
- 优化空值有效性掩码存储:许多压缩方法(如新的 DICT_FSST)可以内部处理 NULL 值,从而减少了对独立有效性掩码的需求。这些改进综合起来,显著减少了字符串的存储空间。
- 自动选择压缩策略:DuckDB 会根据实际压缩比自动选择合适的压缩方法,用户无需手动设置。
以上只是一些亮点,但此版本中还有更多功能和改进。自DuckDB发布 v1.2.2 以来,已有超过 75 位贡献者提交了超过 3,000 次提交。完整的发行说明可在 GitHub 上找到。
- 上一篇:C++跨平台编译的终极奥义:用Docker把环境差异按在地上摩擦
- 已经是最后一篇了
相关推荐
- 轻量级分析利器再升级:解读 DuckDB 1.3.0 新特性
-
DuckDB团队近日正式发布了最新版本——DuckDB1.3.0,代号“Ossivalis”。此次版本以金眼鸭的远古祖先BucephalaOssivalis命名,象征项目在演化和成长过...
- C++跨平台编译的终极奥义:用Docker把环境差异按在地上摩擦
-
"代码在本地跑得飞起,一上服务器就coredump?"——每个C++程序员都经历过的《编译器的复仇》事件!大家好,我是Henry,废话少说,今天来简单谈一下跨平台编译的那些事儿,...
- 全网最全-Version Script以及__asm__((".symver xxx"))使用总结
-
首先提醒一点,一切的前提建立在你的名字必须要mangling,不然无论你写的versionscript还是__asm__都不会起任何效果VersionScript简单用法:这是一个典型例子,这个例...
- Ubuntu 25.04 Beta发布:Linux 6.14内核
-
IT之家3月28日消息,Canonical昨日(3月27日)放出了Beta版Ubuntu25.04系统镜像,代号“PluckyPuffin”,稳定版预估将于2025年...
- 不同平台CRT的区别?什么是UCRT?如何看libc源代码?
-
若文章对您有帮助,欢迎关注程序员小迷。助您在编程路上越走越好!CRT运行时库C标准规定例如输入输出函数、字符串函数、内存操作等接口,一般采用C运行时库实现。微软的CRT微软有两套CRT,早期的MS...
- 信创力量,中兴绽放——中兴新支点桌面操作系统安装与使用全攻略
-
原文链接:「链接」Hello,大家好啊,今天给大家带来一篇中兴新支点桌面操作系统安装使用的文章,欢迎大家分享点赞,点个在看和关注吧!中兴新支点桌面操作系统是一款基于Linux内核、面向政企和信创环...
- Linux下安装常用软件都有哪些?做了一个汇总列表,你看还缺啥?
-
1.安装列表MySQL5.7.11Java1.8ApacheMaven3.6+tomcat8.5gitRedisNginxpythondocker2.安装mysql1.拷贝mysql安装文件到...
- 一篇文章解决Linux系统安全问题排查,另配实操环境
-
实操地址:https://www.skillup.host/1/linux/safe/command.md#Linux安全检查排查指南##1.系统账户安全检查###1.1检查异常账户``...
- 程序员必备的学习笔记《TCP/IP详解(一)》
-
为什么会有TCP/IP协议在世界上各地,各种各样的电脑运行着各自不同的操作系统为大家服务,这些电脑在表达同一种信息的时候所使用的方法是千差万别。就好像圣经中上帝打乱了各地人的口音,让他们无法合作一样...
- 《Linux常用命令》(linux的常用命令总结)
-
一、文件与目录操作1.目录导航pwd:显示当前工作目录路径示例:pwd关键词:当前路径、工作目录cd:切换目录示例:cd/home/user#切换到绝对路径cd..#...
- Kubernetes 教程之跟着官方文档从零搭建 K8S
-
前言本文将带领读者一起,参照者Kubernetes官方文档,对其安装部署进行讲解.Kubernetes更新迭代很快,书上、网上等教程可能并不能适用于新版本,但官方文档能.阅读这篇文章你...
- 电脑网卡坏了怎么修复(电脑网卡坏了怎么修复win7系统)
-
当电脑网卡出现故障时,无论是有线网络还是无线网络,都可能无法正常连接。下面从软件、硬件等方面,分步骤为你介绍排查与修复的解决方案。一、初步排查:锁定问题源头检查网络环境将手机、平板等其他设备连接至同一...
- 如何查询电脑/手机的物理地址(如何找手机的物理地址)
-
一、要查询电脑的物理地址(也称为MAC地址),可以按照以下步骤进行操作:1.打开命令提示符(Windows)或终端(Mac):-在Windows上,点击“开始”按钮,搜索“命令提示符”,然后点击打...
- IPv4 无网络访问权限全流程解决方案
-
当设备出现IPv4无网络访问权限问题时,多由网络配置错误、连接故障或服务异常导致。以下提供系统化的排查步骤与解决方案,帮助用户快速定位并修复问题。一、基础故障快速检查1.物理连接确认有线网络:检...
- Python教程(十九):文件操作(python操作文件夹)
-
昨天,我们学习了列表推导式,掌握了Python中最优雅的数据处理方式。今天,我们将学习文件操作—Python中读写文件的基础技能。文件操作是编程中的核心技能,无论是读取配置文件、保存用户数据,还是...
你 发表评论:
欢迎- 一周热门
-
-
UOS服务器操作系统防火墙设置(uos20关闭防火墙)
-
极空间如何无损移机,新Z4 Pro又有哪些升级?极空间Z4 Pro深度体验
-
手机如何设置与显示准确时间的详细指南
-
NAS:DS video/DS file/DS photo等群晖移动端APP远程访问的教程
-
如何在安装前及安装后修改黑群晖的Mac地址和Sn系列号
-
如何修复用户配置文件服务在 WINDOWS 上登录失败的问题
-
一加手机与电脑互传文件的便捷方法FileDash
-
日本海上自卫队的军衔制度(日本海上自卫队的军衔制度是什么)
-
10个免费文件中转服务站,分享文件简单方便,你知道几个?
-
爱折腾的特斯拉车主必看!手把手教你TESLAMATE的备份和恢复
-
- 最近发表
-
- 轻量级分析利器再升级:解读 DuckDB 1.3.0 新特性
- C++跨平台编译的终极奥义:用Docker把环境差异按在地上摩擦
- 全网最全-Version Script以及__asm__((".symver xxx"))使用总结
- Ubuntu 25.04 Beta发布:Linux 6.14内核
- 不同平台CRT的区别?什么是UCRT?如何看libc源代码?
- 信创力量,中兴绽放——中兴新支点桌面操作系统安装与使用全攻略
- Linux下安装常用软件都有哪些?做了一个汇总列表,你看还缺啥?
- 一篇文章解决Linux系统安全问题排查,另配实操环境
- 程序员必备的学习笔记《TCP/IP详解(一)》
- 《Linux常用命令》(linux的常用命令总结)
- 标签列表
-
- linux 查询端口号 (58)
- docker映射容器目录到宿主机 (66)
- 杀端口 (60)
- yum更换阿里源 (62)
- internet explorer 增强的安全配置已启用 (65)
- linux自动挂载 (56)
- 禁用selinux (55)
- sysv-rc-conf (69)
- ubuntu防火墙状态查看 (64)
- windows server 2022激活密钥 (56)
- 无法与服务器建立安全连接是什么意思 (74)
- 443/80端口被占用怎么解决 (56)
- ping无法访问目标主机怎么解决 (58)
- fdatasync (59)
- 405 not allowed (56)
- 免备案虚拟主机zxhost (55)
- linux根据pid查看进程 (60)
- dhcp工具 (62)
- mysql 1045 (57)
- 宝塔远程工具 (56)
- ssh服务器拒绝了密码 请再试一次 (56)
- ubuntu卸载docker (56)
- linux查看nginx状态 (63)
- tomcat 乱码 (76)
- 2008r2激活序列号 (65)