• SQL窗口函数原理和使用

SQL窗口函数原理和使用

2025-05-19 00:37:03 栏目:宝塔面板 135 阅读

今天我们来聊聊 SQL 窗口函数。你是不是经常对复杂的报表查询感到比较头疼?在网上找到了一些窗口函数的 demo,但因为对实现原理一知半解,经常导致写的 SQL 查询的数据口径对不上。如果你有这样的问题,就静下心来好好学习一下这一讲的内容。我会给你详细地介绍 SQL 窗口函数的原理和使用方法,帮你找到解决问题的方案。

SQL 窗口函数介绍

首先,我们先对 SQL 窗口函数的使用场景、所处的执行阶段以及它的原理做一个简单的了解。

  1. SQL 窗口函数的使用场景:窗口函数只能在 select 查询列表中使用,不能用于 update 和 delete 语句。窗口函数不影响查询记录的数量,它的作用仅仅是在 select 列表里面新增一个列而已,且多个窗口函数之间互不影响。
  2. SQL 窗口函数所处的执行阶段:它只能出现在 select 列表中,晚于 from、where、group by、having 的执行。早于 order by、limit、select distinct 的执行。
  3. SQL 窗口函数的原理:窗口函数顾名思义,就是将 SQL 查询出来的结果看成一个大窗口。可以对整个窗口进行分区(partition by), 每个分区包含一个滑动窗口(frame)。

over() 函数

在我们的 SQL 中通过调用 over() 函数,我们可以生成一个窗口(基于 SQL 查询的全部结果)。over 函数内部支持如下参数:

  • partition by <分区列名>;
  • order by <列名 [asc|desc] ,用于指定分区内的数据的排列先后顺序>;
  • between <滑动窗口的上边界> and <滑动窗口的下边界> 用于指定滑动窗口的大小。

语法解释

  • 当 over 函数内的参数为空时,整个结果集就是一个分区(不指定 partition by)。滑动窗口的大小也是整个结果集。
  • 当 order by 不指定的时候,记录行(rows)使用默认的顺序,也就是从数据库查询出来的顺序。因为窗口函数在 order by 语句之前执行,所以顺序只能是默认的顺序。在此我强烈建议窗口函数都带上 order by 从句,否则结果列可能会是不确定的值。MySQL 可以支持不带 order by,但在 Oracle 和 SQL Server 上,指定滑动窗口时,必须带上 order by,否则就会报错。
  • 当没有指定滑动窗口大小的参数时,即没有指定 range 或者 rows 从句,滑动窗口的默认大小为:上边界=分区的第一条记录,下边界=当前记录。

滑动窗口(Frame)语法讲解

滑动窗口是基于当前行的,它有一个上边界和一个下边界,滑动窗口不能脱离 partition 独立存在。当指定了 partition by 和 order by,而不指定滑动窗口时,滑动窗口默认的上边界为 partition 内第一条记录,下边界为当前记录。每一行记录都有一个滑动窗口。

指定滑动窗口的时候,必须是已经有了 partition by 从句,否则 SQL 会报错。虽然 MySQL8 支持,但是不建议你这样使用。当 over 函数里面没有 partition by 从句和滑动窗口从句时,默认的滑动窗口就是整个结果集。

滑动窗口大小支持两种模式,range 模式和 rows 模式。

  1. rows 模式
    rows between N preceding and M following

滑动窗口的构成以当前逻辑行为基准点,向上指定 N 行 (逻辑行) 为上边界,向下指定 M 行 (逻辑行) 为下边界。

  1. range 模式(注意:range 模式必须指定 order by 从句)
    range between N preceding and M following

滑动窗口的构成以当前逻辑行为基准点,值是 order by 从句中使用的列的值。

上边界:当前逻辑行之前 值 >= 当前逻辑行的值 - N 的所有逻辑行

下边界:当前逻辑行之后 值 <= 当前逻辑行的值 + M 的所有逻辑行

边界常量

  • unbounded preceding:表示分区内第一条记录 (逻辑行),不管是否指定 order by 从句。
  • unbounded following:表示分区内最后一条记录 (逻辑行),不管是否指定 order by 从句。
  • current row:字面意思是当前行,在 rows 模式下,表示当前逻辑行。在 range 模式下,表示在当前逻辑行前后,值和当前逻辑行的值相等的所有逻辑行 (range 模式下指定了 order by,值都是有序的)。
  • N preceding 和 N following:参考 range 和 rows 模式里面的解释,分别表示往前 N 行的数据和往后 N 行的数据。

操作函数

当 over 函数指定了窗口之后,需要操作函数对分区内(partition)或者滑动窗口内(Frame)的数据进行操作。

窗口函数分为 聚合函数和 非聚合函数。聚合函数处理数据大部分都是基于滑动窗口的。非聚合函数处理数据有基于滑动窗口的,也有基于分区的。下表是常用的操作函数,另外不同的数据库还会实现自身特有的操作函数。

关于操作函数的详细描述和具体的使用方式,感兴趣的话你可以参考链接中的内容:

https://dev.mysql.com/doc/refman/8.0/en/aggregate-functions.html

https://dev.mysql.com/doc/refman/8.0/en/window-function-descriptions.html

示例

接下来我们通过示例表 names,来具体操作一下。这是示例的数据。

  • row_number 函数
    按照 name 列分区,为每一行记录生成行号,行号按照 val 列的值倒序生成。
select name,val,
row_number() over(partition by name order by val desc) num
from names
  • dense_rank 函数
    按照 name 列分区,为每一行记录按照 val 列的值倒序生成排名。排名不能有间隔。
select name,val,
dense_rank() over(partition by name order by val desc) rnk
from names
  • rank 函数
    按照 name 列分区,为每一行记录按照 val 列的值倒序生成排名。排名允许有间隔。
select name,val,
rank() over(partition by name order by val desc) rnk
from names
  • lag 函数
    按照 name 列分区,为每一行记录生成 val 列和它前面一条记录的差值,前面的记录不存在用 0 表示。
select name,val,
val - lag(val,1,0) over(partition by name order by val desc) diff
from names

其中 lag(val,1,0) 表示,获取当前行前面 1 行的 val 字段的值,如果前面一行不存在,用 0 表示默认值。

  • first_value 函数
    按照 name 列分区,为每一行记录生成 val 列和他所在滑动窗口内,第一条记录 val 列表的差值,按照 val 的值倒序排列。
select name,val,
val - first_value(val) over(partition by name order by val desc) diff
from names
  • 混合使用
select name,val,
row_number() over(partitionbynameorderby val desc) num,
val - first_value(val) over(partitionbynameorderby val desc) diff,
dense_rank() over(partitionbynameorderby val desc) rnk
fromnames

因为每个窗口函数都是独立的,互不影响,可以在 select 列表里面使用多个窗口函数生成多列,各个列也互不影响。

总结

通过学习,相信你对 SQL 窗口函数已经有了一个整体和直观的认识,对其中的使用细节也有了一定的理解,特别是对分区、滑动窗口、range 和 rows 模式下滑动窗口的边界,以及操作函数的作用范围和使用方式有了一个清楚的认知。但想要牢固地掌握这些知识,还需要你学以致用,多多练习。

本文地址:https://www.yitenyun.com/214.html

搜索文章

Tags

数据库 API FastAPI Calcite 电商系统 MySQL Web 应用 异步数据库 数据同步 ACK 双主架构 循环复制 TIME_WAIT 运维 负载均衡 服务器 管理口 HexHub Docker JumpServer SSL 堡垒机 跳板机 HTTPS 服务器性能 JumpServer安装 堡垒机安装 Linux安装JumpServer SQL 查询 生命周期 Deepseek 宝塔面板 Linux宝塔 锁机制 esxi esxi6 root密码不对 无法登录 web无法登录 行业 趋势 序列 核心机制 Windows Windows server net3.5 .NET 安装出错 HTTPS加密 开源 PostgreSQL 存储引擎 Windows宝塔 Mysql重置密码 宝塔面板打不开 宝塔面板无法访问 机器学习 Redis 查看硬件 Linux查看硬件 Linux查看CPU Linux查看内存 Undo Log 机制 Spring 动态查询 响应模型 Oracle 处理机制 InnoDB 数据库锁 优化 万能公式 连接控制 group by 索引 监控 Serverless 无服务器 语言 无法访问宝塔面板 异步化 ES 协同 scp Linux的scp怎么用 scp上传 scp下载 scp命令 技术 Postgres OTel Iceberg 工具 openHalo 缓存方案 缓存架构 缓存穿透 国产数据库 高可用 分页查询 数据 主库 SVM Embedding Linux 安全 SQLite-Web SQLite 数据库管理工具 GreatSQL 连接数 存储 Netstat Linux 服务器 端口 加密 场景 云原生 R edis 线程 Recursive R2DBC 防火墙 黑客 启动故障 OB 单机版 向量数据库 大模型 共享锁 SQLark ​Redis 推荐模型 日志文件 MIXED 3 Canal AI 助手 RocketMQ 长轮询 配置 不宕机 自定义序列化 信息化 智能运维 PG DBA 业务 Python 传统数据库 向量化 向量库 Milvus 同城 双活 Ftp Hash 字段 Web 接口 开发 聚簇 非聚簇 线上 库存 预扣 IT运维 电商 系统 修改DNS Centos7如何修改DNS 分库 分表 Rsync 架构 filelock MySQL 9.3 数据类型 磁盘架构 缓存 redo log 重做日志 数据分类 MongoDB MCP 开放协议 sftp 服务器 参数 mini-redis INCR指令 数据结构 Doris SeaTunnel 语句 流量 PostGIS • 索引 • 数据库 ZODB 窗口 函数 分布式架构 分布式锁​ 频繁 Codis MVCC Go 数据库迁移 人工智能 推荐系统 数据备份 虚拟服务器 虚拟机 内存 工具链 EasyExcel MySQL8 主从复制 代理 Redisson 锁芯 失效 prometheus Alert 分页 MGR 分布式集群 千万级 大表 聚簇索引 非聚簇索引 高效统计 今天这篇文章就跟大家 网络架构 网络配置 引擎 性能 网络故障 播客 StarRocks 数据仓库 事务 Java INSERT COMPACT 数据集成工具 发件箱模式 崖山 新版本 核心架构 订阅机制 容器 Entity SSH Redka QPS 高并发 关系数据库 Web B+Tree ID 字段 Weaviate RDB AOF 速度 服务器中毒 Caffeine CP 数据脱敏 加密算法 数据页 Redis 8.0 自动重启 Valkey Valkey8.0 DBMS 管理系统 分布式 集中式 OAuth2 Token 容器化 微软 SQL Server AI功能 读写 模型 SpringAI LRU 原子性 排行榜 排序 池化技术 连接池 数据字典 兼容性 意向锁 记录锁 JOIN 事务隔离 Testcloud 云端自动化 单点故障 UUID ID dbt 数据转换工具 业务场景 分页方案 排版 部署 日志 ReadView 优化器 1 网络 Pottery InfluxDB 悲观锁 乐观锁 事务同步 UUIDv7 主键 AIOPS sqlmock 分布式锁 Zookeeper 对象 仪表盘 产业链 Order 编程 双引擎 RAG HelixDB Pump 单线程 字典 Ansible 拦截器 动态代理 恢复数据 Crash 代码 国产 用户 快照读 当前读 视图 LLM IT 线程安全 订单 List 类型 慢SQL优化 count(*) count(主键) 行数 RR 互联网 表空间 Next-Key 神经系统 解锁 调优 矢量存储 数据库类型 AI代理 CAS 查询规划 多线程 GitHub Git 算法 闪回 技巧 并发控制 恢复机制