• Hydra Columnar:一个开源的PostgreSQL列式存储引擎

Hydra Columnar:一个开源的PostgreSQL列式存储引擎

2025-04-27 10:40:26 栏目:宝塔面板 156 阅读

Hydra Columnar 是一个 PostgreSQL 列式存储插件,专为分析型(OLAP)工作负载设计,旨在提升大规模分析查询和批量更新的效率。

Hydra Columnar 以扩展插件的方式提供,主要特点包括:

  • 采用列式存储,利用列内数据相似性,支持多种压缩算法,大幅降低存储成本。
  • 并行查询优化,结合 PostgreSQL 的并行执行框架,充分利用多核资源处理复杂分析。
  • 向量化执行,批量处理列数据,减少函数调用开销,提升 CPU 缓存利用率,加速查询。
  • PostgreSQL 兼容性,同时支持 OLTP 以及 OLAP 负载场景。

目前,Hydra Columnar 还不支持 PostgreSQL 逻辑复制和外键,索引只支持 BTREE 或者 HASH。

以下是一个 Hydra Columnar 与 PostgreSQL、Citus 以及 TimescaleDB 使用 ClickBench 工具进行的分析性能测试比较:

从可以看出,Hydra Columnar 在绝大多数查询中获得了极大的性能提升,具体数据可以参考下面的网站:

https://tinyurl.com/clickbench

以下则是 TPC-H 数据仓库测试场景下的性能比较:

Hydra Columnar 提供了多种安装方式,使用 Docker 安装运行的命令如下:

git clone https://github.com/hydradatabase/hydra && cd hydra
cp .env.example .env
docker compose up

# 在另一个窗口中连接
psql postgres://postgres:hydra@127.0.0.1:5432

连接数据库之后,启用插件并创建数据表:

CREATE EXTENSION IF NOT EXISTS columnar;

CREATE TABLE sensor_data (
    timestamp TIMESTAMP,
    device_id INT,
    temperature FLOAT
);

我们也可以明确指定存储引擎,默认使用 Hydra Columnar:

CREATE TABLE heap_table (...) USING heap;
CREATE TABLE columnar_table (...) USING columnar; -- 默认值

然后可以正常导入数据并执行查询分析。

-- 批量插入数据(列式存储适合批量写入)
INSERT INTO sensor_data SELECT ...;

-- 分析查询(仅扫描 temperature 列)
SELECT AVG(temperature) FROM sensor_data WHERE timestamp > '2023-01-01';

详细信息可以参考文档:

https://columnar.docs.hydra.so/

本文地址:https://www.yitenyun.com/127.html

搜索文章

Tags

数据库 API FastAPI Calcite 电商系统 MySQL Web 应用 异步数据库 数据同步 ACK 双主架构 循环复制 JumpServer SSL 堡垒机 跳板机 HTTPS TIME_WAIT 运维 负载均衡 HexHub Docker JumpServer安装 堡垒机安装 Linux安装JumpServer Deepseek 宝塔面板 Linux宝塔 生命周期 esxi esxi6 root密码不对 无法登录 web无法登录 服务器 管理口 序列 核心机制 Windows Windows server net3.5 .NET 安装出错 HTTPS加密 服务器性能 查看硬件 Linux查看硬件 Linux查看CPU Linux查看内存 宝塔面板打不开 宝塔面板无法访问 开源 PostgreSQL 存储引擎 Windows宝塔 Mysql重置密码 Oracle 处理机制 无法访问宝塔面板 InnoDB 数据库锁 连接控制 机制 监控 Spring Redis 异步化 Serverless 无服务器 语言 group by 索引 SQL 优化 万能公式 ES 协同 技术 Undo Log 缓存方案 缓存架构 缓存穿透 分页查询 高可用 动态查询 机器学习 GreatSQL 连接数 工具 响应模型 查询 日志文件 MIXED 3 R edis 线程 SVM Embedding scp Linux的scp怎么用 scp上传 scp下载 scp命令 锁机制 数据 主库 R2DBC 加密 场景 openHalo Netstat Linux 服务器 端口 云原生 Postgres OTel Iceberg RocketMQ 长轮询 配置 Linux 安全 ​Redis 推荐模型 SQLite-Web SQLite 数据库管理工具 Recursive 自定义序列化 存储 AI 助手 共享锁 SQLark 向量数据库 大模型 Hash 字段 PG DBA 电商 系统 OB 单机版 Ftp 架构 启动故障 国产数据库 数据分类 MySQL 9.3 • 索引 • 数据库 修改DNS Centos7如何修改DNS 流量 防火墙 黑客 人工智能 推荐系统 磁盘架构 sftp 服务器 参数 分库 分表 Rsync 同城 双活 信息化 智能运维 线上 库存 预扣 redo log 重做日志 不宕机 Python 向量库 Milvus 业务 传统数据库 向量化 行业 趋势 mini-redis INCR指令 MVCC Canal 缓存 聚簇 非聚簇 PostGIS 高效统计 今天这篇文章就跟大家 Redisson 锁芯 网络架构 网络配置 INSERT COMPACT Doris SeaTunnel 数据备份 filelock 事务 Java 开发 prometheus Alert 语句 窗口 函数 Web 虚拟服务器 虚拟机 内存 ZODB MongoDB 数据结构 RDB AOF 引擎 性能 数据脱敏 加密算法 读写 Go 数据库迁移 容器 失效 核心架构 订阅机制 数据类型 B+Tree ID 字段 OAuth2 Token IT运维 频繁 Codis 分布式 集中式 模型 崖山 新版本 自动重启 容器化 网络故障 Redis 8.0 发件箱模式 聚簇索引 非聚簇索引 播客 SSH MCP 开放协议 DBMS 管理系统 QPS 高并发 SpringAI 数据页 JOIN 微软 SQL Server AI功能 Web 接口 原子性 Entity 数据集成工具 速度 服务器中毒 网络 部署 工具链 Pottery StarRocks 数据仓库 排行榜 排序 Testcloud 云端自动化 Redka Caffeine CP 事务隔离 分布式架构 分布式锁​ 分页方案 排版 大表 业务场景 悲观锁 乐观锁 池化技术 连接池 主从复制 代理 dbt 数据转换工具 1 日志 AIOPS LRU 优化器 EasyExcel MySQL8 单点故障 仪表盘 sqlmock 分页 Order 意向锁 记录锁 事务同步 数据字典 兼容性 InfluxDB 对象 UUIDv7 主键 RAG HelixDB Ansible ReadView UUID ID 订单 Crash 代码 单线程 IT 双引擎 字典 LLM Valkey Valkey8.0 恢复数据 Weaviate 产业链 编程 分布式锁 Zookeeper MGR 分布式集群 千万级 线程安全 Pump List 类型 拦截器 动态代理 关系数据库 表空间 Next-Key 解锁 调优 慢SQL优化 快照读 当前读 视图 GitHub Git 矢量存储 数据库类型 AI代理 国产 用户 RR 互联网 神经系统 查询规划 算法 count(*) count(主键) 行数 技巧 CAS 并发控制 恢复机制 多线程 闪回