• Spring Boot3.3 + Apache Calcite 实战:用 SQL 动态查询 JSON 数据源

Spring Boot3.3 + Apache Calcite 实战:用 SQL 动态查询 JSON 数据源

2025-04-27 10:40:21 栏目:宝塔面板 191 阅读

在现代 Web 应用开发中,数据来源日益多样化,除了传统的关系型数据库,JSON 文件、NoSQL 以及各种 API 接口提供的数据格式也被广泛使用。为了以统一的方式对异构数据源进行查询,Apache Calcite 提供了强大且灵活的 SQL 查询引擎,可以通过虚拟视图将 JSON 数据建模为表结构,再用标准 SQL 语句进行高效查询。

本篇文章将结合 Spring Boot3.3 与 Apache Calcite,详细讲解如何将本地 JSON 文件作为数据源,通过 Calcite 提供的 schema 映射机制进行 SQL 查询操作,帮助你轻松实现对 JSON 数据的结构化访问与动态查询。

Apache Calcite 简介

Apache Calcite 是一个开源的动态数据管理框架,它本身并不是数据库,而是一个提供 SQL 查询解析、验证、优化和执行的中间层框架,支持对多种数据源进行统一访问。其核心特性包括:

  • 多数据源支持支持关系型数据库、CSV、JSON、MongoDB、Elasticsearch 等多种数据源。
  • SQL 引擎具备完整的 SQL 解析、校验、优化和执行能力。
  • 虚拟化查询可将非结构化或半结构化数据通过 schema 建模为结构化视图。
  • 可插拔架构支持自定义函数、自定义规则、插件式架构。

在本文中,我们将使用 Apache Calcite 对本地 JSON 文件进行虚拟化建模,并通过标准 SQL 查询访问数据。

项目依赖配置(pom.xml)


    
    
        org.apache.calcite
        calcite-core
        1.35.0
    

    
    
        com.fasterxml.jackson.core
        jackson-databind
    

    
    
        org.springframework.boot
        spring-boot-starter-web
    

项目结构预览

├── resources/
│   ├── model.json                  # 本地 JSON 数据
│   └── json-model.schema.json     # Calcite 模型 schema
├── controller/
│   └── CalciteQueryController.java
├── service/
│   └── CalciteQueryService.java
├── config/
│   └── CalciteUtils.java          # Calcite 配置和执行类

JSON 数据样例 model.json

[
  {"id":1,"name":"Alice","age":30},
{"id":2,"name":"Bob","age":25},
{"id":3,"name":"Charlie","age":28}
]

创建 Calcite 模型文件 json-model.schema.json

{
  "version":"1.0",
"defaultSchema":"json_schema",
"schemas":[
    {
      "name":"json_schema",
      "type":"custom",
      "factory":"org.apache.calcite.adapter.json.JsonSchemaFactory",
      "operand":{
        "directory":"src/main/resources",
        "flavor":"file"
      },
      "tables":[
        {
          "name":"model",
          "type":"custom",
          "factory":"org.apache.calcite.adapter.json.JsonTableFactory",
          "operand":{
            "path":"model.json"
          }
        }
      ]
    }
]
}

Calcite 工具类 CalciteUtils.java

@Slf4j
public class CalciteUtils {
    public static Connection getConnection() throws Exception {
        Properties info = new Properties();
        try {
            String modelPath = Paths.get("src/main/resources/json-model.schema.json").toAbsolutePath().toString();
            info.put("model", modelPath);
            return DriverManager.getConnection("jdbc:calcite:", info);
        } catch (Exception e) {
            log.error("初始化 Calcite 连接失败", e);
            throw e;
        }
    }


    public static List> executeQuery(String sql) throws Exception {
        List> results = new ArrayList<>();
        try (Connection conn = getConnection();
             Statement stmt = conn.createStatement();
             ResultSet rs = stmt.executeQuery(sql)) {


            ResultSetMetaData meta = rs.getMetaData();
            int columnCount = meta.getColumnCount();


            while (rs.next()) {
                Map row = new LinkedHashMap<>();
                for (int i = 1; i <= columnCount; i++) {
                    row.put(meta.getColumnLabel(i), rs.getObject(i));
                }
                results.add(row);
            }
        }
        return results;
    }
}

查询接口实现

CalciteQueryService.java

@Service
public class CalciteQueryService {
    public List> query(String sql) throws Exception {
        return CalciteUtils.executeQuery(sql);
    }
}

CalciteQueryController.java

@RestController
@RequestMapping("/calcite")
public class CalciteQueryController {


    @Autowired
    private CalciteQueryService service;


    @GetMapping("/query")
    public ResponseEntity query(@RequestParam String sql) {
        try {
            return ResponseEntity.ok(service.query(sql));
        } catch (Exception e) {
            return ResponseEntity.status(HttpStatus.INTERNAL_SERVER_ERROR).body(e.getMessage());
        }
    }
}

测试

启动项目后,访问:

http://localhost:8080/calcite/query?sql=SELECT * FROM json_schema.model WHERE age > 25

返回结果:

[
  {"id":1,"name":"Alice","age":30},
{"id":3,"name":"Charlie","age":28}
]

结语

Apache Calcite 作为一个高度可扩展的查询引擎,在大数据和异构数据访问场景中具有广泛的应用价值。它不仅支持灵活的 SQL 查询语法,还能与各类数据源轻松集成,让开发者能够以统一方式访问结构化和非结构化数据。

通过本篇文章我们学习了如何结合 Spring Boot3.3 利用 Calcite 查询本地 JSON 文件,实现了无需转换即可用 SQL 查询 JSON 的能力,为复杂的数据分析与快速原型开发提供了极大的便利。

未来你还可以尝试对接 Elasticsearch、MongoDB、CSV 文件等更多数据源,构建统一查询平台,充分发挥 Calcite 的潜能。

本文地址:https://www.yitenyun.com/130.html

搜索文章

Tags

数据库 API FastAPI Calcite 电商系统 MySQL Web 应用 异步数据库 数据同步 ACK 双主架构 循环复制 TIME_WAIT 运维 负载均衡 服务器 管理口 HexHub Docker JumpServer SSL 堡垒机 跳板机 HTTPS 服务器性能 JumpServer安装 堡垒机安装 Linux安装JumpServer SQL 查询 生命周期 Deepseek 宝塔面板 Linux宝塔 锁机制 esxi esxi6 root密码不对 无法登录 web无法登录 行业 趋势 序列 核心机制 Windows Windows server net3.5 .NET 安装出错 HTTPS加密 开源 PostgreSQL 存储引擎 宝塔面板打不开 宝塔面板无法访问 Windows宝塔 Mysql重置密码 机器学习 Redis 查看硬件 Linux查看硬件 Linux查看CPU Linux查看内存 Undo Log 机制 Spring 动态查询 响应模型 Oracle 处理机制 InnoDB 数据库锁 优化 万能公式 连接控制 group by 索引 Serverless 无服务器 语言 监控 无法访问宝塔面板 异步化 ES 协同 技术 工具 openHalo scp Linux的scp怎么用 scp上传 scp下载 scp命令 Postgres OTel Iceberg 缓存方案 缓存架构 缓存穿透 国产数据库 高可用 分页查询 数据 主库 SVM Embedding Linux 安全 Netstat Linux 服务器 端口 存储 SQLite-Web SQLite 数据库管理工具 GreatSQL 连接数 加密 场景 云原生 R edis 线程 R2DBC 防火墙 黑客 启动故障 Recursive 共享锁 OB 单机版 向量数据库 大模型 SQLark 日志文件 MIXED 3 ​Redis 推荐模型 Canal AI 助手 RocketMQ 长轮询 配置 信息化 智能运维 自定义序列化 PG DBA 不宕机 Python 业务 传统数据库 向量化 向量库 Milvus Ftp IT运维 Web 接口 开发 同城 双活 聚簇 非聚簇 电商 系统 线上 库存 预扣 修改DNS Centos7如何修改DNS Hash 字段 分库 分表 filelock Rsync 架构 数据类型 磁盘架构 MySQL 9.3 MongoDB MCP 开放协议 缓存 redo log 重做日志 sftp 服务器 参数 PostGIS mini-redis INCR指令 数据结构 数据分类 • 索引 • 数据库 ZODB Doris SeaTunnel 语句 流量 频繁 Codis MVCC 分布式架构 分布式锁​ 窗口 函数 Go 数据库迁移 数据备份 虚拟服务器 虚拟机 内存 工具链 人工智能 推荐系统 EasyExcel MySQL8 失效 prometheus Alert 主从复制 代理 Redisson 锁芯 MGR 分布式集群 分页 聚簇索引 非聚簇索引 高效统计 今天这篇文章就跟大家 StarRocks 数据仓库 引擎 性能 千万级 大表 播客 网络架构 网络配置 数据集成工具 发件箱模式 网络故障 QPS 高并发 崖山 新版本 Entity 事务 Java INSERT COMPACT 容器 B+Tree ID 字段 核心架构 订阅机制 Web RDB AOF SSH Redka Weaviate 关系数据库 速度 服务器中毒 Caffeine CP 数据脱敏 加密算法 DBMS 管理系统 数据页 Redis 8.0 Valkey Valkey8.0 分布式 集中式 OAuth2 Token 自动重启 容器化 SpringAI 微软 SQL Server AI功能 LRU 模型 读写 原子性 排行榜 排序 池化技术 连接池 数据字典 兼容性 JOIN 意向锁 记录锁 事务隔离 Testcloud 云端自动化 单点故障 dbt 数据转换工具 业务场景 UUID ID 部署 分页方案 排版 日志 1 优化器 Pottery InfluxDB 悲观锁 乐观锁 ReadView sqlmock 事务同步 网络 UUIDv7 主键 AIOPS RAG HelixDB 分布式锁 Zookeeper 双引擎 对象 仪表盘 字典 产业链 Order 编程 单线程 Ansible Pump 恢复数据 Crash 代码 线程安全 LLM IT 拦截器 动态代理 国产 用户 快照读 当前读 视图 订单 List 类型 慢SQL优化 count(*) count(主键) 行数 RR 互联网 表空间 解锁 调优 Next-Key 神经系统 矢量存储 数据库类型 AI代理 CAS 查询规划 多线程 GitHub Git 算法 技巧 并发控制 恢复机制 闪回