千家信息网

Apache Calcite官方文档中文版-概览-1.背景

发表于:2025-02-03 作者:千家信息网编辑
千家信息网最后更新 2025年02月03日,第一部分 概览1. 背景  Apache Calcite是一个动态数据管理框架。它包含了许多组成典型数据管理系统的经典模块,但省略了一些关键性的功能: 数据存储,数据处理算法和元数据存储库。  Cal
千家信息网最后更新 2025年02月03日Apache Calcite官方文档中文版-概览-1.背景

第一部分 概览

1. 背景

  Apache Calcite是一个动态数据管理框架。它包含了许多组成典型数据管理系统的经典模块,但省略了一些关键性的功能: 数据存储,数据处理算法和元数据存储库。
  Calcite有意地远离了存储和处理数据的任务。如我们所见,这使得它成为在应用程序和一个或多个数据存储位置和数据处理引擎之间的最佳中间层选择。它同样也是构建数据库的完美基础选择: 只需要在它的基础上添加数据。
  下面为了展示说明,我们建立了一个空的Calcite实例并查询数据。

public static class HrSchema {  public final Employee[] emps = 0;  public final Department[] depts = 0;}Class.forName("org.apache.calcite.jdbc.Driver");Properties info = new Properties();info.setProperty("lex", "JAVA");Connection connection = DriverManager.getConnection("jdbc:calcite:", info);CalciteConnection calciteConnection = connection.unwrap(CalciteConnection.class);SchemaPlus rootSchema = calciteConnection.getRootSchema();Schema schema = ReflectiveSchema.create(calciteConnection,rootSchema, "hr", new HrSchema());rootSchema.add("hr", schema);Statement statement = calciteConnection.createStatement();ResultSet resultSet = statement.executeQuery(    "select d.deptno, min(e.empid)\n"    + "from hr.emps as e\n"    + "join hr.depts as d\n"    + "  on e.deptno = d.deptno\n"    + "group by d.deptno\n"    + "having count(*) > 1");print(resultSet);resultSet.close();statement.close();connection.close();

  大家可能对上面的代码比较疑惑,数据库在哪里?这里没有数据库。在我们调用ReflectiveSchema.create将一个java object注册为schema,以及这个集合的成员emps和depts作为表之前,connection都是空的。
  Calcite并不想管理数据,它甚至没有标准的数据格式。上面的例子使用了内存数据集,并且使用linq4j libaray的groupBy和join操作来对他们进行处理,但Calcite同样也支持以其他标准数据格式对数据进行处理,例如JDBC。在上面的例子中,将下面的代码

Schema schema = ReflectiveSchema.create(calciteConnection, rootSchema, "hr", new HrSchema());

替换成:

Class.forName("com.mysql.jdbc.Driver");BasicDataSource dataSource = new BasicDataSource();dataSource.setUrl("jdbc:mysql://localhost");dataSource.setUsername("username");dataSource.setPassword("password");Schema schema = JdbcSchema.create(rootSchema, "hr", dataSource,    null, "name");

  Calcite就可以通过JDBC来执行同样的查询了。对应用来说,数据和API不会产生任何变化,但底层的实现却差异巨大。Calcite使用优化规则来将JOIN和GROUP BY操作下推到源数据库中进行执行。
  基于内存和基于JDBC只是两个大家较为熟悉的例子。Calcite可以处理任意一种数据源和数据格式。如果想要增加数据源,我们需要编写一个适配器来告诉Calcite,它应该将数据源中的什么样的集合视为"table"来进行操作。
  如果想要进一步更智能地集成,我们可以编写自己的优化器规则。优化器规则允许Calcite来处理新格式的数据,并注册新的算子(如更优化的join算法),同时还允许Calcite来对查询转化为算子的过程进行优化。Calcite会结合用户提供的规则和算子与系统内建规则和算子,执行基于成本的优化,生成高效的执行计划。

编写适配器Adapter

  Calcite在example/csv子项目下提供了CSV的适配器。它能很好地支持应用程序的功能需求,同时如果正在编写自己的适配器,它也能作为一个足够简单的例子来作为参考模板。
  具体使用CSV 适配器和编写其他适配器的方法请查看下一章节2教程。
  帮助(HOWTO)章节提供了更多使用其他适配器的信息,和常用的使用场景。

功能状态

  Calcite提供了以下特性:
1) 查询解析器、验证器和优化器
2) 以JSON格式读取模型
3) 标准函数以及标准聚合函数
4) 针对Linq4j和JDBC后端的JDBC查询
5) Linq4j front-end
6) SQL特性:SELECT, FROM (包括JOIN语法), WHERE, GROUP BY (包括GROUPING SETS), 聚合函数 (包括COUNT(DISTINCT...) 和FILTER),HAVING, ORDER BY(包括NULLS FIRST/LAST), 集合操作 (UNION, INTERSECT, MINUS), 子查询(包括相关子查询), 窗口聚合函数,LIMIT (Postgres语法); SQL reference章节中提供了更详细的信息
7) 本地和远程JDBC驱动器,详情参考Avatica章节
8) 多种适配器

0