一段时间以来,Hadoop社区一直在尝试将低延迟、交互式的SQL功能引入Hadoop平台(更广为人知的名称是SQL-on-Hadoop)。这导致了一些开源系统,如Cloudera Impala, Apache Drill, Facebook的Presto等在2014年积极开发。我们认为Hadoop上的sql趋势标志着一个重要的转变,因为它改变了Hadoop的主张,从一个面向批处理的技术,作为数据库的补充,变成了可以与数据库竞争的东西。Cloudera黑斑羚是第一个SQL-on-Hadoop平台。它是一个分布式的、大规模并行的、基于c++的查询引擎。该平台的核心组件是Impala守护进程,它协调Impala集群的一个或多个节点之间的SQL查询执行。Impala用于读取HDFS上所有流行文件格式的文件。它利用Hive的元数据目录,以便在两个数据库平台之间共享数据库和表。Impala附带了一个shell以及用于应用程序使用的JDBC和ODBC驱动程序。