一个数据湖是一个不可变的数据存储,主要是未处理的“原始”数据,作为数据分析的来源。虽然这种技术很明显会被误用,但我们已经在客户身上成功地使用了它,因此促使它进入了试验阶段。我们继续推荐其他的操作协作方法,将数据湖的使用限制在报告、分析和向数据集市提供数据。
一个企业数据湖是一个不可变的数据存储,其中大部分是未处理的“原始”数据,作为其他处理流的源,但也可以由大量使用某些高效处理引擎的内部技术消费者直接使用。例如Hadoop、Spark或Storm处理框架中的HDFS或HBase。我们可以将其与一个典型的系统进行对比,该系统将原始数据收集到一些高度受限的空间中,这些空间只能作为高度控制的ETL过程的最终结果提供给这些消费者。
采用数据湖的概念是为了消除由于缺乏ETL开发人员或过多的预先数据模型设计而造成的瓶颈。它是关于授权开发人员在他们需要的时候以敏捷的方式创建他们自己的数据处理管道,并且在合理的限制内——这与我们高度重视的另一个模型DevOps模型有很多共同之处。