数据湖|技术雷达| Thoughtworks188bet宝金博app下载

雷达技术

最后更新:2016年11月07日

现在的版本没有

这个光点不在当前版本的雷达上。如果它是最后几个版本中的一个，那么它很可能仍然是相关的。如果这个信号的年代更久远，它可能就不再相关，我们今天的评估可能就不同了。不幸的是，我们没有足够的带宽来持续检查以前版本的雷达的光点了解更多

2016年11月

试验

一个数据湖是一个不可变的数据存储，主要是未处理的“原始”数据，作为数据分析的来源。虽然这种技术很明显会被误用，但我们已经在客户身上成功地使用了它，因此促使它进入了试验阶段。我们继续推荐其他的操作协作方法，将数据湖的使用限制在报告、分析和向数据集市提供数据。

2016年4月

试验

2015年11月

评估

一个数据湖是一个不可变的数据存储，主要是未经处理的“原始”数据，作为数据分析的来源。而更熟悉的数据仓库在存储数据之前会过滤和处理数据，而湖泊只是捕获原始数据，将其留给数据的用户来执行他们需要的特定分析。例如HDFS或HBaseHadoop，火花或风暴处理框架。通常只有一小群数据科学家研究原始数据，将处理后的数据流输入湖岸数据集市供大多数用户查询。数据湖只能用于分析和报告。对于操作系统之间的协作，我们更喜欢使用为此目的而设计的服务。

2015年5月

评估

一个企业数据湖是一个不可变的数据存储，其中大部分是未处理的“原始”数据，作为其他处理流的源，但也可以由大量使用某些高效处理引擎的内部技术消费者直接使用。例如Hadoop、Spark或Storm处理框架中的HDFS或HBase。我们可以将其与一个典型的系统进行对比，该系统将原始数据收集到一些高度受限的空间中，这些空间只能作为高度控制的ETL过程的最终结果提供给这些消费者。

采用数据湖的概念是为了消除由于缺乏ETL开发人员或过多的预先数据模型设计而造成的瓶颈。它是关于授权开发人员在他们需要的时候以敏捷的方式创建他们自己的数据处理管道，并且在合理的限制内——这与我们高度重视的另一个模型DevOps模型有很多共同之处。

2015年1月

评估

发布日期:2015年1月28日