在他们的工作流程中,数据科学家和分析师的主要摩擦之一是定位他们需要的数据,理解它,并评估它是否值得使用。由于缺少可用数据源的元数据以及缺乏搜索和定位数据所需的足够功能,这仍然是一个挑战。我们鼓励提供分析数据集或构建数据平台的团队数据的可发现性环境的一级功能;提供方便地定位可用数据、检测其质量、理解其结构和沿袭并访问它的能力。传统上,这个功能是由臃肿的数据编目解决方案提供的。近年来,我们看到了开源项目的增长,它们改善了数据提供者和数据消费者的开发体验,让数据变得可发现。阿蒙森Lyft和WhereHowsLinkedIn网站就是其中之一。我们希望看到的是,提供商的行为发生了变化,他们有意共享有助于可发现性的元数据,从而有利于从应用程序数据库的竖井中推断出部分元数据信息的可发现性工具。