数据科学家和分析师在工作流程中遇到的主要问题之一是定位他们需要的数据,理解这些数据,并评估这些数据是否值得信赖。这仍然是一个挑战,因为缺少关于可用数据源的元数据,并且缺乏搜索和定位数据所需的足够功能。我们鼓励提供分析数据集或构建数据平台的团队数据的可发现性环境的一级函数;提供方便地定位可用数据、检测其质量、了解其结构和沿袭并访问它的能力。传统上,这个功能由臃肿的数据编目解决方案提供。近年来,我们看到了开源项目的增长,这些项目改善了数据提供者和数据消费者的开发体验,从而真正做好一件事:让数据变得可发现。阿蒙森Lyft和WhereHowsLinkedIn就是这些工具之一。我们希望看到的是提供者行为的改变,有意地共享有助于发现的元数据,而支持从应用程序数据库的筒仓中推断部分元数据信息的发现工具。