数据科学家和分析师在工作流程中遇到的主要问题之一是找到所需的数据,弄清楚数据含义,并评估其是否值得使用。由于缺少可用数据源的元数据,并且缺少搜索和定位数据所需的适当功能,因此这仍然是一个挑战。我们鼓励提供分析数据集或构建数据平台的团队以数据的可发现性为其生态圈的首要功能;提供轻松定位可用数据,检测其质量,了解其结构和源头,并获得访问权的能力。传统上,此功能是由庞大的数据分类解决方案提供的。近年来,我们已经看到相关开源项目的增长,这些项目正在改善数据提供者和数据消费者的开发体验,从而使他们真正做好一件事:使数据易于发现。这些工具包括Lyft的阿蒙森和LinkedIn的WhereHows。我们希望看到的改变是,提供者有意识地分享利于可发现性的元数据,从而帮助发现性工具从应用程序数据库中推断出部分元数据信息。