我们看到机器学习的连续交付(CD4ML)作为部署到生产环境中的任何ML解决方案的良好默认起点。许多组织越来越依赖ML解决方案来提供客户产品和内部运营,因此应用这些经验教训和良好实践具有良好的商业意义持续交付(CD)毫升的解决方案。
大约十年前,我们引进了持续交付(CD),我们交付软件解决方案的默认方式。今天的解决方案越来越多地包括机器学习模型,我们发现它们在采用连续交付实践方面也不例外。我们称之为机器学习的连续交付(CD4ML).尽管CD的原则保持不变,但用于实现培训、测试、部署和监控模型的端到端过程的实践和工具需要进行一些修改。例如:版本控制不仅要包括代码,还要包括数据、模型及其参数;检验金字塔扩展到模型偏差、公平性、数据和特征验证;部署过程必须考虑如何根据当前的冠军模型来提升和评估新模型的性能。当行业正在庆祝MLOps的新流行词时,我们认为CD4ML是我们实现端到端流程的整体方法,可靠地发布并持续改进机器学习模型,从想法到生产。
应用机器学习使商业应用和服务智能化不仅仅是训练模型和服务它们。它需要实现端到端、不断重复的培训、测试、部署、监控和操作模型的循环。用于机器学习的连续交付(CD4ML)是一种能够实现可靠的端到端开发、部署和监控机器学习模型的技术。支持CD4ML的基础技术堆栈包括用于访问和发现数据的工具、工件(如数据、模型和代码)的版本控制、持续交付管道、用于各种部署和实验的自动化环境配置、模型性能评估和跟踪、模型的可操作性。公司可以根据现有的技术堆栈选择自己的工具集。CD4ML强调自动化和消除手动切换。CD4ML是我们开发ML模型的实际方法。
随着基于ml的应用程序的日益流行,以及构建它们所涉及的技术复杂性,我们的团队严重依赖于此机器学习的连续交付(CD4ML)以安全、快速和可持续的方式交付此类应用程序。CD4ML是将CD原则和实践引入ML应用的一门学科。它消除了训练模型和将模型部署到生产环境之间的长周期时间。CD4ML在构建和部署应用程序所服务的模型的端到端过程中,消除了不同团队、数据工程师、数据科学家和ML工程师之间的手动切换。使用CD4ML,我们的团队已经成功地实现了基于ml的应用程序的所有组件的自动化版本控制、测试和部署:数据、模型和代码。