[Day 02] Why MLOps — 从"地平说" 走向宇宙

Machine learning is now a product engineering discipline. — Josh Tobin

全端深度学习

"机器学习现已成为产品工程学科",Full stack deep learning 的导师之一 Josh Tobin 提出了这样的想法,而这不只是他个人的见解,史丹佛大学 CS 329S: Machine Learning Systems Design 的讲师 Chip Huyen 也有相同的看法,甚至 Elon musk 也同意这样的观点:
twitter
*图片来源: Elon 的推特

事实上,从机器学习在产业应用的历史脉络就可以看出来这样的说法是有迹可循的:
ML历史进程
*图片修改自 Josh Tobin - A Missing Link in the ML Infrastructure Stack

由上图可以看到,早在 2000 年代产业界就已经开始导入机器学习,但其用途比较特定,也是大部分基础课程会教导的部分,例如训练一个回归模型,然後从中得到启发,并以此帮助决策。

随後来到了所谓 ML 炒作时期,所有高阶经理人都喊着 AI 是我们的首要策略 (但根本不知道自己在说什麽),此阶段大部分公司都是藉由行销手段来达到获利,而非模型真的对其事业产生实际的价值。

而到了最近这几年,企业开始发现雇用一个 AI 团队产出很酷的报告跟证明一些想法可行并不能算是策略的一种,甚至很多 AI 新创团队都以低於当初预估市值的金额卖掉了,连 OpenAI 这种最受益於 ML 炒作时期的纯研究团队都 pivot 改为专注於商业产品,这代表我们已经来到一个必须更着重於如何让 AI 落地的转捩点。
News
*图片来源: Uber把自驾车子公司ATG卖给Aurora非营利组织OpenAI成立「有限获利」公司OpenAI LP

从"地平说"走向宇宙

然而,建立以机器学习为基础的商业产品并不单纯只是把模型丢进产品里那麽简单,它需要从根本进行改变,也就是说,我们熟悉的传统机器学习专案流程已经无法满足现在的需求了。
这是因为过去我们习惯的作法就像支持地平说的人相信地球表面存在一个终点一样,我们相信交付模型 (产出报告) 以後一切就完结洒花了,所有的工作都在模型训练完後就结束,而训练的回圈只是为了找出最能拟合资料的模型。
flat-earth ml
*图片修改自 Josh Tobin - A Missing Link in the ML Infrastructure Stack

但实际上我们必须把整个流程再加上一个"外回圈 (Outer loop)",才能从地平说走向宇宙,让整个世界回归圆满,因此必须将专案流程修改成下面的样子:
ML product engineering
*图片修改自 Josh Tobin - A Missing Link in the ML Infrastructure Stack

其中测试可以确保模型在所有我们在乎的资料切片、所有我们在乎的 metrics 都有好表现之後再将模型部署进产品中,接着持续监控则确保模型不会表现下滑 (这在产品化阶段很常发生)。
最後藉由监控观察到的结果重新蒐集资料、重新标注後再开启新的训练回圈,这个概念就是所谓的资料飞轮 (data flywheel),它代表的意义是更好的模型会使产品更好,而产品更好则会吸引更多使用者,更多使用者代表更多的资料,更多资料则又会让模型变得更好,如此生生不息的循环下去:
flywheel
*图片修改自 Full stack deep learning Lecture 5: ML Projects

达成 Data flywheel 是建造可维护并能随时间改进的成功 ML 模型的关键。

在铁人赛最後的 Project 中我会尝试建立一个能实现资料飞轮的应用,但在那之前要先了解各部分的概念,而一切的基础就从机器学习产品的生命周期开始,终於要进入正题啦,那我们明天见!
/images/emoticon/emoticon08.gif

参考资料


<<:  Day9-Kind:你叫我做,我就要去做吗?Kind指令介绍

>>:  DB 常见dataType 介绍

低效率者如何规划学习时间?

哈哈 低效率者当然是在说我啦 (抱歉 文章分类只有技术可选择 这篇算是个人碎念日记啦) 进修时期总是...

Day 5 : 基本常识以及变数

今天终於可以开始来学习程序了,在这之前有一些程序语言的基本常识要知道: 基本观念 程序的执行: 程序...

资安这条路 27 - [服务器软件]Web 应用服务器-Tomcat、Weblogic、Websphere、Jboss

Tomcat 开放原始码,支援 JSP 和 servlets 的 Web 应用服务器 切勿使用 ro...

Day19 - 登入token与session相关问题

tags: 2021永丰金铁人赛 初学者在使用的时候,可能会遇到下列错误讯息: File "...

[Day - 27] - Spring 环境管理思想与设计

Abstract 许多开发者势必会遇到一种状况,就是在上线前势必会先放到测试主机进行测试,我们称之开...