Auto ML简介

前面提到的两个范例, 一个是MNiST手写辨识, 一个是心血管疾病的应用, 处理这两个范例的过程中大致做了这些事

资料清理: 例如处理空值
选择演算法: 我们使用了resnet与 xgboot
决定参数: 第一个范例是epoch数, 第二个范例是训练资料与测试资料的分割比例
产生model与metrics: 把model与metrics记录在MLFlow以进行比较
验证model: 例如以accuracy当做model的metric

在范例中这个过程只做两次, 但通常为了要找出最佳的model与参数, 这个过程需要反覆执行, 也就是一直爆调参数, 调到符合我们的要求为止, 这个过程极为耗费时间与人力.

2018年, Google在Google Cloud NEXT 大会上正式推出新一代机器学习产品：Cloud AutoML, 让资料清理、选择演算法、决定参数的任务可以很容易完成并且可以得到优化後的模型, 接着在机器学习的领域, AutoML就成为机器学习领域的热门主题.

Amazon SageMaker平台上也有AutoML的功能, 称为 auto pilot. 例如上传一个表格资料(csv档), 并且在SageMaker auto pilot中指定target(就是你要推论的目标栏位), 这样auto pilot就会回传最佳模型与参数, 然後再将这个最佳模型进行部署. 在执行autoML的过程中, 会经过下列步骤, 例如前六个步骤是

Pre-processing
Candidate Definitions Generated
Feature Engineering
Model Tuning
Deploying Model
Explainability Report Generated

需要等待一段时间才会完成, 完成之後会列出训练过後的model列表, 并且在最佳model上打个星号, 这时候你就可以使用这个best model进行部署.

以上述的使用情境来看, 的确可以让非专业资料科学家也能取得一个可用的(或最佳的)的model, 大幅降低对AI技术的要求门槛, 让企业或组织能以比较容易的方式进入AI领域.

除了各大云端平台之外, 也已有多个open source专案提供AutoML library, 例如

下一篇, 将使用auto-sklearn为范例说明AutoML的使用方法

<<: [Day 21] 调整模型超参数利器 - Optuna

>>: 【Day18】Git 版本控制 - 多人协作 Git Flow

Auto ML简介

Day 17 | 常用范例：前後端共用的表单输入验证 Validate

Day28 资安小结 - 红队与蓝队 ( 内附名字由来 )

Day3 Redis服务器环境设定

Day 22 | Manomotion 手部动作识别 - 安装与介绍

Progressive Web App 启动和更新机制 (6)

给客户提供优质服务并验证服务，让客户感觉有被重视

Powershell 入门之 Alias

【把玩Azure DevOps】Day14 Extensions for Azure DevOps：Azure DevOps也能装外挂？

day4 : k8s建置(下)

人脸辨识-day28 模型训练