我们都知道做 AI 最重要的就是 data,没有 data 就很难训练模型,也很难解决商业应用上碰到的问题。
笔者在业界跑的经验,发现很多企业都想要做 AI,都有很棒的想法可以精进他们的生产制造,更重要的是口袋里有点钱也愿意花,但是都没有 data(或是 data 难以使用)。想做 AI 但是没有养成收集 data 的习惯,这真的很可惜的一件事情。
今天我们就来学习怎麽把 data 放到 Azure Machine Learning(下称AML) 里面吧!
我们首先要先来区分 AML 里面 Datastores 和 Datasets 的差异。
Datasets 的概念很简单,就是资料集,你可以直接从资料集取得你的资料,直接在 AML 里面开始使用这些资料来做 AI。
而 Datastores 的概念就比较容易让人搞混,你会觉得 Datastores 顾名思义是储存资料的地方,那麽这样子和Datasets(资料集)的差别在哪里呢?
根据微软的官方文件,Datastore 是储存连线资讯的地方,并且将资讯保护在 key vault 里面以确保取得资料时的安全。
我建议可以把 Datastores 理解成 Data Connector 的概念。它储存资料的连线资讯,例如说你的资料在SQL database 里,或者在 Azure Blob 里,我们就可以透过 Datastores ,安全地取得你的资料。
那麽我们现在就来实际操作,怎麽用一个 Datastore ,来取得 Azure Blob 里的资料吧。
首先我们先来建立一个 Blob 。这里要注意到的是,我们在建立 Workspace 时,会自动建立一个 Blob,但是这个是给 AML 使用的,非常不建议把你的 data 上传到这个 Blob 里。
举例来说,如果会计部门的 CSV 档,储存在会计部门的 Blob 里面,你就应该连接到该 Blob 取得资料,而不是在把该资料移进 Workspace 一起建立的 Blob 里。
建立 Azure Blob,你必须要先建立一个 Storage account。我们先在 Azure Portal 左方的 Blade 页面,找到 Storage Accounts。
点击进去之後,在左上角找到 Create,点击下去。
接着会跳出建立 Storage account 的画面,依序说明各栏位的意思:
剩下的设定就让它们维持 default 就好了,按下 Create 之後就会开始建立了。
建立好之後 我们进入这个 Storage account,会看到以下画面,点击 Containers。
再点击左上角的 + Container,以建立新的 container。需注意这里的 container 不是 docker 的那种 container,应该要理解为存放档案的一个空间,像是 AWS S3 的 bucket 的概念。
接着为这个 container 输入一个名称,再点击 Create。
然後就可以看到你刚刚在画面中建立的 Container 了。
接着点击左上角的 Upload。
这时候右边会跳出一个视窗,可以上传档案,这边我们上传铁达尼号的资料集。
上传完成後,就可看到铁达尼号的资料集出现在画面的正中央了。
今天就先到这边,字数已经破千了,我们明天再来把这个铁达尼号的资料透过 Datastore 放进 Dataset 里。
>>: Day3 用python写UI-聊聊视窗控件配置管理员-pack方法
前言 昨天讲过了远古时代的记忆体管理,跟後续为了解决最古老的记忆体管理所引发的问题而接着有的分段管理...
Q: 软件工程师最常说的谎言有哪些? A: //TODO 连假结束 wednesday blue ...
【前言】 本系列为个人前端学习之路的学习笔记,在过往的学习过程中累积了很多笔记,如今想藉着IT邦帮忙...
redisDB是一个快速轻量的key-value资料库,因为可以无状态的执行,我个人认为非常适合运行...
tags: 2021铁人赛 React 前一篇提到的导览列的各个按钮,点击之後会跳到不同的页面,每个...