[DAY04] 建立 Datastore 和 Dataset (下)

DAY04 建立 Datastore 和 Dataset (下)

今天我们就要把昨天建立好的 data 汇入成 Datastore 了。

还记得 Datastore 扮演了 connector 的角色吗?现在我们来建立 Datastore,大家就会明白我为什麽这麽说了。

先来建立 Datastore

  1. 进入 studio 的首页页面,点选左边下面的 Datastores。
    Build Dataset in Azure Machine Learning

  2. 我们可以看到,已经有一些 Datastores 在里面了,不过我们不要管它们,因为我们要使用昨天建立 Blob。点击画面左上的 New Datastore。
    Build Dataset in Azure Machine Learning

  3. 这时候画面右边会跳出一个视窗,栏位说明如下:

  • Datastore name:就是这个 Datastore 的名称。
  • Datastore type:我们这边选择 Azure blob storage。
  • Account selection method:这边选 From Azure Subscription,不要选手动输入的,打字很累。
  • Subscription ID:就选贵公司的 Azure 订阅,或是自己的 Free trial。
  • Storage account:选我们昨天建好的那个 account。
  • Blob Container:选我们昨天建好的那个 container。
  • Save credential:这里可以勾 YES 给他存起来比较方便。
  • Authentication type:选 Account Key,如果有期限需求的话可以用 SAS。
  • Account Key:这里要去 Azure Storage account 里面找,後面有图片说明。
  • Use workspace managed identity:这里也可以勾 YES,不过还是看你的权限控管。
    Build Dataset in Azure Machine Learning
  1. Storage type 我们也可以选择其他的 SQL 资料库。不过为了 DEMO 方便就用 Blob。
    Build Dataset in Azure Machine Learning

  2. 要取得步骤3中需要的 account key,我们要先回到昨天建立的 storage account。在左边的 blade 选单中找到 Access keys,然後点选上方的 Show Keys,就可以复制 Key 到建立 Datastore 的视窗中。
    Build Dataset in Azure Machine Learning

  3. 建立好我们自己的 Datastore 後,就可以在画面中间看到它了。
    Build Dataset in Azure Machine Learning

再来建立 Dataset

  1. 在左边的选单中找到 Datasets,点中间的 Create dataset,我们可以看到有许多种方式可以建立 dataset,我们选择 from datastore。
    Build Dataset in Azure Machine Learning

  2. 点下去之後,右边会跳出个视窗。我们帮这个 Dataset 取名字,然後选择 Tabular,因为铁达尼号的资料是表格的型式。
    Build Dataset in Azure Machine Learning

  3. 下一步就是选择你要用哪个 datastore,我们就选择刚刚建立的那个。
    Build Dataset in Azure Machine Learning

  4. 然後选择里面我们昨天上传的档案。
    Build Dataset in Azure Machine Learning

  5. 我们可以看到 AML 会自动帮我们解析这个 CSV 档。栏位都列出来了,CSV 档的格式、还有表头的设定等等的,都帮我们做好了。
    Build Dataset in Azure Machine Learning

  6. 接着它会列出 schema,你可以选择哪些栏位要、哪些栏位不要,像我就把 passager id 这个栏位给取消掉。
    Build Dataset in Azure Machine Learning

  7. 最後就是一个确认和建立的动作。
    Build Dataset in Azure Machine Learning

  8. 建立之後我们就可以看到刚刚的 Dataset 出现在画面中间了。
    Build Dataset in Azure Machine Learning

  9. 我们可以点击进去里面看看。像是资料的版本控制,也可以透过 New vision 来上新版本的资料。
    如果点击 consume 这个 tab,我们可以看到使用这个 dataset 的程序码都帮你生成好了。
    Build Dataset in Azure Machine Learning

  10. 点击 Explore 的话,还可以看到一些直方图。
    Build Dataset in Azure Machine Learning

到此为止,我们就成功把资料集建立到 Azure Machine Learning 里面啦!

我们再来总结一下:

  1. 透过 Datastore 可以安全地取得你的资料。
  2. 不只是 CSV file 的资料,连资料库的资料都可以透过 Datastore 来取得。
  3. Dataset 本身就内建有很多的功能,包含了取得此资料集的程序码、版本控制、甚至基本的视觉化资料都有了。
  4. 我们了解了 Datastore 和 Dataset 之间的关系。

<<:  # Day4--欸不是,还要再来一遍喔?回圈别闹了

>>:  Angular 深入浅出三十天:表单与测试 Day04 - 开始撰写测试之前必须要知道的二三事

【Day5】不是八卦阵的有序集合:阵列

阵列算是一种「特殊物件」,可以在里面放入0到多个元素,里面的元素可以是字串、数字等原始型别资料、也...

[Day30] 今天是最後一天啦~

今天是我最後一次以git的主题跟各位沟通啦~ 说实话,觉得要坚持30天,天天发文真的有点难馁XD ...

『比昨天的自己还要好』的菜鸟工程师

回顾 30天咻的一下就过去了,第一次的铁人赛暂时画下小句点,那些期待补的篇幅我没忘(?) 漂向何处 ...

《正因为很简单,就迷失在茫茫人海》

“我们做专题报导,深入报导,比别人花更多时间去找资料,查证。 做那麽爽还不是三分钟就被别的新闻台抄去...

Debian10更换apt源

今天安装了个debian10,发现网上包括各大镜像网站提供的源地址都有点问题,经测试,Debian ...