[DAY03] 建立 Datastore 和 Dataset (上)

DAY03 建立 Datastore 和 Dataset (上)

我们都知道做 AI 最重要的就是 data,没有 data 就很难训练模型,也很难解决商业应用上碰到的问题。
笔者在业界跑的经验,发现很多企业都想要做 AI,都有很棒的想法可以精进他们的生产制造,更重要的是口袋里有点钱也愿意花,但是都没有 data(或是 data 难以使用)。想做 AI 但是没有养成收集 data 的习惯,这真的很可惜的一件事情。

今天我们就来学习怎麽把 data 放到 Azure Machine Learning(下称AML) 里面吧!

Datastores 和 Datasets 的差异

我们首先要先来区分 AML 里面 Datastores 和 Datasets 的差异。

Datasets 的概念很简单,就是资料集,你可以直接从资料集取得你的资料,直接在 AML 里面开始使用这些资料来做 AI。

而 Datastores 的概念就比较容易让人搞混,你会觉得 Datastores 顾名思义是储存资料的地方,那麽这样子和Datasets(资料集)的差别在哪里呢?

根据微软的官方文件,Datastore 是储存连线资讯的地方,并且将资讯保护在 key vault 里面以确保取得资料时的安全。

我建议可以把 Datastores 理解成 Data Connector 的概念。它储存资料的连线资讯,例如说你的资料在SQL database 里,或者在 Azure Blob 里,我们就可以透过 Datastores ,安全地取得你的资料。

那麽我们现在就来实际操作,怎麽用一个 Datastore ,来取得 Azure Blob 里的资料吧。

先来建立一个 Blob

首先我们先来建立一个 Blob 。这里要注意到的是,我们在建立 Workspace 时,会自动建立一个 Blob,但是这个是给 AML 使用的,非常不建议把你的 data 上传到这个 Blob 里。

举例来说,如果会计部门的 CSV 档,储存在会计部门的 Blob 里面,你就应该连接到该 Blob 取得资料,而不是在把该资料移进 Workspace 一起建立的 Blob 里。

  1. 建立 Azure Blob,你必须要先建立一个 Storage account。我们先在 Azure Portal 左方的 Blade 页面,找到 Storage Accounts。
    Build Azure Blob for storing Data

  2. 点击进去之後,在左上角找到 Create,点击下去。
    Build Azure Blob for storing Data

  3. 接着会跳出建立 Storage account 的画面,依序说明各栏位的意思:

  • Subscrition:这个是你 Azure 的订阅,可以选 Free trial,或是贵公司的订阅。
  • Resource Group:这个是资源群组,用以分群及管理你的资源。这里我是新建一个专门放 data 的资源群组。
  • Region:是指你的资源所在的地区,如果要离台湾近的话可以选 East Asia,这个机房在香港。
  • Performance:这个是资料存取的效能,我就选 Standard 极可。
  • Redundancy:这个是资料备份,我选 LRS 只在该地区的机房备份即可。如果你的资料的重要性很高,建议选择高一点的等级。
    Build Azure Blob for storing Data
  1. 剩下的设定就让它们维持 default 就好了,按下 Create 之後就会开始建立了。
    Build Azure Blob for storing Data

  2. 建立好之後 我们进入这个 Storage account,会看到以下画面,点击 Containers。
    Build Azure Blob for storing Data

  3. 再点击左上角的 + Container,以建立新的 container。需注意这里的 container 不是 docker 的那种 container,应该要理解为存放档案的一个空间,像是 AWS S3 的 bucket 的概念。
    Build Azure Blob for storing Data

  4. 接着为这个 container 输入一个名称,再点击 Create。
    Build Azure Blob for storing Data

  5. 然後就可以看到你刚刚在画面中建立的 Container 了。
    Build Azure Blob for storing Data

  6. 接着点击左上角的 Upload。
    Build Azure Blob for storing Data

  7. 这时候右边会跳出一个视窗,可以上传档案,这边我们上传铁达尼号的资料集。
    Build Azure Blob for storing Data

  8. 上传完成後,就可看到铁达尼号的资料集出现在画面的正中央了。
    Build Azure Blob for storing Data

今天就先到这边,字数已经破千了,我们明天再来把这个铁达尼号的资料透过 Datastore 放进 Dataset 里。


<<:  [Day 03] tinyML开发板介绍

>>:  Day3 用python写UI-聊聊视窗控件配置管理员-pack方法

Day11 Buddy, slab 记忆体管理大将

前言 昨天讲过了远古时代的记忆体管理,跟後续为了解决最古老的记忆体管理所引发的问题而接着有的分段管理...

Day07:【TypeScript 学起来】原始资料型别 Primitive Types

Q: 软件工程师最常说的谎言有哪些? A: //TODO 连假结束 wednesday blue ...

【JavaScript】阵列方法之filter()

【前言】 本系列为个人前端学习之路的学习笔记,在过往的学习过程中累积了很多笔记,如今想藉着IT邦帮忙...

day19 : redisDB keyDB on K8S (上)

redisDB是一个快速轻量的key-value资料库,因为可以无状态的执行,我个人认为非常适合运行...

用React刻自己的投资Dashboard Day16 - react-router-dom让SPA也有路由

tags: 2021铁人赛 React 前一篇提到的导览列的各个按钮,点击之後会跳到不同的页面,每个...