[DAY14] 在 Azure Machine Learning 里 Label data（下）

DAY14 在 Azure Machine Learning 里 Label data（下）

我们昨天建立好 Label 专案之後，今天就来进行资料标记吧！

开始进行 Data Labeling

我们点进去专案之後，可以看到一个 Dashboard，这里会显示你这个标记专案的进度。我们点击左上的 Label Data。
接着会先进入 Instructions 的部份，可以看到我们昨天输入的内容。这里我们再补充一下写 Instructions 的原则，根据微软的建议如下:

他们会看到什麽标签，以及要如何从中选择？是否有参考文字可供参考？
如果看起来没有合适的标签，该怎麽办？
如果有多个看起来合适的标签，该怎麽办？
应该对标签套用怎样的信赖度临界值？是否要他们在不确定时「尽其所能地猜测」？
若关注的物体有局部遮蔽或重叠的情形，该怎麽办？
若关注的物体在影像边缘遭到裁剪，该怎麽办？
如果他们在提交标签後发现作业有误，应怎麽做？

真实世界的专案千万不要像下图随便写写啊 XDD
Label Data in Azure Machine Learning

接着我们就可以开始进行标记啦！我们可以在右边的选单，针对这一项是什麽，开始进行标记。

右上有分格的框框，那个是可以让你一次看很多张以进行标记。
中间上方有操作功能，依序可以调整大小、亮度、对比、看属性、跳过、全萤幕。
标记完成後，可以点左下角的 Submit，就可以继续标记下一张。

标记几张後，我们可以回到主页面，可以看到 Dashboard 有所变化了。
我们离开 Dashboard 的页签，进入 Data 的页签，点左边选单的 Labeled Data，可以来检查这些 Label 是否正确或合格。如果不行的话，可以按 Reject。
我们把所有的资料标注好之後，回到 Dashboard，点击上方 Export。这里有三种 Export 的格式，CSV 就是 CSV，COCO 是另一种资料集标注的格式，可以参考 COCO Dataset 的网站。我们这里选 Azure ML Dataset。
资料量不多的话，很快就会输出好了。我们进到 Datasets 里，就会看到刚刚标记过的资料集啦！

在 AML 里使用影像集资料

我们点进资料集，到 Consume 的页签，把程序码复制下来。这里的程序码只是把 Dataframe 叫出来而已，还不太符合我们的需求。
打开 Notebook 开新档案，我们要用 azureml-contrib-dataset 来下载我们的图档。我们输入以下程序码：
（如果没有 azureml-contrib-dataset，可以用此指令安装 pip install azureml-contrib-dataset ）

import azureml.core
import azureml.contrib.dataset
from azureml.core import Dataset, Workspace
from azureml.contrib.dataset import FileHandlingOption

from azureml.core import Workspace, Dataset
import azureml.contrib.dataset

subscription_id = '<Your subscription ID>'
resource_group = '<Your resource group>'
workspace_name = '<Your workspace name>'

workspace = Workspace(subscription_id, resource_group, workspace_name)

pokemon_dataset = Dataset.get_by_name(workspace, name='<Your dataset name>')
pokemon_pd = pokemon_dataset.to_pandas_dataframe(file_handling_option=FileHandlingOption.DOWNLOAD, target_path='./download/', overwrite_download=True)

import matplotlib.pyplot as plt
import matplotlib.image as mpimg

#从 dataframe 里把图档读出来
img = mpimg.imread(pokemon_pd.loc[0,'image_url'])
imgplot = plt.imshow(img)

然後可以看到如下图的结果。
Label Data in Azure Machine Learning