大家还记得 Datastore 和 Dataset 的关系吗?我们再复习一下哦!
我们可以把 Datastores 理解成 Data Connector 的概念。它储存资料的连线资讯,例如说你的资料在SQL database 里,或者在 Azure Blob 里,我们就可以透过 Datastores,安全地取得你的资料。而 Dataset,就是我们在做 Machine Learning 时的那个 Dataset,一般翻译成资料集。
我们在前面使用了图形化介面,点一点就建立好我们 Azure Machine Learning(下称 AML) 的 Dataset。今天我们就来使用 SDK 建立 Dataset 吧!
我们从 Datastore 来建立 Dataset,有两种形式,一种是表格形式的,一种是档案形式的。前者就是我们之前建立的铁达尼号,後者就是我们之前建立的宝可梦。
from_delimited_files
这个方法。注意在做 Dataset 时,要 import Dataset,还有要提供一个 tuple 哦!程序码节录如下:from azureml.core import Dataset
datastore = ws.datastores.get("您的datastore名称")
csv_path = (datastore, "*.csv")
dataset = Dataset.Tabular.from_delimited_files(path=csv_path) # 这里 path 要给一个 tuple 或是 List(tuple)
# 也可以去预设栏位的型别
# dataset = Dataset.Tabular.from_delimited_files(path=csv_path, set_column_types={'Survived': DataType.to_bool()})
dataset = dataset.register(workspace=ws, name='titanic_sdk')
from azureml.core import Dataset
datastore = ws.datastores.get("您的datastore名称")
# 因为影像档有很多格式,这里可以把 tuple 做成 List
img_path = [(datastore, "*.jpeg"),
(datastore, "*.png"),
(datastore, "*.jpg")]
img_data = Dataset.File.from_files(img_path)
dataset = img_data.register(workspace=ws, name="pokemon_sdk")
dataset = Dataset.get_by_name(workspace, name='titanic_sdk')
dataset.to_pandas_dataframe()
dataset = Dataset.get_by_name(workspace, name='pokemon_sdk')
dataset.download(target_path='.', overwrite=False)
# 表格形式的(当然你转成 Pandas dataframe 之後,用 Pandas 内建的功能更强大)
tabular_dataset = tabular_dataset.filter((tabular_dataset['name'].contains('koko')) & (tabular_dataset['age'] > 18))
# 档案形式的
file_dataset = file_dataset.filter((file_dataset.file_metadata['CreatedTime'] < datetime(2020,1,1)) | (file_dataset.file_metadata['Size'] < 1024))
# 标记资料专案里面标签的
labeled_dataset = labeled_dataset.filter((labeled_dataset['label']['Pikachu'] == True) & (labeled_dataset.file_metadata['Size'] > 10000))
以上就是今天我们的建立 Dataset 和取用啦!明天我们再来建立运算资源。
>>: Day20# Leetcode - Roman to Integer
所谓测试驱动开发(Test-driven development, TDD),即「先写测试再开发」,...
什麽是 Command Pattern? 将建立指令与实际执行分离 问题情境 PS5 有特定操作 C...
如果前辈说什麽你就做什麽,长久下来你会失去判断能力。 除非你是草创成员,不然进入一间公司後,往往都...
tags: 铁人赛 Docker Dockerfile 汉堡 概述 碎念时间 【以皮毛技术与 AWS...
今天稍微测试了一下 OpenCart 4.0,很多地方不同於 OpenCart 3,之前光是看到规格...