- 昨天我们提过我们的目标是成功分类一组资料,那...资料哪来啊 OAO?总不能每次我要练习之前,还要像之前 Regression 自己生一份资料出来吧?
- 所以今天我们就要借用外面的开放式资料集,但...有哪些资料阿 OAO?
How to get Dataset
- 我们做机器学习一定有一个目标,也就是我们希望解决某些问题,因此针对这个问题我们会有相对应的资料
- 例如说,我们今天要进行气象预测,或是天气分类,就个问题就围绕在天气上,因此我们的资料一定就是跟天气相关的资料,这就包含 温度、湿度、日照、UV 等等这种东西,这种针对性的资料也就会是来自学术单位、研究机构等等部分,去做针对性地收集
- 那如果今天是希望作练习呢?有哪些地方可以收集到很棒的公开性资料来做练习吗?
- 当然有,我们就後面慢慢介绍
Kaggle
- Kaggle 是全世界公认最大的资料科学社群,全天候 24 小时都有来自世界各地的学术机构、公司行号等等在上面发布各种不同领域的资料科学悬赏单,也就是各式各样高额奖金的竞赛,因此会有很多学生、业界人士、各界领域的优秀人员在上面互相角逐、讨论、分享,是一个非常棒的资料科学交流平台
此资料参考 Yeh James Kaggle 介绍
- 那 Kaggle 因为是全世界最大的一个资料科学社群,因此上面有大量公开的资料,因此如果想对某个领域做针对性的训练练习,都可以这里做资料的查询使用
- 只是使用这部分的资料会需要注意几个问题,
- 第一,Kaggle 上面的竞赛大多比较困难(毕竟有点属於解决方案悬赏),因此对於初学者而言,上面很多比赛不是那们适合的,而且资料集大多非常庞大,很不适合做为练习,但如果是有针对性的练习测试,上面的资料一定能满足你的兴趣
- 第二,Kaggle 上面涉及公司的资料大多有保密问题,因此会有资料解读上的困难,还是需要有相关领域针对性的学习才比较好入手
- 所以如果是初学者,可以去找找看 Playground 或是 Getting Started 这类型的等级做出发,我们这次主题的数字辨识资料就是这等个等级的资料
- 想更加了解可以参考 Yeh James Kaggle介绍
Sklearn
- scikit-learn 是用於 Python 程序语言的自由软件机器学习库,他算是一个工具函式库,里面还整理了很多资料,就包含提供了一个 dataset 提供简单的引入使用
- scikit-learn 不只有提供 dataset ,还有资料前处理函式库,模型函式库等等,可以说是非常多元
- 那我们明天 Logistic Regression 的实作就是利用 scikit-learn 提供的 Iris 资料集
Pytorch
- Pytorch 本身也有收集练习用资料集给大家使用欧~後面也会直接使用给大家看~
本日小结
- 今天简单的介绍了如何去获取资料集的方法,当然还有各式各样的平台跟竞赛正在提供不同种类的资料集给大家去做竞赛和练习,大家可以自己稍微做搜寻就好
- 一般实际应用端的部分,则会是需要自己去收集所需的资料,并进行整理规划,来达到有效训练的效果
- 明天就来看看如何利用 Logistic Regression 来实作 Iris 资料分类吧~
<<: Day 08 import 进阶
>>: Day 8 Odoo Search View