Day-08 比训练更重要的事情，Dataset

How to get Dataset

我们做机器学习一定有一个目标，也就是我们希望解决某些问题，因此针对这个问题我们会有相对应的资料
例如说，我们今天要进行气象预测，或是天气分类，就个问题就围绕在天气上，因此我们的资料一定就是跟天气相关的资料，这就包含 温度、湿度、日照、UV 等等这种东西，这种针对性的资料也就会是来自学术单位、研究机构等等部分，去做针对性地收集
那如果今天是希望作练习呢?有哪些地方可以收集到很棒的公开性资料来做练习吗?
当然有，我们就後面慢慢介绍

Kaggle 是全世界公认最大的资料科学社群，全天候 24 小时都有来自世界各地的学术机构、公司行号等等在上面发布各种不同领域的资料科学悬赏单，也就是各式各样高额奖金的竞赛，因此会有很多学生、业界人士、各界领域的优秀人员在上面互相角逐、讨论、分享，是一个非常棒的资料科学交流平台

此资料参考 Yeh James Kaggle 介绍
那 Kaggle 因为是全世界最大的一个资料科学社群，因此上面有大量公开的资料，因此如果想对某个领域做针对性的训练练习，都可以这里做资料的查询使用
只是使用这部分的资料会需要注意几个问题，
- 第一，Kaggle 上面的竞赛大多比较困难（毕竟有点属於解决方案悬赏），因此对於初学者而言，上面很多比赛不是那们适合的，而且资料集大多非常庞大，很不适合做为练习，但如果是有针对性的练习测试，上面的资料一定能满足你的兴趣
- 第二，Kaggle 上面涉及公司的资料大多有保密问题，因此会有资料解读上的困难，还是需要有相关领域针对性的学习才比较好入手
所以如果是初学者，可以去找找看 Playground 或是 Getting Started 这类型的等级做出发，我们这次主题的数字辨识资料就是这等个等级的资料
想更加了解可以参考 Yeh James Kaggle介绍

scikit-learn 是用於 Python 程序语言的自由软件机器学习库，他算是一个工具函式库，里面还整理了很多资料，就包含提供了一个 dataset 提供简单的引入使用
scikit-learn 不只有提供 dataset ，还有资料前处理函式库，模型函式库等等，可以说是非常多元
那我们明天 Logistic Regression 的实作就是利用 scikit-learn 提供的 Iris 资料集

杂谈

杂谈

杂谈

杂谈

杂谈

这次来看看QLattice来执行回归的功能，我们想从Airbnb上待租房子的特徵，来预测房子租金的...

这是我第一次参加这种撰写文章的比赛，参加这个比赛主要是让我能保持学习并透过写文章分享自己的学习历程，...

一个控制目标(control objectives) 是一个“描述的是要实现作为实施控制的结果声明...

昨天设计完介面了，今天就是做前端啦，建立新页面跟放上面的header照片，之前都讲过了 Expan...

看完这篇文章你会得到的成果图多了一条滑条，我们可以直接控制，另外我们也可以直接透过滑条来操控进度 ...