使用回归分析与其意义 | ML#Day15

选模型并非最重要

为什麽我们要以回归分析的方式来建立模型，其他方式可不可以？其实没有说不行。

然而回归(Regression)是ML入门相对好理解的手段或方法，也不是这个方法的品质和效果就一定比较差，模型的好坏取决於来源的资料和模型的细节，尤其资料的重要程度，远远大於其他因素。

好的资料，假设在某个模型做出来，我们给它评价是80分，换成别的模型或方法去做，大概可能到85分，品质的好坏相差有限，要更好所需投入成本可能却是指数成长。

但若好的资料，假设做出很差的资料，那绝大的可能是模型弄的部分不好，用到比较适用的函式出来的效果，可能就会大幅跃升。

重点在於资料的品质，太差的资料，即使改用类神经演算法(Deeping learning)去训练模型，同样难以取得可期待的结果。

我们先关心资料，再关心模型。

然而还是得稍微了解一下，模型的内容在做什麽，以及训练出的结果代表的意思，以便知道该调整的是资料还是模型。

若把资料集转换成一个平面座标，用「点」表示它们分布的位置，假设这些点的分布是基於有某种规则，那麽或许我们可以找到一条线，来表示它们的分布状况。

所谓的「线」是由无数点所组成，所以它本身意涵数值是连续型的资料，如果这条表示分布的线可以无限延长，那麽只要你给出一个x，它必定能输出一个y给你。

根据这条件，我们可以知道x(输入)和y(输出)彼此的关系，因此也可以丢入实务上还未出现的x，得到对应的y，得到预期值的目的。

然後事情往往没那麽简单，大多时候不容易用直线表示出我们输入和输出的关系，可能是需要一个复杂的曲线。

自变数的数量跟维度成正比，简单讲一个变数一个维度，转换成平面座标是个很理想的作法，但实务上资料多半是多维的组成，一次处理多维难处理，所以我们需要数学转换，用梯度下降的作法降维度的方式处理。

线的长度可能也没有无限长，在资料处於某个范围之下合用，但输入的参数到了某种数值之外，或许整个模型有可能就不适用。

以上还不是最头痛的部分。

最重要的部分，资料的分布要有「规则」，才能训练出一个模型，也可以说用ML训练模型，其实是在帮我们找到资料集内隐藏的规则。

若资料的分布式自然机率随机组成，譬如说丢掷一个公正的骰子，想要藉此找出出现的点数有没有一个模型，或者威力彩开奖的号码真的是随机产出，那麽做模型去算下一次开奖号码，基本上是无稽之谈，因为没有规则，就没有模型，也就没有意义。

杂谈

杂谈

杂谈

杂谈

杂谈

何谓提升(Hoisting)？提升(Hoisting) 其实主要是为了厘清 JavaScript ...

有时我们背景需要一些定时任务，Odoo同样也可以设定，依照惯例我们来写一个范例，每半年学生的成绩就要...

有兴趣的朋友可以点选以下连结，看到我这周撰写「系统分析师养成之路」的心得： https://itun...

特性与用途不会影响到原始阵列的资料可以筛选符合条件的内容，并且回传至新的阵列直接进入写法及范例...

六边形架构图 (Hexagonal Architecture Diagram) 是一种用於软件设计的...