使用回归分析与其意义 | ML#Day15

选模型并非最重要

为什麽我们要以回归分析的方式来建立模型,其他方式可不可以?其实没有说不行。

然而回归(Regression)是ML入门相对好理解的手段或方法,也不是这个方法的品质和效果就一定比较差,模型的好坏取决於来源的资料和模型的细节,尤其资料的重要程度,远远大於其他因素。

好的资料,假设在某个模型做出来,我们给它评价是80分,换成别的模型或方法去做,大概可能到85分,品质的好坏相差有限,要更好所需投入成本可能却是指数成长。

但若好的资料,假设做出很差的资料,那绝大的可能是模型弄的部分不好,用到比较适用的函式出来的效果,可能就会大幅跃升。

重点在於资料的品质,太差的资料,即使改用类神经演算法(Deeping learning)去训练模型,同样难以取得可期待的结果。

我们先关心资料,再关心模型。

然而还是得稍微了解一下,模型的内容在做什麽,以及训练出的结果代表的意思,以便知道该调整的是资料还是模型。


回归分析的意义

若把资料集转换成一个平面座标,用「点」表示它们分布的位置,假设这些点的分布是基於有某种规则,那麽或许我们可以找到一条线,来表示它们的分布状况。

所谓的「线」是由无数点所组成,所以它本身意涵数值是连续型的资料,如果这条表示分布的线可以无限延长,那麽只要你给出一个x,它必定能输出一个y给你。

根据这条件,我们可以知道x(输入)和y(输出)彼此的关系,因此也可以丢入实务上还未出现的x,得到对应的y,得到预期值的目的。

然後事情往往没那麽简单,大多时候不容易用直线表示出我们输入和输出的关系,可能是需要一个复杂的曲线。

自变数的数量跟维度成正比,简单讲一个变数一个维度,转换成平面座标是个很理想的作法,但实务上资料多半是多维的组成,一次处理多维难处理,所以我们需要数学转换,用梯度下降的作法降维度的方式处理。

线的长度可能也没有无限长,在资料处於某个范围之下合用,但输入的参数到了某种数值之外,或许整个模型有可能就不适用。

以上还不是最头痛的部分。

最重要的部分,资料的分布要有「规则」,才能训练出一个模型,也可以说用ML训练模型,其实是在帮我们找到资料集内隐藏的规则

若资料的分布式自然机率随机组成,譬如说丢掷一个公正的骰子,想要藉此找出出现的点数有没有一个模型,或者威力彩开奖的号码真的是随机产出,那麽做模型去算下一次开奖号码,基本上是无稽之谈,因为没有规则,就没有模型,也就没有意义。


<<:  [Day22]Laravel 路由

>>:  用React刻自己的投资Dashboard Day8 - useState hook

[Day7] 提升

何谓提升(Hoisting)? 提升(Hoisting) 其实主要是为了厘清 JavaScript ...

Day20 Let's ODOO: Scheduled Actions

有时我们背景需要一些定时任务,Odoo同样也可以设定,依照惯例我们来写一个范例,每半年学生的成绩就要...

【心得分享】第一周心得分享(4/12~4/18)

有兴趣的朋友可以点选以下连结,看到我这周撰写「系统分析师养成之路」的心得: https://itun...

[ Day 24 ] - 阵列资料处理 - filter

特性与用途 不会影响到原始阵列的资料 可以筛选符合条件的内容,并且回传至新的阵列 直接进入写法及范例...

六边形架构图

六边形架构图 (Hexagonal Architecture Diagram) 是一种用於软件设计的...