目前的命题 | ML#Day11

根据前面作业做个检讨,决定新的题目需要有这些条件:

  1. 简单、明确,即使团队未参与ml研究的同仁,对於我们要做什麽也完全明白,没有歧异。
  2. 可以拥有确定答案
  3. 不论一般来说的资料收集或事件发生才能拿到的资料,都很容易取得,例如一天才发生一次的事件就不考虑。
  4. 处理资料,特徵工程的工作尽量能压到最小,可以的话尽量是静态的离散资料就可以做为input来完成题目最好。

尤其是第4点,对於没什麽经验的我们,如果第一个题目就要处理复杂的特徵萃取,实在太过辛苦。

相对於静态的离散资料,就是指动态的连续性资料,或者是说有方向性的资料,在下面简单举两个例子。

例子1:

如果你想知道一个人的脉搏数是不是变快或变慢了甚至异常,那麽可能要收集一段时间的资料才得以做出判断,或者是说才有意义,单单只看1~2秒内的脉搏数,很直观的大家都知道没意思。

所以问题来了,收集多久时间的脉搏数,做出的资料才是最恰当?假设1分钟,1分钟会不会太久?假设30秒?假设10秒?其实并没有标准答案,这是一种需要参考连续的前後变化,才能得到的资料,而抓多少时间才合适,需要重复的实验以及尝试,光是研究如何让这个参数转换成适当的资料,工作上会旷日费时。

例子2:

假设想知道客户在某项商品购买的成长率,所谓的成长率,简单来说是这次比起上次多了多少,然後多的部分除以上次的量,单位是百分比,关键字就是这次上次。两次购买的时间可能隔了很久,所以并非连续的资料一定是指时间的连续,但从DB纪录的资料却可以知道有个次序的关系。

那问题又来了,或许有可能衍伸的很复杂,例如所谓连续的关系,如果客人上周买过,这周也买,大多人可能直觉两个有关系,但是上次是一年前买的,那会觉得跟这次购买有关系吗?可能就不一样,最後又是回到、一个模糊圈定时间范围的问题,更何况商品的品项,或者个人状况,促销价格状况,可能都同时影响着购买意愿,是不是非常麻烦呢?

光是资料的选定或处理,可能就碰头灰头土脸,因为这是商务的实作发展,怎麽挑怎麽处理只有自家最清楚,需要从头自己来,不像kaggle的练习题目,资料已经是处理好的状态。


最後我们讨论出想尝试的题目是:

「客人流量与订单金额量的关系」,以此训练出一个模型,辅助判断是否客人有异常的操作,或者系统发生异常行为。例如来说,可能在某个流量数,系统收到的订单总金额短时间暴增多出预期的好几倍,或者相反状况,流量稳定的状态之下,为何金额锐减,是不是有人因为系统问题购买不了某些商品呢?


<<:  Day 06 - 私有云VPC设置

>>:  [Java Day08] 3.1. if else

在 Debian 10.10 上轻松安装呒虾米

花了一点时间,把 Debian 10.10 下载与安装,我选择 Gnome 桌面环境,原因是在 Fe...

替代网站(Alternative Sites)- 冷站点的最大好处

冷站点没有适当的计算机设备,因此它不提供异地数据存储、保留替代计算能力或响应电子发现请求。 冷站点是...

登录档是什麽~资工的讲古时间

今天是第二天~~~~ 正如前面规划的,今天要从我们的第一个主题Windows登录档开始介绍 这里有个...

30天学会 Python: Day 13-站在巨人的肩上

tags: python, iron_man title: PyDay12 现代的人可以快速得产出...

第6天~原来还有OKhttp这种语法

点餐~20220130再做一次 重点: 1-新增Activity 2-版面规划-使用参考线(用%这个...