目前的命题 | ML#Day11

根据前面作业做个检讨，决定新的题目需要有这些条件：

简单、明确，即使团队未参与ml研究的同仁，对於我们要做什麽也完全明白，没有歧异。
可以拥有确定答案。
不论一般来说的资料收集或事件发生才能拿到的资料，都很容易取得，例如一天才发生一次的事件就不考虑。
处理资料，特徵工程的工作尽量能压到最小，可以的话尽量是静态的离散资料就可以做为input来完成题目最好。

尤其是第4点，对於没什麽经验的我们，如果第一个题目就要处理复杂的特徵萃取，实在太过辛苦。

相对於静态的离散资料，就是指动态的连续性资料，或者是说有方向性的资料，在下面简单举两个例子。

例子1：

如果你想知道一个人的脉搏数是不是变快或变慢了甚至异常，那麽可能要收集一段时间的资料才得以做出判断，或者是说才有意义，单单只看1~2秒内的脉搏数，很直观的大家都知道没意思。

所以问题来了，收集多久时间的脉搏数，做出的资料才是最恰当？假设1分钟，1分钟会不会太久？假设30秒？假设10秒？其实并没有标准答案，这是一种需要参考连续的前後变化，才能得到的资料，而抓多少时间才合适，需要重复的实验以及尝试，光是研究如何让这个参数转换成适当的资料，工作上会旷日费时。

例子2：

假设想知道客户在某项商品购买的成长率，所谓的成长率，简单来说是这次比起上次多了多少，然後多的部分除以上次的量，单位是百分比，关键字就是这次和上次。两次购买的时间可能隔了很久，所以并非连续的资料一定是指时间的连续，但从DB纪录的资料却可以知道有个次序的关系。

那问题又来了，或许有可能衍伸的很复杂，例如所谓连续的关系，如果客人上周买过，这周也买，大多人可能直觉两个有关系，但是上次是一年前买的，那会觉得跟这次购买有关系吗？可能就不一样，最後又是回到、一个模糊圈定时间范围的问题，更何况商品的品项，或者个人状况，促销价格状况，可能都同时影响着购买意愿，是不是非常麻烦呢？

光是资料的选定或处理，可能就碰头灰头土脸，因为这是商务的实作发展，怎麽挑怎麽处理只有自家最清楚，需要从头自己来，不像kaggle的练习题目，资料已经是处理好的状态。

最後我们讨论出想尝试的题目是：

「客人流量与订单金额量的关系」，以此训练出一个模型，辅助判断是否客人有异常的操作，或者系统发生异常行为。例如来说，可能在某个流量数，系统收到的订单总金额短时间暴增多出预期的好几倍，或者相反状况，流量稳定的状态之下，为何金额锐减，是不是有人因为系统问题购买不了某些商品呢？

<<: Day 06 - 私有云VPC设置

>>: [Java Day08] 3.1. if else

目前的命题 | ML#Day11

例子1：

例子2：

全端入门Day19_前端程序撰写之JavaScript

[Day4] API开发规格书

Day 16 - 透过Vuex来管理状态

Day-24 快速面试之考题大公开!(3)

Day 15. slate × Interfaces × Iteration

在 Debian 10.10 上轻松安装呒虾米

替代网站(Alternative Sites)- 冷站点的最大好处

登录档是什麽~资工的讲古时间

30天学会 Python: Day 13-站在巨人的肩上

第6天~原来还有OKhttp这种语法