根据前面作业做个检讨,决定新的题目需要有这些条件:
确定答案
。静态的离散资料
就可以做为input来完成题目最好。尤其是第4点,对於没什麽经验的我们,如果第一个题目就要处理复杂的特徵萃取,实在太过辛苦。
相对於静态的离散资料
,就是指动态的连续性资料
,或者是说有方向性的资料,在下面简单举两个例子。
如果你想知道一个人的脉搏数是不是变快或变慢了甚至异常,那麽可能要收集一段时间的资料才得以做出判断,或者是说才有意义,单单只看1~2秒内的脉搏数,很直观的大家都知道没意思。
所以问题来了,收集多久时间的脉搏数,做出的资料才是最恰当?假设1分钟,1分钟会不会太久?假设30秒?假设10秒?其实并没有标准答案,这是一种需要参考连续的前後变化,才能得到的资料,而抓多少时间才合适,需要重复的实验以及尝试,光是研究如何让这个参数转换成适当的资料,工作上会旷日费时。
假设想知道客户在某项商品购买的成长率,所谓的成长率,简单来说是这次比起上次多了多少,然後多的部分除以上次的量,单位是百分比,关键字就是这次
和上次
。两次购买的时间可能隔了很久,所以并非连续的资料一定是指时间
的连续,但从DB纪录的资料却可以知道有个次序的关系。
那问题又来了,或许有可能衍伸的很复杂,例如所谓连续的关系,如果客人上周买过,这周也买,大多人可能直觉两个有关系,但是上次是一年前买的,那会觉得跟这次购买有关系吗?可能就不一样,最後又是回到、一个模糊圈定时间范围的问题,更何况商品的品项,或者个人状况,促销价格状况,可能都同时影响着购买意愿,是不是非常麻烦呢?
光是资料的选定或处理,可能就碰头灰头土脸,因为这是商务的实作发展,怎麽挑怎麽处理只有自家最清楚,需要从头自己来,不像kaggle的练习题目,资料已经是处理好的状态。
最後我们讨论出想尝试的题目是:
「客人流量与订单金额量的关系」,以此训练出一个模型,辅助判断是否客人有异常的操作,或者系统发生异常行为。例如来说,可能在某个流量数,系统收到的订单总金额短时间暴增多出预期的好几倍,或者相反状况,流量稳定的状态之下,为何金额锐减,是不是有人因为系统问题购买不了某些商品呢?
花了一点时间,把 Debian 10.10 下载与安装,我选择 Gnome 桌面环境,原因是在 Fe...
冷站点没有适当的计算机设备,因此它不提供异地数据存储、保留替代计算能力或响应电子发现请求。 冷站点是...
今天是第二天~~~~ 正如前面规划的,今天要从我们的第一个主题Windows登录档开始介绍 这里有个...
tags: python, iron_man title: PyDay12 现代的人可以快速得产出...
点餐~20220130再做一次 重点: 1-新增Activity 2-版面规划-使用参考线(用%这个...