当前位置: 首页 > 开发杂谈 >

目前的命题 | ML#Day11

根据前面作业做个检讨,决定新的题目需要有这些条件:

  1. 简单、明确,即使团队未参与ml研究的同仁,对於我们要做什麽也完全明白,没有歧异。
  2. 可以拥有确定答案
  3. 不论一般来说的资料收集或事件发生才能拿到的资料,都很容易取得,例如一天才发生一次的事件就不考虑。
  4. 处理资料,特徵工程的工作尽量能压到最小,可以的话尽量是静态的离散资料就可以做为input来完成题目最好。

尤其是第4点,对於没什麽经验的我们,如果第一个题目就要处理复杂的特徵萃取,实在太过辛苦。

相对於静态的离散资料,就是指动态的连续性资料,或者是说有方向性的资料,在下面简单举两个例子。

例子1:

如果你想知道一个人的脉搏数是不是变快或变慢了甚至异常,那麽可能要收集一段时间的资料才得以做出判断,或者是说才有意义,单单只看1~2秒内的脉搏数,很直观的大家都知道没意思。

所以问题来了,收集多久时间的脉搏数,做出的资料才是最恰当?假设1分钟,1分钟会不会太久?假设30秒?假设10秒?其实并没有标准答案,这是一种需要参考连续的前後变化,才能得到的资料,而抓多少时间才合适,需要重复的实验以及尝试,光是研究如何让这个参数转换成适当的资料,工作上会旷日费时。

例子2:

假设想知道客户在某项商品购买的成长率,所谓的成长率,简单来说是这次比起上次多了多少,然後多的部分除以上次的量,单位是百分比,关键字就是这次上次。两次购买的时间可能隔了很久,所以并非连续的资料一定是指时间的连续,但从DB纪录的资料却可以知道有个次序的关系。

那问题又来了,或许有可能衍伸的很复杂,例如所谓连续的关系,如果客人上周买过,这周也买,大多人可能直觉两个有关系,但是上次是一年前买的,那会觉得跟这次购买有关系吗?可能就不一样,最後又是回到、一个模糊圈定时间范围的问题,更何况商品的品项,或者个人状况,促销价格状况,可能都同时影响着购买意愿,是不是非常麻烦呢?

光是资料的选定或处理,可能就碰头灰头土脸,因为这是商务的实作发展,怎麽挑怎麽处理只有自家最清楚,需要从头自己来,不像kaggle的练习题目,资料已经是处理好的状态。


最後我们讨论出想尝试的题目是:

「客人流量与订单金额量的关系」,以此训练出一个模型,辅助判断是否客人有异常的操作,或者系统发生异常行为。例如来说,可能在某个流量数,系统收到的订单总金额短时间暴增多出预期的好几倍,或者相反状况,流量稳定的状态之下,为何金额锐减,是不是有人因为系统问题购买不了某些商品呢?


相关文章:

  • wish平台A+物流计划常见问题解答(下)
  • 关於因果关系推论-AB testing
  • wish平台账户暂停政策:账户被暂停后会发生什么情况?
  • 数位AI化
  • Day15:[搜寻演算法]Linear Search - 线性搜寻法
  • 亚马逊印度站又开新仓库,能拯救回已经对其失望的卖家吗?
  • Day23 Android - RxJava+Post
  • Mercari平台有什么特殊的优势?
  • 入门魔法 - 运算子的优先性与相依性
  • [Day 27] 建立table连线控制
  • [Java Day01] 大纲与安装
  • 实用的 each_cons 方法,Ruby 30 天刷题修行篇第十二话
  • 做跨境电商如何选择行业和产品?
  • [GAS] GBC上运作的Hello world!
  • 心得总结
  • 一周要闻:谷歌母公司、Facebook、亚马逊等几大互联网公司一季度财报
  • 海外营销周报:Facebook应用下载量下降30%,TikTok在欧洲测试应用内购买…
  • 俄取消商品知识产权限制 盗版游戏、电影等商标合法化
  • 最便宜的国外VPS推荐:5美金以下的VPS大全
  • Google Voice怎么转移到Lycamobile
  • Linux运维命令大全:Linux运维要掌握哪些命令
  • 如何在Hositnger主机开启Cloudflare服务,Hositnger主机Cloudflare CDN使用教程
  • 海外营销周报:谷歌广告将推出动态排除列表,报告显示2020年美国数字广告营收增长12%
  • 阿里云OSS对象存储控制客户端
  • Namesilo域名注册教程和域名注册流程方法
  • 教育邮箱:申请塔拉哈西社区学院edu邮箱
  • WordPress 通过代码实现 Ajax 自动完成搜索
  • 401错误怎么处理?教你如何解决网站401错误页面
  • Git是什么?
  • SiteGround主机评测和推荐