特徵萃取 | ML#Day8

需要发展「特徵工程」的另一个入门大问题,是没有想过会需要做特徵提取的工作,也就是从参数里面得到新的参数,没踏入这个领域,真的没想到还要做这个。

这个步骤其实可以无限发想创意,变换再变换,找到新的资料意义,就这点来说专业的资料学家也许根本不是在做呆版重复的工作,反到是充满探索与想像的发挥。

特徵萃取其实也不是什麽新概念,DB里面的aggregation method,其实就是这类的事情,count、min、max、avg 等等对原有资料做处理。

取得一连串的资料的最大值,最小值,平均值,或者有什麽特点,有连续性或没有连续性等等,诞生了新的资料与意义。

我们的第二个题目是想要知道,是不是有程序机器人,透过直打api的方式下订单,并非真人在网页面前挑选商品後下订单。

於是DB一张一张的订单单独地看,对这个题目没有什麽帮助,我们可能需要抓出客人是否有连续下订单的状况,甚至24小时不眠不休地在下订单。

於是需要写个小程序去从订单资料统整,抓出每个客人的连续下单状况,这就是从原有的资料产生新的资料,如果长期下来,甚至需要做得更好,当有每一笔新资料进入到DB的时候,自动产生与上次下单时间关联的新统计资料,也就是所谓的「自动化」。

对於软工背景的我们,这件事情相对比较轻松,只是在未理解有这项前置作业之前,我们还以为用初级的资料清洗过,就可以达成我们需求,有点把事情想得简单了。


<<:  透过 RISC-V 模拟器搞懂指令管线化

>>:  Day 16-infrastructure 也可以 for each 之三: Count meta-argument

[想试试看JavaScript ] 资料型态 数字 布林 undefined null

资料型态 number 数字 number 就是数字。跟字串需要引号不同,直接输入数字就可以了。 v...

结束语&心得

30天一眨眼就结束了呢!每天坚持写一篇文章,下班回家後一边写一边又翻书查找资料,没想到都撑过来了! ...

Day 27 axios-logout(html、javascript)

先上html的部分,logout则是把Local Storage清掉 再来是javascript的部...

Build OpenWRT於Raspberry Pi4

前言 先说这是新手纪录流程,最近想研究一下树莓派当作开发板的使用情境。 於是开始了这个纪录文章,想说...

创业经营(二)软件版本控管

软件版本周期:是电脑软件的发展及发行过程,从 Pre-alpha(准预览版本)发展到 Alpha(预...