机器学习:Feature Engineering 课程学习总结

总结:通过对features进行归类和操作,让features更加符合traindata的需求;
1 feature和target的关系:特点是否重要,要看它和目标的关系,比如在一个綫性关系的模型中,它和target之间的关系应该是綫性的;lmplot是用来绘制回归图的,通过lmplot我们可以直观地总览数据的内在关系;
2 创建新的feature:两种方案:
数学转换:new feature = f(old features)
统计: new feature = count(old features boolean) 注:参数是feature的bool值
3 联合和拆分features:
拆分: 比如Dates and times: 'Mon Sep 30 07:06:05 2013',对於有一定格式的数据,可以拆分之後并取得一些咨询,例子拆分之後可以得到月份,时间等;
联合:对於有关联性的feature可以联合起来;
分组:"the average income of a person's state of residence," 这里就需要按照state来对收入进行分组;
4 Clustering With K-Means:用来分析数据的特性,是一种特点开发的技术;查看特点的离散分布;
5 Principal Component Analysis(PCA):Cluster是依据data的接近程度来分析feature的特性的,而PCA是根据数据的变化来芬妮下feature的特性的;两种用法:描述特点的技术和生成合成features;
可以用於:
处理冗余数据:当数据冗余严重的时候,可以用来把这些数据的影响减少到最小(冗余的意思是很多都一样 ,资讯的变化接近于0);
处理异常数据:当变化明显与原始features不同的时候,可以判断为异常数据;
减少噪音:调整信号和噪音的比例;
机器学习的算法难以处理高度相关的features,PCA可以把相关联的features转化成不相关的组合,这样就很容易处理了;

感想:创建新的feature可以让自己的traindata更有个体优势,加粗的部分都是我觉得很重要的部分;


<<:  我个人理解two's complement的方式

>>:  想知道目标客群喜欢什麽?何不从搜寻意图下手!

CSS微动画 - 先了解将使用的属性是很重要的!transform & transition

Q: 不会设计怎麽办? A: 小编也不会设计,但可以把别人的设计变成网页! 本篇开始将使用tran...

Router

路由架构 Breeze 已经架构好利用 inertia.js 取得 Login 等画面的路由,不过为...

[Day19]乖离率网格实作

首先先实作用乖离率(价格/均线)计算部位的部分,简单来说就是设定乖离率的上下限,还有上下限的部位大小...

CSS微动画 - 为什麽别人的按钮点起来比较有感觉?

Q: 为什麽别人的按钮点起来比较有感觉? A: 因为外国的月亮比较圆? 网页中常常会有很多可以点击...

[Day28] HTB Optimum

URL : https://app.hackthebox.eu/machines/6 IP : 1...