Day25-Kaggle Titanic迈进前5% part(2)

延续昨天的介绍
我们已经处理、介绍过的栏位有:PassengerId、Survived、Name、Pclass、Sex、Age

SibSp栏位:
此栏位表示兄弟姐妹或配偶的数量
先观察各值的数量
SibSp等於0的资料占据大多数,SibSp等於1的资料有200左右,其余都很少
https://ithelp.ithome.com.tw/upload/images/20210906/201404169yS4WkSbXI.png

观察SibSp与Survived的关系
我们发现SibSp在等於1、2时生存率比较高,SibSp等於0时生存率还好
SibSp大於2时生存率都变低
https://ithelp.ithome.com.tw/upload/images/20210906/20140416ouIp5o7fpx.png

根据以上两个视觉化观察结果
我决定将SibSp等於1、2为一个特徵,将其值设为1
SibSp大於2为一个特徵,将其值设为2
SibSp等於0为一个特徵,将其值设为0
https://ithelp.ithome.com.tw/upload/images/20210906/20140416yyfGC7uf1t.png

Parch栏位:
此栏位表示父母或孩子的数量
查看各值的数量
https://ithelp.ithome.com.tw/upload/images/20210906/20140416GEFdLDukUg.png

观察Parch与Survived的关系
https://ithelp.ithome.com.tw/upload/images/20210906/20140416us3wHWYUeU.png

我们可以发现Parch等於0的值占了非常多数,其次是1、2
其余的少得可怜
所以我们藉由cut方法重新分组来视觉化
与qcut不一样的是,是藉由自己输入的区间来分组,而qcut是依照资料比例来分组
cut使用方法前面传入栏位,後面传入想分成的区间,以我传入的区间来说明
分成了(-1,0 ] , (0,3 ] , (3,9 ]
https://ithelp.ithome.com.tw/upload/images/20210906/20140416dnTQ87SSGg.png
https://ithelp.ithome.com.tw/upload/images/20210906/20140416GqzaH27V4V.png

之後观察与Survived的关系
https://ithelp.ithome.com.tw/upload/images/20210906/20140416IR5gDkUezw.png

根据此区间的观察结果
我将(-1,0 ]区间设为1,(0,3 ]区间设为2,(3,9 ]区间设为4
(-1,0 ]区间与(0,3 ]区间的资料数还算多,且对照Survived有不同的结果,所以把此两个设为特徵
(3,9 ]的资料数太少,所以另外设成一个特徵
https://ithelp.ithome.com.tw/upload/images/20210906/201404169Ta7iTocPt.png

Ticket:栏位
此栏位为船票编号,这个栏位我不考虑使用

Fare栏位:
此栏位表示个乘客的票价,因为连续性资料,使用长条图视觉化,并依据有无生存显示不同颜色
https://ithelp.ithome.com.tw/upload/images/20210906/20140416GyhZhKSSqm.png

根据观察结果,我设成了三种区间(-1,15 ],(15,50 ],(50,1000 ]
https://ithelp.ithome.com.tw/upload/images/20210906/20140416i3sq18pwn7.png

可看出此三种区间对於Survived的关系能呈现监别度
https://ithelp.ithome.com.tw/upload/images/20210906/201404167d7IZ0XvfQ.png

(-1,15 ]区间设为1,(15,50 ]区间设为2,其余设为3
https://ithelp.ithome.com.tw/upload/images/20210906/20140416nXCsrWSNYN.png

从total_data.info()可看出Fare资料有一个缺失值,我使用fillna补充缺失值
我以1来补充缺失值,因为1为众数
https://ithelp.ithome.com.tw/upload/images/20210906/20140416dcMiSGLti4.png

Cabin栏位:
此栏位为船舱号码,超级多缺失直,这个栏位我不考虑使用

Embarked栏位:
此栏位表示登船的位置,从total_data.info()可看出有2个缺失值,其值有S、C、Q三种
https://ithelp.ithome.com.tw/upload/images/20210906/20140416XYYVdYls84.png

观察资料个数
https://ithelp.ithome.com.tw/upload/images/20210906/20140416dGxAKpgGQm.png

观察Embarked与Survived的关系
https://ithelp.ithome.com.tw/upload/images/20210906/20140416lkcYMZU3gO.png

缺失值以S来补充,因为S为众数
https://ithelp.ithome.com.tw/upload/images/20210906/20140416vitIJiNQAd.png

把此栏位做labelencoder转成数字,才能拿去train
https://ithelp.ithome.com.tw/upload/images/20210906/20140416bLe4NoJC2r.png

终於把全部栏位处理好了,所以说阿~资料前处理真是麻烦的工作,网路上许多文章都显示,大部分资料科学家在训练模型时8成的时间都在资料前处理,只花2成的时间在训练model、调整参数

这里先放上整个资料处理及训练过程
https://colab.research.google.com/drive/1l--rkdk0sCxrEAGyETSxFCMrJmS147tX?usp=sharing


<<:  Day27 - 轻前端 Component - jQuery UI DatePicker

>>:  # Day12--我们用协定说好要这样做了,你一定得OK!

Days11

奇书共赏第十天,可惜蚂蚁书已经不再更新不然许多地方讲得很不错,但现在已经不是1980年而是2020年...

Flutter基础介绍与实作-Day7 Hello Flutter(1)

我们今天终於要进到Flutter的世界,大家应该都准备好了吧!还没安装完成的小夥伴也不要紧张,可以参...

Day 21 UICollectionView的练习(1/2)

今天我们使用XIB来练习CollectionView,还不知道XIB怎麽使用的,可以看这边: 连结 ...

[Day 7] 非监督式学习-降维

非监督式学习-降维 今日学习目标 降维观念 何谓降维? 降维有什麽优点? 常见两种降维方法 PCA ...

最大可容忍停机时间 (MTD)

最长可容忍停机时间或 MTD 指定了在组织的生存面临风险之前给定业务流程可能无法运行的最长时间。” ...