Day11- pandas(6)DataFrame有效率的检视资料方法

往往我们在拿到一份资料时,数据都是很大很恐怖的
而且我们并无足够的时间将每个数值好好得看过一遍
pandas提供了许多方法穰我们能有效率的做资料探勘
我会使用Kaggle Titanic的资料来做操作示范
先不要在意各这资料集里各栏位代表什麽意思
我只是要示范检视资料的方法

先读取资料
https://ithelp.ithome.com.tw/upload/images/20210826/20140416CcBhbl2889.png

DataFrame.head方法
显示前五笔资料,可在後方括号填入数字,来改变想显示的资料个数,预设是5

data.head()

https://ithelp.ithome.com.tw/upload/images/20210826/20140416YxbRR0wheF.png

DataFrame.info方法
可获得各栏位名称、有无空值、各栏位资料型态的资讯
https://ithelp.ithome.com.tw/upload/images/20210826/201404166nHP2AIAD3.png

DataFrame.describe方法
count资料个数、mean、std、min、max、第一四分位数、第二四分位数(也就是中位数)、第三四分位数
https://ithelp.ithome.com.tw/upload/images/20210826/20140416ZRHCT17kFp.png

DataFrame.value_counts方法
计算各值的数量 我选择此资料集的Sex栏位做示范
值为male的个数为577、值为female的个数为314
表示男生577人 女生314人
https://ithelp.ithome.com.tw/upload/images/20210826/20140416Eackl0gxUH.png

unique方法
输出栏位不重复值
https://ithelp.ithome.com.tw/upload/images/20210826/20140416fU7eMfYcNG.png
表示Pclass此栏位只有三种值 1、2、3

送上colab连结,可自行在上面多做点练习更加熟悉pandas
https://colab.research.google.com/drive/1aDfwgh0P6tC07uy3usfzsFzUv2f4wZsy?usp=sharing

Titanic资料下载
https://www.kaggle.com/c/titanic/overview


<<:  Day5 Game Frontend

>>:  使用 XmlPullParser (三)

[NestJS 带你飞!] DAY26 - Swagger (上)

如果你是一名前端工程师,那麽你应该会有跟後端要 API 文件的经验,如果你是一名後端工程师,那你应该...

Rails Migration 可用的方法

在上述change方法里,我们有以下方法可以使用: 对资料表做修改: create_table(na...

Day 30 - 完赛啦!! 做个总结

睽违两年的完赛!!! 经过这两年真的感受到时间跟工作的压力,比起两年前待业中可以好好撰写文章的自己,...

[DAY 29] RVIZ点云显现还有视觉化成果

前言 随着时间的流逝,铁人赛也来到尾声,在经历过安装、架构教学、汇入模型、打开世界、写入执行档後,我...

Day10 NiFi - Templates, Labels & Funnel

今天我们要讲的东西有点多,要一次讲三个,分别是 Templates, Labels & Fu...