往往我们在拿到一份资料时,数据都是很大很恐怖的
而且我们并无足够的时间将每个数值好好得看过一遍
pandas提供了许多方法穰我们能有效率的做资料探勘
我会使用Kaggle Titanic的资料来做操作示范
先不要在意各这资料集里各栏位代表什麽意思
我只是要示范检视资料的方法
先读取资料
DataFrame.head方法
显示前五笔资料,可在後方括号填入数字,来改变想显示的资料个数,预设是5
data.head()
DataFrame.info方法
可获得各栏位名称、有无空值、各栏位资料型态的资讯
DataFrame.describe方法
count资料个数、mean、std、min、max、第一四分位数、第二四分位数(也就是中位数)、第三四分位数
DataFrame.value_counts方法
计算各值的数量 我选择此资料集的Sex栏位做示范
值为male的个数为577、值为female的个数为314
表示男生577人 女生314人
unique方法
输出栏位不重复值
表示Pclass此栏位只有三种值 1、2、3
送上colab连结,可自行在上面多做点练习更加熟悉pandas
https://colab.research.google.com/drive/1aDfwgh0P6tC07uy3usfzsFzUv2f4wZsy?usp=sharing
Titanic资料下载
https://www.kaggle.com/c/titanic/overview
如果你是一名前端工程师,那麽你应该会有跟後端要 API 文件的经验,如果你是一名後端工程师,那你应该...
在上述change方法里,我们有以下方法可以使用: 对资料表做修改: create_table(na...
睽违两年的完赛!!! 经过这两年真的感受到时间跟工作的压力,比起两年前待业中可以好好撰写文章的自己,...
前言 随着时间的流逝,铁人赛也来到尾声,在经历过安装、架构教学、汇入模型、打开世界、写入执行档後,我...
今天我们要讲的东西有点多,要一次讲三个,分别是 Templates, Labels & Fu...