{DAY 23} Pandas 学习笔记part.9

前言

这篇文章想学习的主题是常见的资料分析函数

前一篇学到了利用groupby.()

搭配聚合函数进行资料的统计分析

像是最大值,最小值,中位数等等

但是pandas身为资料科学界强大的分析工具

本身就有设计好的函数可以快速有效的产出资料分析

当拿到一笔数据想要快速且概略地知道资料的性质或是描述性统计分析时

可以使用下面练习的几种常见用法

也会继续利用kaggle上的开源资料进行pandas练习

Kaggle: Your Machine Learning and Data Science Community

常见的资料分析函数

这里会继续沿用上一篇

从kaggle上找到的关於学生成绩的纪录

先把这笔资料列印部分出来

看看资料的架构长怎样

df.head()

  1. .head()

    前面已经用过很多次

    这个的功能是可以展示资料的前几行

    可以大致看过资料长怎样

    就如同上面那张图

    如果数据有数千数万笔

    想要全部显示出来会耗费大量时间

    所以使用.head()就会变得更有效率

  2. .info()

    先将学生资料放进去看看

    df.info()
    

可以看到栏位资讯,缺失值资讯跟资料的型态

下面还会显示占用的记忆体大小
  1. .columns

    要快速取得栏位名称可以使用这个

    df.columns
    

    如果在处理有很多栏位的数据

    或是想要快速找到有什麽栏位的时候

    可以利用.columns快速查找

  2. .describe()

    这个函数组合大多数的聚合函数

    像是平均数、标准差、百分位数等等的统计数据

    可以看到学生的各个科目成绩

    被描述性统计

    利用表格化的形式显示出来

  3. .sort_values()

    可以搭配下述参数

    • by: 想要排序的栏位,会自动依照从小到大的升幂排列
    • ascending (boolean, default False): 若是想要改变default的排序

    现在利用学生的成绩数据来练习排序

    df.sort_values(by="math score")
    

    可以看到所有的学生依照数学的成绩

    由低到高排序

    现在练习改变排序,让成绩是由高到低排

    只需要多加参数ascending=True

    df.sort_values(by="math score", ascending=True)
    

    整笔资料改变成由数学成绩由高到低排列

  4. .sort_index()

    排序也可以对索引进行排序

    也可以搭配参数

    • ascending(): 排序方式
    • inplace():是否取代资料原始值
  5. unique()

    这个是用来找到唯一值

    但要注意只能用在单个Series内,不能套用在一个以上或是整个dataframe

    使用後会回传该指定栏位内的所有唯一值

    现在利用学生的成绩资料

    假如想要找到该笔资料对於教育程度的分类有哪几种的时候

    df["parental level of education"].unique()
    

小结

这篇文章使用到的用法

在资料分析的过程中

通常是在汇入资料後会使用到的前几个步骤

会很常使用到

而且可以减少很多不必要的运算时间

但也经常会出现资料出现缺失值的情况

下一篇就会处理到缺失值

再进行资料分析前做好资料的清洗


<<:  Day 23 XIB跳转页面以及UIAlertController的练习(1/3)

>>:  Day 21 Spies 间谍来袭!

[Day 7]想不到有梗的标题LA(前端篇)

没有想到连假结束後的第一天就要冨樫了...,我工作的公司在新加坡,而我在台湾full remote,...

[Day 2] 到底该不该做作品集

相信这个问题应该困扰了很多菜鸡工程师 (包括我 如果你还在犹豫 作品集很重要吗?好麻烦,真的有需要做...

瀑布(Waterfall)& 敏捷(Agile)

-图片来源:gunther.verheyen 业务人员更了解监管要求和市场,因此IT和安全功能都应...

离职倒数9天:铺好轨道的人生

这几天都在屋久岛爬山。这里没网路才是常态,打开有网路简直像是惊喜。 每天都要找地方发铁人文,也是满特...

day14 : 前半段小结

参赛将近半个月,终於完成了我认为贴近infra的部分,这也是为什麽要做个小结的原因,大部分企业在使用...