认识强大的Python套件:Pandas(上)

接下来要来让我们认识超级超级厉害、号称学得好带你上天堂的Pandas~~~

首先,呼叫我们这次要使用的套件:

import pandas as pd

完成後,让我们来一起认识在Pandas里的资料形式!

Series和DataFrame

在Pandas总共有分为一维的Series和二维的DataFrame资料形式,可以把它想像成Excel的一行和一个表。在这次的例子中,Series利用串列(list)作为基底来建立,DataFrame则是用字典(Dictionary)的容器形式来建立:

data = pd.Series([1,2,3,4,5])

dic = {'color':['red','blue','yellow'],
       'number':[2,4,6,8,10],
       'language':['Chinese','English','Japanese']}
df = pd.DataFrame(dic)

针对Series我们还可以有以下数值运算的操作方法:

  • max():最大值
  • min():最小值
  • sum():总和
  • mean():平均数

另外,当你在创建Series时,它已经预设好index供你查询,就像是你在Excel表里面输入资料时,右边的数字就是预设的索引值。

当然!如果不想要用预设值,也可以自己定义index,如下:

data = pd.Series([1,2,3,4,5]),index = ['a','b','c','d','e']

想要查看Series的索引和数值也很简单:

data.index #查看索引
data.value #查看数值

资料检视

基本上我们在做资料分析时,时常使用的是DataFrame,而我们需要运用Pandas来读取各种档案,并以DataFrame的形式进行後续的操作。

比方说要读取一个csv档,你可以这样写:

df = pd.read_csv('档案名')

也可以是json或是html的形式,只要改成read_json或是read_html即可。

在我们读取档案後,可以先看看资料的前几行有怎麽样的内容,这是侯我们会用下面的函数:

  • head() 查看资料前段,()内可以指定行数。
  • tail() 查看资料後段,()内可以指定行数。

此外,我们也会检视这个档案整体的资料概况:

  • info() 查看栏位名称、栏位数、资料型态等。
  • describe() 简单的描述性统计:最大值、最小值、平均值、中位数等。

检查完上述的资讯後,还有一个重要的事情是察看这份档案中是否有缺失值存在,针对缺失值的检查和处理:

  • isnull() 判断是否为缺失值
  • fillna() 填充缺失值,()放填充的值
  • dropna() 直接删除所有的缺失值

最後,当整理完资料後,不要忘记将这份档案输出存档:

df.to_csv('新建档案名')

明天将继续深入Pandas的应用,假如我们想要针对整理好的资料进行筛选、修改和整理,要怎麽做呢?


参考资料:

https://blog.techbridge.cc/2020/09/21/python-pandas-zen-tutorial/

https://oranwind.org/python-pandas-ji-chu-jiao-xue/

https://www.learncodewithmike.com/2020/11/python-pandas-dataframe-tutorial.html


<<:  Log Agent - Fluent Bit Parser元件

>>:  [第28天]理财达人Mx. Ada-SMA 指标

[day 21 ] SwiftUI Essentials - Building Lists and Navigation

这篇是我看这篇的纪录 Building Lists and Navigation,我感觉学习曲线不算...

第六章 之四

先前不太会用markdown跟这系统上的工具,所以一直都没有玩图文来解说内容,仅有一开始使用,但看来...

【心得】你今天种菜了吗? grid之路-grid的使用(3)

前言 昨天看了落落长的一大串~看得目睛花花 怎麽感觉他没有一开始的grid-template-are...

Day4简单实例练习

今天要介绍透过CDN连结的方式快速运用react,简单建立一个react component。 CD...

Day 3 - 部署 Home Lab 网路 - 上

在 Day 2 时,我们有与大家分享并安装 Proxmox VE 虚拟化管理平台。 那今天,我们要...