接下来要来让我们认识超级超级厉害、号称学得好带你上天堂的Pandas~~~
首先,呼叫我们这次要使用的套件:
import pandas as pd
完成後,让我们来一起认识在Pandas里的资料形式!
在Pandas总共有分为一维的Series和二维的DataFrame资料形式,可以把它想像成Excel的一行和一个表。在这次的例子中,Series利用串列(list)作为基底来建立,DataFrame则是用字典(Dictionary)的容器形式来建立:
data = pd.Series([1,2,3,4,5])
dic = {'color':['red','blue','yellow'],
'number':[2,4,6,8,10],
'language':['Chinese','English','Japanese']}
df = pd.DataFrame(dic)
针对Series我们还可以有以下数值运算的操作方法:
max()
:最大值min()
:最小值sum()
:总和mean()
:平均数另外,当你在创建Series时,它已经预设好index供你查询,就像是你在Excel表里面输入资料时,右边的数字就是预设的索引值。
当然!如果不想要用预设值,也可以自己定义index,如下:
data = pd.Series([1,2,3,4,5]),index = ['a','b','c','d','e']
想要查看Series的索引和数值也很简单:
data.index #查看索引
data.value #查看数值
基本上我们在做资料分析时,时常使用的是DataFrame,而我们需要运用Pandas来读取各种档案,并以DataFrame的形式进行後续的操作。
比方说要读取一个csv档,你可以这样写:
df = pd.read_csv('档案名')
也可以是json或是html的形式,只要改成read_json
或是read_html
即可。
在我们读取档案後,可以先看看资料的前几行有怎麽样的内容,这是侯我们会用下面的函数:
head()
查看资料前段,()
内可以指定行数。tail()
查看资料後段,()
内可以指定行数。此外,我们也会检视这个档案整体的资料概况:
info()
查看栏位名称、栏位数、资料型态等。describe()
简单的描述性统计:最大值、最小值、平均值、中位数等。检查完上述的资讯後,还有一个重要的事情是察看这份档案中是否有缺失值存在,针对缺失值的检查和处理:
isnull()
判断是否为缺失值fillna()
填充缺失值,()
放填充的值dropna()
直接删除所有的缺失值最後,当整理完资料後,不要忘记将这份档案输出存档:
df.to_csv('新建档案名')
明天将继续深入Pandas的应用,假如我们想要针对整理好的资料进行筛选、修改和整理,要怎麽做呢?
参考资料:
https://blog.techbridge.cc/2020/09/21/python-pandas-zen-tutorial/
https://oranwind.org/python-pandas-ji-chu-jiao-xue/
https://www.learncodewithmike.com/2020/11/python-pandas-dataframe-tutorial.html
<<: Log Agent - Fluent Bit Parser元件
这篇是我看这篇的纪录 Building Lists and Navigation,我感觉学习曲线不算...
先前不太会用markdown跟这系统上的工具,所以一直都没有玩图文来解说内容,仅有一开始使用,但看来...
前言 昨天看了落落长的一大串~看得目睛花花 怎麽感觉他没有一开始的grid-template-are...
今天要介绍透过CDN连结的方式快速运用react,简单建立一个react component。 CD...
在 Day 2 时,我们有与大家分享并安装 Proxmox VE 虚拟化管理平台。 那今天,我们要...