前两天我们稍微说明了一下对於看待资料的一些基本观念
那今天就来开始实际对资料做一些操作吧
环境需求:
- python程序环境
程度需求:
- 对python有基本认知
- 有使用过Excel或其他试算表软件
这边我们将会使用pandas套件来进行处理
而这里的pandas其实是panel data的缩写的意思
基本上可以想像成是python界中的Excel(但可以做到的事情更多)
import pandas as pd # 使用pandas套件来处理表格
df = pd.read_excel("sample.xlsx") # 读取档案到资料框(DataFrame)里面
df
场景:
小美表示今天早上她量的体重明明只有49.9,为什麽可以写50.1呢
那我们要怎麽修改呢?
如果是在Excel上的话,当然就是滑鼠移过修改就好了
那在python里面要怎麽选择呢?
df.iloc
数位置就像是国中时候教过的二维座标的表示方式,即(第几row,第几col)
以这边场景的例子,我们需要找到(1,3)
的资料,因此这样即可找到我们要的资料
df.iloc[1,3] # 使用位置来选择
# 50.1
补充说明:
台湾和中国对於行和列的定义是相反的
因此如果在Google到相关的资料的时候记得自己转换一下
- row:台湾为列,中国为行
- col:台湾为行,中国为列
造成这样差异的原因是最早的中文书写方式都是直式
而书写的方向自然就定义为行
但後来文字受到西方文化的影响逐渐改为横式为主流
此时中国的做法是另新的文字方向为行
而台湾的做法则是沿用原本的方向当作行,但更改文字方向
因此就造成了两边用法的差异
笔者自己是为了避免混淆,都尽量用column
,row
来描述
df.loc
给名称就像是Excel里面可以用D3
来选择这一格
我们也可以用名称的方式来选择,即(哪个row,哪个col)
df.loc[1,"体重"] # 使用名称来选择
# 50.1
那有了上面的找到对应的位置之後,要修改就不是什麽问题了
# 方法1
df.iloc[1,3] = 49.9
# 方法2
df.loc[1,"体重"] = 49.9
# 检查一下
df
sum(df["身高"])/len(df) # 平均身高
sum(df["体重"])/len(df) # 平均体重
这边我们想要计算一下大家的BMI,根据BMI = 身高 / 体重^2
df["BMI"] = df["体重"] / (df["身高"]/100)**2 # 计算BMI
df["BMI"]
今天很基本的讲解了一下要如何用pandas在表格中选取资料
虽然很基本但却是很容易搞混iloc
和loc
两个用法的地方
因此使用的时候要稍微注意一下哦> <
<<: [Day 13] 非同步的操作资料库?谈 suspendedTransactionAsync
环境与工具 Windows 10 21H1 Process Explorer v16.32 Visu...
今天,我们先来看看阶乘要怎麽写~ 我的程序码长这样: #include<stdio.h>...
现在再加上一点音效做装饰,先给一个背景音乐,直接在Hierarchy按右键开启Audio->A...
第一篇我要来介绍程序设计一些基本的知识,首先跟大家报备,我使用的平台是JAVA开发者常使用的ecpl...
请先安装Postman 今天完成整个CRUD,简单介绍操作Postman。 接续昨天文章 9.修改r...