千家信息网

从Excel到Python最常用的Pandas函数有哪些

发表于:2025-02-04 作者:千家信息网编辑
千家信息网最后更新 2025年02月04日,从Excel到Python最常用的Pandas函数有哪些,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。生成数据表常见的生成数据表的方法有
千家信息网最后更新 2025年02月04日从Excel到Python最常用的Pandas函数有哪些

从Excel到Python最常用的Pandas函数有哪些,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。

生成数据表

常见的生成数据表的方法有两种,第一种是导入外部数据,第二种是直接写入数据。Excel中的"文件"菜单中提供了获取外部数据的功能,支持数据库和文本文件和页面的多种数据源导入。


Python支持从多种类型的数据导入。在开始使用Python进行数据
导入前需要先导入pandas库,为了方便起见,我们也同时导入numpy
库.

import numpy as npimport pandas as pd

导入外部数据

df=pd.DataFrame(pd.read_csv('name.csv',header=1))df=pd.DataFrame(pd.read_Excel('name.xlsx'))c

里面有很多可选参数设置,例如列名称、索引列、数据格式等

直接写入数据

df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],"date":pd.date_range('20130102', periods=6),"city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],"age":[23,44,54,32,34,32],"category":['100-A','100-B','110-A','110-C','210-A','130-F'],"price":[1200,np.nan,2133,5433,np.nan,4432]},columns =['id','date','city','category','age','price'])

数据表检查

数据表检查的目的是了解数据表的整体情况,获得数据表的关键信息、数据的概况,例如整个数据表的大小、所占空间、数据格式、是否有
空值和重复项和具体的数据内容,为后面的清洗和预处理做好准备。

1.数据维度(行列)

Excel中可以通过CTRL+向下的光标键,和CTRL+向右的光标键
来查看行号和列号。Python中使用shape函数来查看数据表的维度,也就是行数和列数。

df.shape

2.数据表信息

使用info函数查看数据表的整体信息,包括数据维度、列名称、数据格式和所占空间等信息。
#数据表信息

df.info()RangeIndex: 6 entries, 0 to 5Data columns (total 6 columns):id 6 non-null int64date 6 non-null datetime64[ns]city 6 non-null objectcategory 6 non-null objectage 6 non-null int64price 4 non-null float64dtypes: datetime64[ns](1), float64(1), int64(2), object(2)memory usage: 368.0+ bytes

3.查看数据格式

Excel中通过选中单元格并查看开始菜单中的数值类型来判断数
据的格式。Python中使用dtypes函数来返回数据格式。


Dtypes是一个查看数据格式的函数,可以一次性查看数据表中所
有数据的格式,也可以指定一列来单独查看

#查看数据表各列格式df.dtypesid int64date datetime64[ns]city objectcategory objectage int64price float64dtype: object#查看单列格式df['B'].dtypedtype('int64')

4.查看空值

Excel中查看空值的方法是使用"定位条件"在"开始"目录下的"查找和选择"目录.


Isnull是Python中检验空值的函数

#检查数据空值df.isnull()

#检查特定列空值df['price'].isnull()


5.查看唯一值

Excel中查看唯一值的方法是使用"条件格式"对唯一值进行颜色
标记。

Python中使用unique函数查看唯一值。

#查看city列中的唯一值df['city'].unique()array(['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '], dtype=object)

6.查看数据表数值

Python中的Values函数用来查看数据表中的数值

#查看数据表的值df.values


7.查看列名称

Colums函数用来单独查看数据表中的列名称。

#查看列名称df.columnsIndex(['id', 'date', 'city', 'category', 'age', 'price'], dtype='object')

8.查看前10行数据

Head函数用来查看数据表中的前N行数据

#查看前3行数据df.head(3)

9.查看后10行数据

Tail行数与head函数相反,用来查看数据表中后N行的数据

#查看最后3行df.tail(3)

数据表清洗

本次的Python学习教程介绍对数据表中的问题进行清洗,包括对空值、大小写问题、数据格式和重复值的处理。

1.处理空值(删除或填充)

Excel中可以通过"查找和替换"功能对空值进行处理


Python中处理空值的方法比较灵活,可以使用 Dropna函数用来删除数据表中包含空值的数据,也可以使用fillna函数对空值进行填充。

#删除数据表中含有空值的行df.dropna(how='any')


也可以使用数字对空值进行填充

#使用数字0填充数据表中空值df.fillna(value=0)

使用price列的均值来填充NA字段,同样使用fillna函数,在要填充的数值中使用mean函数先计算price列当前的均值,然后使用这个均值对NA进行填充。

#使用price均值对NA进行填充df['price'].fillna(df['price'].mean())Out[8]: 0 1200.01 3299.52 2133.03 5433.04 3299.55 4432.0Name: price, dtype: float64

2.清理空格

字符中的空格也是数据清洗中一个常见的问题

#清除city字段中的字符空格df['city']=df['city'].map(str.strip)

3.大小写转换

在英文字段中,字母的大小写不统一也是一个常见的问题。
Excel中有UPPER,LOWER等函数,Python中也有同名函数用来解决
大小写的问题。

#city列大小写转换df['city']=df['city'].str.lower()

4.更改数据格式

Excel中通过"设置单元格格式"功能可以修改数据格式。

Python中通过astype函数用来修改数据格式。

#更改数据格式df['price'].astype('int')0 12001 32992 21333 54334 32995 4432Name: price, dtype: int32

5.更改列名称

Rename是更改列名称的函数,我们将来数据表中的category列更改为category-size。

#更改列名称df.rename(columns={'category': 'category-size'})


6.删除重复值

Excel的数据目录下有"删除重复项"的功能


Python中使用drop_duplicates函数删除重复值

df['city']0 beijing1 sh2 guangzhou3 shenzhen4 shanghai5 beijingName: city, dtype: object

city列中beijing存在重复,分别在第一位和最后一位
drop_duplicates()函数删除重复值

#删除后出现的重复值df['city'].drop_duplicates()0 beijing1 sh2 guangzhou3 shenzhen4 shanghaiName: city, dtype: object

设置keep='last''参数后,与之前删除重复值的结果相反,第一位
出现的beijing被删除

#删除先出现的重复值df['city'].drop_duplicates(keep='last')1 sh2 guangzhou3 shenzhen4 shanghai5 beijingName: city, dtype: objec

7.数值修改及替换

Excel中使用"查找和替换"功能就可以实现数值的替换


Python中使用replace函数实现数据替换

附#数据替换df['city'].replace('sh', 'shanghai')0 beijing1 shanghai2 guangzhou3 shenzhen4 shanghai5 beijingName: city, d

看完上述内容,你们掌握从Excel到Python最常用的Pandas函数有哪些的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注行业资讯频道,感谢各位的阅读!

数据 数据表 函数 格式 名称 问题 大小 数值 方法 信息 功能 均值 处理 检查 清洗 内容 字段 常见 目录 空格 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 计算机网络技术的知识 软件开发状态分类 泽思网络安全科技馆 哪些企业会用同方知网数据库 网络安全教育有哪些主题班会 查询数据库地址 网络安全锦标赛 为什么中文版的数据库 外国软件开发深圳有限公司 翻页时钟软件开发 中国网络安全十强星网 游戏几百个服务器是如何管理的 大型数据库应用课程设计摘要 软件开发工程师日语怎么说 魔兽世界数据库俄语修改 dell270服务器u盘安装 四川惠普服务器维修哪家便宜 原神不同服务器什么时候可以联机 政数局是否涉及网络安全 梦想世界服务器多久更新一次 冬奥会广播电视网络安全播出工作 网络技术安全学科评估 网络安全标准体系的意义 网络安全对新疆的影响 中国期刊全文数据库是什么 数媒专业也有软件开发吗 翻页时钟软件开发 农业部信息中心软件开发处 设备维护转行软件开发 网络安全知识手抄报语言
0