导航：首页 > 互联网科技 >

如何使用pandas解决常见的预处理任务

发表于：2024-11-23 作者：千家信息网编辑

千家信息网最后更新 2024年11月23日，这篇文章主要为大家展示了"如何使用pandas解决常见的预处理任务"，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下"如何使用pandas解决常见的预处理任务"

千家信息网最后更新 2024年11月23日如何使用pandas解决常见的预处理任务

这篇文章主要为大家展示了"如何使用pandas解决常见的预处理任务"，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下"如何使用pandas解决常见的预处理任务"这篇文章吧。

数据预处理常用的处理步骤，包括找出异常值、处理缺失值、过滤不合适值、去掉重复行、分箱、分组、排名、category转数值等，下面使用 pandas 解决这些最常见的预处理任务。

找出异常值常用两种方法：

标准差法：异常值平均值上下1.96个标准差区间以外的值
分位数法：小于 1/4分位数减去 1/4和3/4分位数差的1.5倍，大于3/4减去 1/4和3/4分位数差的1.5倍，都为异常值

技能1 ：标准差法

import pandas as pd  df = pd.DataFrame({'a':[1,3,np.nan],'b':[4,np.nan,np.nan]})  # 异常值平均值上下1.96个标准差区间以外的值 meangrade = df['a'].mean() stdgrade = df['a'].std() toprange = meangrade + stdgrade * 1.96 botrange = meangrade - stdgrade * 1.96  # 过滤区间外的值 copydf = df copydfcopydf = copydf.drop(copydf[copydf['a']         > toprange].index) copydfcopydf = copydf.drop(copydf[copydf['a']         < botrange].index) copydf

技能2：分位数法

q1 = df['a'].quantile(.25) q3 = df['a'].quantile(.75) iqr = q3-q1 toprange = q3 + iqr * 1.5 botrange = q1 - iqr * 1.5  copydf = df copydfcopydf = copydf.drop(copydf[copydf['a']         > toprange].index) copydfcopydf = copydf.drop(copydf[copydf['a']         < botrange].index) copydf

技能3：处理空值

np.nan 是 pandas 中常见空值，使用 dropna 过滤空值，axis 0 表示按照行，1 表示按列，how 默认为 any ，意思是只要有一个 nan 就过滤某行或某列，all 所有都为 nan

# axis 0 表示按照行，all 此行所有值都为 nan df.dropna(axis=0, how='all')

技能4：充填空值

空值一般使用某个统计值填充，如平均数、众数、中位数等，使用函数 fillna：

# 使用a列平均数填充列的空值，inplace true表示就地填充 df["a"].fillna(df["a"].mean(), inplace=True)

技能5：修复不合适值

假如某门课最高分100，如果出现 -2， 120 这样的值，显然不合理，使用布尔类型的Series对象修改数值：

df.loc[(df['a'] < -2,'a')] = 0 df.loc[(df['a'] >= 100,'a')] = 100

技能6：过滤重复值

过滤某列重复值，使用 drop_duplicated 方法，第一个参数为列名，keep关键字等于last：最后一次出现此值行：

df.drop_duplicates(['Names'], keep='last')

技能7：apply 元素级：去掉特殊字符

某列单元格含有特殊字符，如标点符号，使用元素级操作方法 apply 干掉它们：

import string exclude = set(string.punctuation)  def remove_punctuation(x):     x = ''.join(ch for ch in x if ch not in exclude)     return x # 原df Out[26]:        a       b 0   c,d  edc.rc 1     3       3 2  d ef       4  # 过滤a列标点 In [27]: dfdf.a = df.a.apply(remove_punctuation)  In [28]: df                 Out[28]:        a       b 0    cd  edc.rc 1     3       3 2  d ef       4

技能8：cut 数据分箱

将百分制分数转为A,B,C,D四个等级，bins 被分为 [0,60,75,90,100]，labels 等于['D', 'C', 'B', 'A']：

# 生成20个[0,100]的随机整数 In [30]: a = np.random.randint(1,100,20)                    In [31]: a                                     Out[31]:  array([48, 22, 46, 84, 13, 52, 36, 35, 27, 99, 31, 37, 15, 31,  5, 46, 98,99, 60, 43])  # cut分箱 In [33]: pd.cut(a, [0,60,75,90,100], labels = ['D', 'C', 'B', 'A'])              Out[33]:  [D, D, D, B, D, ..., D, A, A, D, D] Length: 20 Categories (4, object): [D < C < B < A]

技能9：rank 排名

rank 方法，生成数值排名，ascending 为False，分值越大，排名越靠前：

In [36]: df = pd.DataFrame({'a':[46, 98,99, 60, 43]} ))  In [53]: df['a'].rank(ascending=False)                    Out[53]:  0    4.0 1    2.0 2    1.0 3    3.0 4    5.0

技能10：category列转数值

某列取值只可能为有限个枚举值，往往需要转为数值，使用get_dummies，或自己定义函数：

pd.get_dummies(df['a'])

自定义函数，结合 apply:

def c2n(x):     if x=='A':         return 95     if x=='B':         return 80  df['a'].apply(c2n)

以上结合数据预处理的十个小任务，分别找到对应pandas中的实现。

以上是"如何使用pandas解决常见的预处理任务"这篇文章的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注行业资讯频道！

很赞哦！

技能预处理任务常见位数数值方法标准内容函数区间数据篇文章处理特殊上下元素字符常用平均值数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全福建统一软件开发服务以客为尊软件开发项目管理培训课程网络安全工作职责划分 dns服务器存在的安全缺陷调用接口成功后保存到数据库失败反邪教网络安全主题班会教案 P2P网络软件开发基础数据库安全检查系统地产研究数据库斗地主手游软件开发 it网络技术分享课件紫天科技互联网广告收入排行方舟手游联机有几种服务器北京ios软件开发设计 email服务器上海系统软件开发哪家实惠包头网络技术人才培训如何加强基础设施网络安全严格落实网络安全规定网络安全检讨书服务器系统检查内容财务软件开发用什么云计算平台可以整合多个服务器吗 pc服务器的外形有哪几种数据库导入云虚拟主机干嘛绿盟网络安全考试阿里云网络技术白皮书南京网络安全公司要招聘人才吗数据库ebs是什么网络安全法检察机关

千家信息网

千家信息网

如何使用pandas解决常见的预处理任务

JWT的单点登陆SSO开发及原理是什么

为什么不用Else语句写代码

相关文章