数据清洗常用的2个小trick分别是什么
发表于:2025-02-13 作者:千家信息网编辑
千家信息网最后更新 2025年02月13日,今天就跟大家聊聊有关数据清洗常用的2个小trick分别是什么,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。Pandas 巧用 str.spli
千家信息网最后更新 2025年02月13日数据清洗常用的2个小trick分别是什么Pandas 巧用
![](https://www.aqdb.cn/uploadfile/21/8c925be4.jpg)
![](https://www.aqdb.cn/uploadfile/37/ffab2b3d.jpg)
今天就跟大家聊聊有关数据清洗常用的2个小trick分别是什么,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。
Pandas 巧用 str.split
和 str.cat
因为以上两个方法,直接按列操作,所以省掉一层 for 循环,下面直接看例子。
df = pd.DataFrame({'names':["Geordi La Forge", "Deanna Troi", "Jack"],'IDs':[1,2,3]})
df
![](https://www.aqdb.cn/uploadfile/21/8c925be4.jpg)
列分割
对 names
列,按照第一个空格分割为两列:
df["first_name"] = df["names"].str.split(n = 1).str[0]
df["last_name"] = df["names"].str.split(n = 1).str[1]
df
结果如下:
![](https://www.aqdb.cn/uploadfile/37/ffab2b3d.jpg)
列合并方法 1
分割列搞定,接下来再合并回去,使用 cat
方法:
df["names_copy"] = df["first_name"].str.cat(df["last_name"], sep = " ")
df
合并两列得到一个新列 names_copy
搞定!
列合并方法 2
还有别的合并方法吗,直接使用 +
连接字符串:
df["names_copy2"] = df["first_name"] + " "+ df["last_name"]
df
效果是一样的:
Pandas 多条件筛选可读性较好的写法
有特征上百个,根据多个特征筛选 DataFrame 时,如果这么做,可读性不太友好:
df[(df["continent"] == "Europe") & (df["beer_servings"] > 150) & (df["wine_servings"] > 50) & (df["spirit_servings"] < 60)]
连续多个筛选条件写到一行里。
更好可读性的写法
cr1 = df["continent"] == "Europe"
cr2 = df["beer_servings"] > 150
cr3 = df["wine_servings"] > 50
cr4 = df["spirit_servings"] < 60
df[cr1 & cr2 & cr3 & cr4]
看完上述内容,你们对数据清洗常用的2个小trick分别是什么有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注行业资讯频道,感谢大家的支持。
方法
内容
可读性
常用
数据
清洗
写法
多个
条件
特征
接下来
一行
两个
例子
字符
字符串
效果
更多
知识
空格
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
网络安全设备厂商产品
服务器404错误
软件开发如何项目管理
网络技术人员出差报告
raz离线软件开发
网络安全法的意义包括哪几种
软件开发绩效比工资高
网络安全走进校园资料
计算机网络技术入门好的书籍
人机与网络技术
网络技术第三方物流
2018年全国烟草网络安全
文明重启新开服务器怎么吸引玩家
什么是网络技术教学管理
软件开发商的工作内容
城阳浩海网络技术网络公司
购买网络安全配置
绍兴电子网络技术优势
服务器检测维修哪里专业
福安市数字办网络安全项目中标
怎样自己建价格数据库
微信扫码显示服务器未响应
开吧网络连接到服务器
网络安全法几次检测评估
数据库索引神经网络
网络安全军地两用
网络安全通讯报道题目
网络安全服务资质证书
网络安全日常防范技巧
服务器机房怎么使用