许多数据科学家认为获取和清理数据的初始步骤占工作的 80%,花费大量时间来清理数据集并将它们归结为可以使用的形式。
将利用 Python 的 Pandas和 NumPy 库来清理数据。
import pandas as pdimport numpy as np
DataFrame 列的删除
BL-Flickr-Images-Book.csv 数据操作。
df = pd.read_csv('数据科学必备Pandas、NumPy进行数据清洗/BL-Flickr-Images-Book.csv')df.head()
可以看到这些列是对 Edition Statement, Corporate Author, Corporate Contributors, Former owner, Engraver, Issuance type and Shelfmarks 没有任何信息帮助的,因此可以进行批量删除处理。
to_drop_column = [ 'Edition Statement', 'Corporate Author', 'Corporate Contributors', 'Former owner', 'Engraver', 'Contributors', 'Issuance type', 'Shelfmarks']df.drop(to_drop_column , inplace=True, axis=1)df.head()
DataFrame 索引更改
Pandas 索引扩展了 NumPy 数组的功能,以允许更通用的切片和标记。 在许多情况下,使用数据的唯一值标识字段作为其索引是有帮助的。
df = df.set_index('Identifier')df.head()
206 是索引的第一个标签,可以使用 df.iloc[0] 基于位置的索引访问。
DataFrame 数据字段整理
处理 Date of Publication 出版日期 列,发现该数据列格式并不统一。
df.loc[1905:, 'Date of Publication'].head(10)
Identifier1905 18881929 1839, 38-542836 18972854 18652956 1860-632957 18733017 18663131 18994598 18144884 1820Name: Date of Publication, dtype: object
extr = df['Date of Publication'].str.extract(r'^(\d{4})', expand=False)extr.head()Identifier206 1879216 1868218 1869472 1851480 1857Name: Date of Publication, dtype: object
df['Date of Publication'] = pd.to_numeric(extr)
str 方法与 NumPy 结合清理列
df[‘Date of Publication’].str 。 此属性是一种在 Pandas 中访问快速字符串操作的方法,这些操作在很大程度上模仿了对原生 Python 字符串或编译的正则表达式的操作,例如 .split()、.replace() 和 .capitalize()。
要清理 Place of Publication 字段,我们可以将 Pandas 的 str 方法与 NumPy 的 np.where 函数结合起来,该函数基本上是 Excel 的 IF() 宏的矢量化形式。
np.where(condition, then, else)
在这里 condition 要么是一个类似数组的对象,要么是一个布尔掩码。 then 是如果条件评估为 True 时使用的值,否则是要使用的值。
本质上 .where() 获取用于条件的对象中的每个元素,检查该特定元素在条件上下文中的计算结果是否为 True,并返回一个包含 then 或 else 的 ndarray,具体取决于哪个适用。可以嵌套在复合 if-then 语句中,允许根据多个条件计算值.
处理 Place of Publication 出版地 数据。
df['Place of Publication'].head(10)Identifier206 London216 London; Virtue & Yorston218 London472 London480 London481 London519 London667 pp. 40. G. Bryan & Co: Oxford, 1898874 London]1143 LondonName: Place of Publication, dtype: object
pub = df['Place of Publication']london = pub.str.contains('London')london[:5]Identifier206 True216 True218 True472 True480 TrueName: Place of Publication, dtype: bool
也可以使用 np.where 处理。
df['Place of Publication'] = np.where(london, 'London', pub.str.replace('-', ' ')))Identifier206 London216 London218 London472 London480 London ... 4158088 London4158128 Derby4159563 London4159587 Newcastle upon Tyne4160339 LondonName: Place of Publication, Length: 8287, dtype: object
apply 函数清理整个数据集
在某些情况下,将自定义函数应用于 DataFrame 的每个单元格或元素。 Pandas.apply() 方法类似于内置的 map() 函数,只是将函数应用于 DataFrame 中的所有元素。
例如将数据的发布日期进行处理成 xxxx 年的格式,就可以使用apply。
def clean_date(text): try: return str(int(text)) + "年" except: return textdf["new_date"] = df["Date of Publication"].apply(clean_date)df["new_date"] Identifier206 1879年216 1868年218 1869年472 1851年480 1857年 ... 4158088 1838年4158128 1831年4159563 NaN4159587 1834年4160339 1834年Name: new_date, Length: 8287, dtype: object
DataFrame 跳过行
olympics_df = pd.read_csv('数据科学必备Pandas、NumPy进行数据清洗/olympics.csv')olympics_df.head()
可以在读取数据时候添加参数跳过某些不要的行,比如索引 0 行。
olympics_df = pd.read_csv('数据科学必备Pandas、NumPy进行数据清洗/olympics.csv',header=1)olympics_df.head()
DataFrame 重命名列
new_names = {'Unnamed: 0': 'Country', '? Summer': 'Summer Olympics', '01 !': 'Gold', '02 !': 'Silver', '03 !': 'Bronze', '? Winter': 'Winter Olympics', '01 !.1': 'Gold.1', '02 !.1': 'Silver.1', '03 !.1': 'Bronze.1', '? Games': '# Games', '01 !.2': 'Gold.2', '02 !.2': 'Silver.2', '03 !.2': 'Bronze.2'}olympics_df.rename(columns=new_names, inplace=True)olympics_df.head()