大数据处理的3 个小技巧分别是什么
发表于:2025-02-07 作者:千家信息网编辑
千家信息网最后更新 2025年02月07日,今天就跟大家聊聊有关大数据处理的3 个小技巧分别是什么,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。数据处理无所不在,掌握常用技巧,事半功倍。
千家信息网最后更新 2025年02月07日大数据处理的3 个小技巧分别是什么![](https://www.aqdb.cn/uploadfile/9c/6ef0de73.jpg)
今天就跟大家聊聊有关大数据处理的3 个小技巧分别是什么,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。
数据处理无所不在,掌握常用技巧,事半功倍。
此系列使用 Pandas 开展数据处理分析,总结其中常用、好用的数据分析技巧。
我使用的 Pandas 版本如下,顺便也导入 Pandas 库。
>>> import pandas as pd
>>> pd.__version__
'0.25.1'
今天使用的数据集名称:IMDB-Movie-Data,取自 Kaggle,百度网盘下载链接如下:
链接: https://pan.baidu.com/s/15u7Hf2y5dSFwek2vA1-zjg 提取码: bvfx
在开始前先确保解释器和数据集在同一目录下:
>>> import os
>>> os.chdir('D://source/dataset') # 这是我的数据集所在目录
>>> os.listdir() # 确认此目录已经存在 IMDB-Movie-Data 数据集
['drinksbycountry.csv', 'IMDB-Movie-Data.csv', 'movietweetings', 'titanic_eda_data.csv', 'titanic_train_data.csv']
准备工作就位后,正式开始数据处理技巧之旅。
1 Pandas 移除某列
导入数据
>>> df = pd.read_csv("IMDB-Movie-Data.csv")
>>> df.head(1) # 导入并显示第一行
Rank Title Genre ... Votes Revenue (Millions) Metascore
0 1 Guardians of the Galaxy Action,Adventure,Sci-Fi ... 757074 333.13 76.0
[1 rows x 12 columns]
使用 pop 方法移除指定列:
>>> meta = df.pop("Title").to_frame() # 移除 Title 列
确认是否已被移除:
>>> df.head(1) # df 变为 11列
Rank Genre ... Revenue (Millions) Metascore
0 1 Action,Adventure,Sci-Fi ... 333.13 76.0
[1 rows x 11 columns]
2 统计标题单词数
pop 后得到 meta,显示 meta 前 3 行:
>>> meta.head(3)
Title
0 Guardians of the Galaxy
1 Prometheus
2 Split
标题是由单词组成,中间用空格分隔。
# .str.count(" ") + 1 得到单词个数
>>> meta["words_count"] = meta["Title"].str.count(" ") + 1
>>> meta.head(3) # words_count 列代表单词个数
Title words_count
0 Guardians of the Galaxy 4
1 Prometheus 1
2 Split 1
3 Genre 频次统计
下面统计电影 Genre 的频次,
>>> vc = df["Genre"].value_counts()
下面显示电影 Genre 的 Top5 ,最高频为出现 50 次的 Action,Adventure,Sci-Fi 类,次之为 48 次的 Drama 类:
>>> vc.head()
Action,Adventure,Sci-Fi 50
Drama 48
Comedy,Drama,Romance 35
Comedy 32
Drama,Romance 31
Name: Genre, dtype: int64
展示 Top5 的饼状图:
>>> import matplotlib.pyplot as plt
>>> vc[:5].plot(kind='pie')
>>> plt.show()
![](https://www.aqdb.cn/uploadfile/9c/6ef0de73.jpg)
看完上述内容,你们对大数据处理的3 个小技巧分别是什么有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注行业资讯频道,感谢大家的支持。
数据
技巧
数据处理
处理
单词
内容
目录
统计
个数
常用
标题
电影
链接
频次
分析
事半功倍
无所不在
一行
之旅
代表
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
广东移动城管软件开发
数据库主要指标
数据库cast
网络安全智慧化
网络技术的专科
我的世界怎么给服务器起英文名
软件开发与电子科技哪个好就业
软件开发设计协议范本
数据库怎么查某个字段在哪张表
学校网络安全学习方案
北京网络安全形势
数据库备份bak文件还原失败
手机软件开发和编程哪个更好
网络技术安全是什么意思
河南心意互联网科技有限公司
软件开发类项目自检报告书
嵌入式软件开发证明
哈尔滨软件开发薪资
ip网络技术实操题
青岛联创工场网络技术
唐山中小学校园网络安全
怎么查数据库资源使用情况
数据库 combo 列表
ni opc数据库
数据库建表流水号
普及金融网络安全知识
阿里软件中国网络技术有限公司
联想服务器 增加硬盘
华为数据库认证和达梦数据库认证
nms服务器