大数据处理的3 个小技巧分别是什么
发表于:2024-09-22 作者:千家信息网编辑
千家信息网最后更新 2024年09月22日,今天就跟大家聊聊有关大数据处理的3 个小技巧分别是什么,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。数据处理无所不在,掌握常用技巧,事半功倍。
千家信息网最后更新 2024年09月22日大数据处理的3 个小技巧分别是什么
今天就跟大家聊聊有关大数据处理的3 个小技巧分别是什么,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。
数据处理无所不在,掌握常用技巧,事半功倍。
此系列使用 Pandas 开展数据处理分析,总结其中常用、好用的数据分析技巧。
我使用的 Pandas 版本如下,顺便也导入 Pandas 库。
>>> import pandas as pd
>>> pd.__version__
'0.25.1'
今天使用的数据集名称:IMDB-Movie-Data,取自 Kaggle,百度网盘下载链接如下:
链接: https://pan.baidu.com/s/15u7Hf2y5dSFwek2vA1-zjg 提取码: bvfx
在开始前先确保解释器和数据集在同一目录下:
>>> import os
>>> os.chdir('D://source/dataset') # 这是我的数据集所在目录
>>> os.listdir() # 确认此目录已经存在 IMDB-Movie-Data 数据集
['drinksbycountry.csv', 'IMDB-Movie-Data.csv', 'movietweetings', 'titanic_eda_data.csv', 'titanic_train_data.csv']
准备工作就位后,正式开始数据处理技巧之旅。
1 Pandas 移除某列
导入数据
>>> df = pd.read_csv("IMDB-Movie-Data.csv")
>>> df.head(1) # 导入并显示第一行
Rank Title Genre ... Votes Revenue (Millions) Metascore
0 1 Guardians of the Galaxy Action,Adventure,Sci-Fi ... 757074 333.13 76.0
[1 rows x 12 columns]
使用 pop 方法移除指定列:
>>> meta = df.pop("Title").to_frame() # 移除 Title 列
确认是否已被移除:
>>> df.head(1) # df 变为 11列
Rank Genre ... Revenue (Millions) Metascore
0 1 Action,Adventure,Sci-Fi ... 333.13 76.0
[1 rows x 11 columns]
2 统计标题单词数
pop 后得到 meta,显示 meta 前 3 行:
>>> meta.head(3)
Title
0 Guardians of the Galaxy
1 Prometheus
2 Split
标题是由单词组成,中间用空格分隔。
# .str.count(" ") + 1 得到单词个数
>>> meta["words_count"] = meta["Title"].str.count(" ") + 1
>>> meta.head(3) # words_count 列代表单词个数
Title words_count
0 Guardians of the Galaxy 4
1 Prometheus 1
2 Split 1
3 Genre 频次统计
下面统计电影 Genre 的频次,
>>> vc = df["Genre"].value_counts()
下面显示电影 Genre 的 Top5 ,最高频为出现 50 次的 Action,Adventure,Sci-Fi 类,次之为 48 次的 Drama 类:
>>> vc.head()
Action,Adventure,Sci-Fi 50
Drama 48
Comedy,Drama,Romance 35
Comedy 32
Drama,Romance 31
Name: Genre, dtype: int64
展示 Top5 的饼状图:
>>> import matplotlib.pyplot as plt
>>> vc[:5].plot(kind='pie')
>>> plt.show()
看完上述内容,你们对大数据处理的3 个小技巧分别是什么有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注行业资讯频道,感谢大家的支持。
数据
技巧
数据处理
处理
单词
内容
目录
统计
个数
常用
标题
电影
链接
频次
分析
事半功倍
无所不在
一行
之旅
代表
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
沙河市网络安全管理培训
增强网络安全与
网络安全技术实用论文
怎么进远程服务器
手机网络安全资料
银行软件开发难吗
适合软件开发实践的项目
数据库课程设计 百度文库
网民评论网络安全感
雅安软件开发市场价
数据库还原教程视频
浙江 网络技术有限公司
河北专业软件开发哪家便宜
神舟售饭机数据库
卓账财务软件开发
北京最新网络技术有限公司
安徽品质软件开发设施价钱
霞浦县盛奎网络技术有限公司
我的世界下界多人服务器联机
xd软件开发时间
德国机械数据库
java软件开发的行业须知
怎么把硬盘安装到服务器上
监控服务器有两个网口
sql数据库生产任务
云服务器存储和本地保险哪个好
网络安全电脑独显
xd软件开发时间
浙江大数据软件开发需要多少钱
网络安全教育班会会议记录