如何使用Pandas分块处理大文件
发表于:2024-10-15 作者:千家信息网编辑
千家信息网最后更新 2024年10月15日,这篇文章给大家分享的是有关如何使用Pandas分块处理大文件的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。使用Pandas分块处理大文件问题:今天在处理快手的用户数据时,遇
千家信息网最后更新 2024年10月15日如何使用Pandas分块处理大文件
这篇文章给大家分享的是有关如何使用Pandas分块处理大文件的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。
使用Pandas分块处理大文件
问题:今天在处理快手的用户数据时,遇到了一个差不多600M的txt文本,用sublime打开都蹦了,我用pandas.read_table()去读,差不多花了近2分钟,最后打开发现差不多3千万行数据。这仅仅是打开,如果要处理不知得多费劲。
解决:我翻了一下文档,这一类读取文件的函数有两个参数:chunksize、iterator
原理就是不一次性把文件数据读入内存中,而是分多次。
1、指定chunksize分块读取文件
read_csv 和 read_table 有一个 chunksize 参数,用以指定一个块大小(每次读取多少行),返回一个可迭代的 TextFileReader 对象。
table=pd.read_table(path+'kuaishou.txt',sep='\t',chunksize=1000000) for df in table: 对df处理 #如df.drop(columns=['page','video_id'],axis=1,inplace=True) #print(type(df),df.shape)打印看一下信息12345
我这里又对文件进行了划分,分成若干个子文件分别处理(没错,to_csv也同样有chunksize参数)
2、指定iterator=True
iterator=True同样返回的是TextFileReader对象
reader = pd.read_table('tmp.sv', sep='\t', iterator=True) df=reader.get_chunk(10000) #通过get_chunk(size),返回一个size行的块 #接着同样可以对df处理
感谢各位的阅读!关于"如何使用Pandas分块处理大文件"这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!
文件
处理
差不多
参数
数据
内容
对象
更多
篇文章
不错
实用
费劲
一次性
两个
个子
信息
内存
函数
原理
大小
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
博汇科技网络安全监控
数据库怎么删除不了
安全与风险管理数据库
分布式数据库 性能
db2数据库增加用户
创建文件数据库
人社局网络安全信息化工作总结
2000元服务器主机装机分享
汕尾市网络安全和信息化委员会
上海昌硕科技有限公司软件开发
公司服务器管理与应用
网络安全产生漏洞的原因
PDB数据库cartoon
搞软件开发和seo哪个行业好
mysql导入连接数据库的过程
扬州互联网软件开发费用是多少
网络技术计算机网络高级教程
我国第一次网络安全法
网络技术对课堂的影响
提高网络安全 pdca
博汇科技网络安全监控
电脑有哪些数据库
雷达网络技术
网络技术公司取名字
华为软件开发红线标准
mongod 创建数据库
国家电网网络安全自查报告
桂阳全光网络技术
拍照软件开发
贵州卫星同步数显钟服务器