如何使用Pandas分块处理大文件
发表于:2025-01-23 作者:千家信息网编辑
千家信息网最后更新 2025年01月23日,这篇文章给大家分享的是有关如何使用Pandas分块处理大文件的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。使用Pandas分块处理大文件问题:今天在处理快手的用户数据时,遇
千家信息网最后更新 2025年01月23日如何使用Pandas分块处理大文件
这篇文章给大家分享的是有关如何使用Pandas分块处理大文件的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。
使用Pandas分块处理大文件
问题:今天在处理快手的用户数据时,遇到了一个差不多600M的txt文本,用sublime打开都蹦了,我用pandas.read_table()去读,差不多花了近2分钟,最后打开发现差不多3千万行数据。这仅仅是打开,如果要处理不知得多费劲。
解决:我翻了一下文档,这一类读取文件的函数有两个参数:chunksize、iterator
原理就是不一次性把文件数据读入内存中,而是分多次。
1、指定chunksize分块读取文件
read_csv 和 read_table 有一个 chunksize 参数,用以指定一个块大小(每次读取多少行),返回一个可迭代的 TextFileReader 对象。
table=pd.read_table(path+'kuaishou.txt',sep='\t',chunksize=1000000) for df in table: 对df处理 #如df.drop(columns=['page','video_id'],axis=1,inplace=True) #print(type(df),df.shape)打印看一下信息12345
我这里又对文件进行了划分,分成若干个子文件分别处理(没错,to_csv也同样有chunksize参数)
2、指定iterator=True
iterator=True同样返回的是TextFileReader对象
reader = pd.read_table('tmp.sv', sep='\t', iterator=True) df=reader.get_chunk(10000) #通过get_chunk(size),返回一个size行的块 #接着同样可以对df处理
感谢各位的阅读!关于"如何使用Pandas分块处理大文件"这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!
文件
处理
差不多
参数
数据
内容
对象
更多
篇文章
不错
实用
费劲
一次性
两个
个子
信息
内存
函数
原理
大小
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
根据网站做自己的数据库
IEC测试数据库
山东省工信厅网络安全韩
美国代谢与减重数据库
网络安全审计设备
哪个公司的服务器安全防护
eve女性角色捏脸数据库
天力套接字服务器
web服务器工作原理视频
用自己电脑做服务器怎么绑定域名
南京2011服务器散热器加工
idj软件开发
sql;数据库字段长度
剑网三和服务器
中国网络安全大学生的影响
服务器什么时候维护好
北京万户网络技术怎么样
数据库中获取邮箱长度的代码
地税局网络安全检查
中山宇天网络技术有限公司
分布式数据库有哪些特征
网络安全建设方案费用
电脑自动下载软件开发
网络安全知识视频观后感
西电软件开发在华为有工作吗
suma服务器装windows
国泰安数据库查年度指标
鲲鹏服务器芯片生产
moldflow标准数据库
数据库系统原理课程设计背景