shell两个文件去重的方式
发表于:2025-01-18 作者:千家信息网编辑
千家信息网最后更新 2025年01月18日,本篇内容主要讲解"shell两个文件去重的方式",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"shell两个文件去重的方式"吧!前言大家都知道shell在文
千家信息网最后更新 2025年01月18日shell两个文件去重的方式
本篇内容主要讲解"shell两个文件去重的方式",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"shell两个文件去重的方式"吧!
前言
大家都知道shell在文本处理上确有极大优势,比如多文本合并、去重等,但是最近遇到了一个难搞的问题,即两个大数据量文件去重。下面来看看详细的介绍吧。
要求
有txt文件A.txt和B.txt。
其中A为关键词和搜索量,以逗号分隔,约90万行。
B为关键词,约400万行。
需要从A中找出与B重复的关键词。
我试了N种姿势,但结果都不尽人意,最奇怪的是有些方法对小数据量的测试文件有用,一旦用在A与B上就会失败,真叫人百思不得其解。
姿势一:
awk -F, '{print $1}' A >keywords.txtcat keywords.txt B.txt | sort | uniq -d #先从A.txt种取出关键词,然后与B.txt一起打开,用sort排序,uniq -d 取出重复的行
姿势二:
awk -F, '{print $1}' A >keywords.txt#照例先取出关键词 comm -1 -2 keywords.txt B.txt#利用comm命令,显示两个文件都存在的行
姿势三:
awk -F, '{print $1}' A >keywords.txtfor i in `cat keywords.txt`do A=`egrep -c "^$i$" B.txt` if [ $A != 0 ] then echo $i >>重复关键词.txt fidone #这种姿势就稍微复杂点#首先取出关键词,然后利用for循环逐个去B.txt里面匹配(注意正则写法^$i$),如果匹配到的结果数不为0,说明这个关键词是重复的,然后输出#这种方法的优点是稳妥,缺点是效率太TM低了,90万个词逐一与400万词匹配,shell默认又没有多线程,耗时太长。
姿势四:
awk -F, '{print $1}' A >keywords.txtcat keywords.txt B.txt | awk '!a[$1]++' #这个方法的原理其实我不太懂,awk命令实在太强大太高深了,但是这种方法又简洁又快速
其实还有一种grep -v
、grep -f
的方法,但是我没有试过,所以不在这里列出了。
到此,相信大家对"shell两个文件去重的方式"有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
关键
关键词
文件
姿势
方法
两个
方式
内容
命令
数据
文本
结果
学习
复杂
实用
更深
稳妥
简洁
难搞
百思不得其解
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
荣耀9x电子邮件服务器密码
生鲜管理系统用什么数据库
netcore数据库监控
沪科版网络技术教材
软件开发可以不公开招标吗
中国医院网络安全研究报告
软件开发专业大学排行
杭州恩通网络技术
腾讯云服务器支持ipv6
电梯tft多媒体软件开发
国家网络安全宣传周主题
网络安全产品开发
调取基础数据库耗费大量网络
萤石云服务器设置密码
邮件服务器的安全
深圳市京通网络技术有限公司
通过安全组绘制服务器拓扑图
php下拉框提取数据库的值
自制网络安全网
服务器安全未知账户
软件开发主要文档有哪些
方舟线上哪个服务器比较好
奉贤游戏软件开发
英语软件开发简介
网站服务器出错请联系管理员
上海泉晖软件开发有限公司
coremysql数据库读写
颍州区网络安全和信息化中心
怎样用公式做数据库
深圳小马互联网医疗科技有限公司