Spark下的词频计数是怎样进行的
发表于:2025-02-01 作者:千家信息网编辑
千家信息网最后更新 2025年02月01日,Spark下的词频计数是怎样进行的,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。安装 Spark下载 Spark 1.52 Pre-
千家信息网最后更新 2025年02月01日Spark下的词频计数是怎样进行的
Spark下的词频计数是怎样进行的,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。
安装 Spark
下载 Spark 1.52 Pre-Built for hadoop 2.6 http://spark.apache.org/downloads.html。还需要预装 Java,Scala 环境。
将 Spark 目录文件放到 /opt/spark-hadoop 下,运行 ./spark-shell 会出现连接 Scale 窗口;运行 ./python/pyspark 会出现连接 Python 的窗口。这表示安装成功。
将 python 目录下 pyspark 复制到 Python 安装目录 /usr/local/lib/python2.7/dist-packages。这样才可以在程序中导入pyspark 库。
测试
#!/usr/bin/python# -*- coding:utf-8 -*-from pyspark import SparkConf, SparkContextimport osos.environ["SPARK_HOME"] = "/opt/spark-hadoop"APP_NAME = "TopKeyword"if __name__ == "__main__": logFile = "./README.md" sc = SparkContext("local", "Simple App") logData = sc.textFile(logFile).cache() numAs = logData.filter(lambda s: 'a' in s).count() numBs = logData.filter(lambda s: 'b' in s).count() print("Lines with a: %i, lines with b: %i" % (numAs, numBs))
打印结果
Lines with a: 3, lines with b: 2
词频计数
#!/usr/bin/python# -*- coding:utf-8 -*-from pyspark import SparkConf, SparkContextimport osimport sysreload(sys)sys.setdefaultencoding("utf-8")os.environ["SPARK_HOME"] = "/opt/spark-hadoop"def divide_word(): word_txt = open('question_word.txt', 'a') with open('question_title.txt', 'r') as question_txt: question = question_txt.readline() while(question): seg_list = jieba.cut(question, cut_all=False) line = " ".join(seg_list) word_txt.write(line) question = question_txt.readline() question_txt.close() word_txt.close()def word_count(): sc = SparkContext("local", "WordCount") text_file = sc.textFile("./question_word.txt").cache() counts = text_file.flatMap(lambda line: line.split(" ")) \ .map(lambda word: (word, 1)) \ .reduceByKey(lambda a, b: a + b) counts.saveAsTextFile("./wordcount_result.txt")if __name__ == "__main__" word_count()
关于Spark下的词频计数是怎样进行的问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注行业资讯频道了解更多相关知识。
词频
目录
问题
utf-8
更多
帮助
解答
运行
易行
成功
简单易行
内容
小伙
小伙伴
文件
方法
环境
知识
程序
篇文章
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
舟山企业网络安全准入控制系统
魔兽tbc怎么转服务器
计算机网络技术竖图怎么变横图
网络安全法手抄报模版
网络安全防护体系构架
软件开发的测试方法有哪些
高平软件开发系统
网络安全周培训稿
互联网科技民企
数据库ed
陕西西安服务器机柜虚拟主机
软件开发服务计划书
搭建web界面查询数据库数据
武汉大学数据库检索
读谱软件开发项目分析
手机服务器怎么样打开
实况足球国际服服务器维修中
e会计数据库
安川服务器报7AB短接哪里
数据库四级推荐教材
邮件网关服务器入什么费用
中兴服务器设置管理ip
路由器中叠加网络安全模块
数据库共分为四类分别是
网络安全排查报告范本
作业辅导软件开发
幼儿园学校网络安全管理制度
对网络技术基础的理解
c 软件开发高级工程师
svn服务器部署