Streaming执行Python版WordCount
发表于:2025-02-01 作者:千家信息网编辑
千家信息网最后更新 2025年02月01日,一:先写map类import sysfor line in sys.stdin:line = line.strip( )words = line.split( )for word in words:p
千家信息网最后更新 2025年02月01日Streaming执行Python版WordCount
一:先写map类
import sysfor line in sys.stdin:line = line.strip( )words = line.split( )for word in words:print('%s\t%s' % (word, 1))
二:写reduce类
import syscurrent_word = Nonecurrent_count = 0word = Nonefor line in sys.stdin:line = line.strip()word, count = line.split('\t',1)try:count = int(count)except ValueError:continueif current_word == word:current_count += countelse:if current_word:print('%s\t%s' % (current_word,current_count))current_count = countcurrent_word = wordif current_word == word:print('%s\t%s' % (current_word,current_count))
三:利用hadoop Streaming执行Python的内容。
hadoop jar /home/hadoop/hadoop-2.6.0-cdh6.5.2/share/hadoop/tools/lib/hadoop-streaming-2.6.0-cdh6.5.2.jar -input /user/hadoop/aa.txt -output /user/hadoop/python_output -mapper "python mapper.py" -reducer "python reducer.py" -file mapper.py -file reducer.py
说明:
输入和输出路径,本身就是hdfs上的,不需要特殊指定hdfs。
不加×××部分的引号的话,会报错误:
Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2
不加粉色部分的内容的话,会报错误:
Error: java.lang.RuntimeException: Error in configuring object
内容
部分
错误
会报
特殊
就是
引号
粉色
路径
输入
输出
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
web数据库问题
学数据库哪个网站
合肥网霆网络技术有限公司
数据库表有哪些模式
485串口服务器西安
国内服务器ip段
电脑服务器时间不一致
苏州助力智慧校园软件开发
智联网络技术公司
武汉财务软件开发平台
怎么可以重命名数据库对象
网络安全对抗赛南昌的比赛
数据库if语句总结
三级网络技术教程视频
广播电视网络安全学习心得
福州软件开发工资待遇
网络安全事件应急预案制定
数据库表增加多个字段
科林电气软件开发
国际服刺激战场服务器最新更新
数据库中的传递属性
三调数据库合库技术方案
微信数据库安卓
网络技术标准和协议
事业单位网络安全警示教育
关于网络安全的博客英语作文
数据库语法有哪些
it网络技术包括哪些
ant无线网络技术
数据库分析数据