cdh3u3 hadoop 0.20.2 MultipleOutputs多输出文件怎么实现
发表于:2025-02-05 作者:千家信息网编辑
千家信息网最后更新 2025年02月05日,本篇内容介绍了"cdh3u3 hadoop 0.20.2 MultipleOutputs多输出文件怎么实现"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下
千家信息网最后更新 2025年02月05日cdh3u3 hadoop 0.20.2 MultipleOutputs多输出文件怎么实现
本篇内容介绍了"cdh3u3 hadoop 0.20.2 MultipleOutputs多输出文件怎么实现"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
1.新建一个multest.txt文件
11111,username,password,22,河北师范大学,软件学院,200811112,username,password,22,河北师范大学,计算机学院,200811113,username,password,22,xx大学,软件学院,200811114,username,password,22,xxx大学,计算机学院,200811115,username,password,23,2008
2.在hdfs上新建一个目录,hadoop dfs -mkdir multest
3.将新建到文本文件上传到multest目录下:hadoop dfs -put /home/wjk/hadoop/multest.txt multest
4.新建Map/Reduce工程,将格式不符合(7位)到保存到dirtydata中,将河北师范大学软件学院以外到数据保存到otherschool中,将河北师范大学软件学院到数据保存到默认文件中。
public class Multest { public static class MultestMapper extends Mapper
5.编译,导出jar,运行:hadoop jar ./../multest.jar com.wjk.test.Multest multest multestout
6.运行截图
=======注意==========================
缺陷:集群上运行会有多个分散的文件
补充:按上述的写法产生的文件很多,合并很难,可以执行输出目录,合并的话按目录getmerge就容易了。主要修改点在mos.write上,参考官方代码,很简单,自行领悟吧。
publicvoid write(String namedOutput, K key, V value) throws IOException, InterruptedException { write(namedOutput, key, value, namedOutput);}public void write(String namedOutput, K key, V value,String baseOutputPath) throws IOException, InterruptedException { checkNamedOutputName(this.context, namedOutput, false); checkBaseOutputPath(baseOutputPath); if (!(this.namedOutputs.contains(namedOutput))) { throw new IllegalArgumentException("Undefined named output '" + namedOutput + "'"); } TaskAttemptContext taskContext = getContext(namedOutput); getRecordWriter(taskContext, baseOutputPath).write(key, value);}
"cdh3u3 hadoop 0.20.2 MultipleOutputs多输出文件怎么实现"的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注网站,小编将为大家输出更多高质量的实用文章!
文件
大学
学院
师范
软件
软件学院
河北
河北师范大学
输出
目录
内容
数据
更多
知识
计算机
运行
实用
学有所成
接下来
代码
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
人才数据库申请表
超星慕课计算机网络技术
临淄办公系统oa软件开发公司
海印互联网科技
软件开发部职能职责
it软件开发是开发啥
小学网络安全工作预案
宾馆酒店网络安全行业规范
网络安全线上活动主题
类似基因工程网络技术
哪的软件开发培训好些
国内网络安全大事记
数据库事务回滚操作方法
达梦数据库哪个版本合算
TBC 数据库 角刺
cde辅料数据库
包河区企业网络技术服务收费
中专数据库应用技术知识点
图书馆数据库最大优点
宁夏服务器机柜定制
软件开发经历了哪些演变
停止数据库服务代码
网络安全公益公告
服务器显示端口不支持
为什么网络无法连接到服务器电视
哔哩哔哩大会员服务器故障
计算机网络安全策略初探
ping网站能知道服务器地址吗
陕西渭县拍拍网络技术有限公司
银行网络安全软件报告