导航：首页 > 互联网科技 >

Hadoop文件合并——Hadoop In Action上的一个示例

发表于：2025-01-23 作者：千家信息网编辑

千家信息网最后更新 2025年01月23日，上一篇文章已经详细的说明了如何在Eclipse下面远程连接Hadoop集群，进行Hadoop程序开发。这里说明一个Hadoop In Action书上的一个示例，可能是由于Hadoop版本更新的问题，

千家信息网最后更新 2025年01月23日Hadoop文件合并——Hadoop In Action上的一个示例

上一篇文章已经详细的说明了如何在Eclipse下面远程连接Hadoop集群，进行Hadoop程序开发。这里说明一个Hadoop In Action书上的一个示例，可能是由于Hadoop版本更新的问题，导致树上的一些个示例程序没有办法正常执行。

整个代码的工作就是把本地目录下个若干个小文件，合并成一个较大的文件，写入到HDFS中。话不多说，代码如下：

补充说明：后来发现，书上的源代码是没有问题的，只不过是书上的源代码要打成jar包，放在集群的机器上去运行，如果在Eclipse下面调试运行的话，就会出现问题。出现问题的原因如下

//读取本地文件系统，如果要想正确运行，必须要打成jar包，在hadoop集群的机器上面运行FileSystem hdfs = FileSystem.get(conf);FileSystem local = FileSystem.getLocal(conf);//通过URI可以远程读取HDFS，所以Eclipse下面调试要使用这种写法，打成jar包这种形式也是可以的FileSystem hdfs = FileSystem.get(URI.create(serverPath), conf);FileSystem local = FileSystem.getLocal(conf);

package com.hadoop.examples;import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;/** * @Package * @ClassName: PutMerge * @Description: 读取本地目录下的文件，写入到HDFS，在写入的过程中， *                 把这三个文件合成一个文件 * @author lxy * @date 2015年3月25日 上午9:59:38 * @version V1.0 */public class PutMerge {    public static void main(String[] args) throws IOException {        // 输入目录，目录下有三个txt，文章最后面会儿给出文件内容        String localPathStr = "E:\\test";        // 输出目录，HDFS路径，文章最后面会给出合并之后的文件内容        String serverPath =                "hdfs://192.168.3.57:8020/user/lxy/mergeresult/merge.txt";                //输入目录，是一个本地目录        Path inputDir = new Path(localPathStr);        //输出目录，是一个HDFS路径        Path hdfsFile = new Path(serverPath);        Configuration conf = new Configuration();        /**         * Hadoop in Action的原代码如下          * FileSystem hdfs = FileSystem.get(conf);         * 但是这样的话，使用Eclipse调试时，执行下面的语句是就会报异常，因为它是读取本地         * 文件系统         *  FSDataOutputStream out = hdfs.create(hdfsFile);         */        // 根据上面的serverPath，获取到的是一个org.apache.hadoop.hdfs.DistributedFileSystem对象        FileSystem hdfs = FileSystem.get(URI.create(serverPath), conf);        FileSystem local = FileSystem.getLocal(conf);        try {            //获取输入目录下的文件以及文件夹列表            FileStatus[] inputFiles = local.listStatus(inputDir);            //在hdfs上创建一个文件            FSDataOutputStream out = hdfs.create(hdfsFile);            for (int i = 0; i < inputFiles.length; i++) {                System.out.println(inputFiles[i].getPath().getName());                //打开本地输入流                FSDataInputStream in = local.open(inputFiles[i].getPath());                byte buffer[] = new byte[256];                int bytesRead = 0;                while ((bytesRead = in.read(buffer)) > 0) {                    //往hdfs上的文件写数据                    out.write(buffer, 0, bytesRead);                }                //释放资源                in.close();            }            //释放资源            out.close();        }        catch (IOException e) {            e.printStackTrace();        }    }}

我的测试目录下有三个txt文件

1.txt

1 hello Hadoop2 hello Hadoop3 hello Hadoop4 hello Hadoop5 hello Hadoop6 hello Hadoop7 hello Hadoop

2.txt

8 hello Hadoop9 hello Hadoop10 hello Hadoop11 hello Hadoop12 hello Hadoop13 hello Hadoop14 hello Hadoop

3.txt

15 hello Hadoop16 hello Hadoop17 hello Hadoop18 hello Hadoop19 hello Hadoop20 hello Hadoop21 hello Hadoop

合并之后的文件如下所示：

很赞哦！

文件目录问题运行三个代码集群输入示例下有内容文章机器源代码程序系统资源路径面的输出数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全个人服务器网站备案数据库读取数据用到哪些方法计算机网络技术包括两个主要包头软件开发厂家价格网络安全特别是网络意识 dmp是什么数据库文件合肥网络技术学院常州个人软件开发价格咨询流媒体服务器软件生产厂超级计算机服务器图片 cass软件开发语言服务器能退吗单机bs架构数据库打不开网站显示无法连接服务器网络安全类型及应对措施全国城市地区代码表数据库学飞行器设计能干软件开发吗数据库gte 软件开发工作岗位需求量计算机审计中的数据库技术攻击服务器信息化项目网络安全审查手机版方舟大型服务器西安市高新路软件开发成都互联网科技公司工作好不好软件测试软件开发培训 ibm7914服务器税务网络安全管理办法发票上传设置里服务器端口填啥小学网络安全教育策略

千家信息网

千家信息网

Hadoop文件合并——Hadoop In Action上的一个示例

如何实现K8S Cluster Autoscaler 集群自动伸缩

HIVE数据类型及存储格式

相关文章