
Hadoop distcp命令如何跨集群复制文件

发表于:2025-02-23 作者:千家信息网编辑
千家信息网最后更新 2025年02月23日,本篇文章为大家展示了Hadoop distcp命令如何跨集群复制文件,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。hadoop提供了Hadoop distcp
千家信息网最后更新 2025年02月23日Hadoop distcp命令如何跨集群复制文件

本篇文章为大家展示了Hadoop distcp命令如何跨集群复制文件,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。

hadoop提供了Hadoop distcp命令在Hadoop不同集群之间进行数据复制和copy。

使用格式为:hadoop distcp -pbc hdfs://namenode1/test hdfs://namenode2/test

distcp copy只有Map没有Reduce

usage: distcp OPTIONS [source_path...]


-append Reuse existing data in target files and append new

data to them if possible

-async Should distcp execution be blocking

-atomic Commit all changes or none

-bandwidth Specify bandwidth per map in MB

-delete Delete from target, files missing in source

-diff Use snapshot diff report to identify the

difference between source and target

-f List of files that need to be copied

-filelimit (Deprecated!) Limit number of files copied to <= n

-i Ignore failures during copy

-log Folder on DFS where distcp execution logs are


-m Max number of concurrent maps to use for copy

-mapredSslConf Configuration for ssl config file, to use with


-overwrite Choose to overwrite target files unconditionally,

even if they exist.

-p preserve status (rbugpcaxt)(replication,

block-size, user, group, permission,

checksum-type, ACL, XATTR, timestamps). If -p is

specified with no , then preserves

replication, block size, user, group, permission,

checksum type and timestamps. raw.* xattrs are

preserved when both the source and destination

paths are in the /.reserved/raw hierarchy (HDFS

only). raw.* xattrpreservation is independent of

the -p flag. Refer to the DistCp documentation for

more details.

-sizelimit (Deprecated!) Limit number of files copied to <= n


-skipcrccheck Whether to skip CRC checks between source and

target paths.

-strategy Copy strategy to use. Default is dividing work

based on file sizes

-tmp Intermediate work path to be used for atomic


-update Update target, copying only missingfiles or


不同版本的Hadoop集群由于RPC协议版本不一样不能直接使用命令 hadoop distcp hdfs://namenode1/test hdfs://namenode2/test

对于不同Hadoop版本间的拷贝,用户应该使用HftpFileSystem。 这是一个只读文件系统,所以DistCp必须运行在目标端集群上(更确切的说是在能够写入目标集群的TaskTracker上)。 源的格式是hftp:/// (默认情况dfs.http.address是 :50070)。

上述内容就是Hadoop distcp命令如何跨集群复制文件,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注行业资讯频道。

集群 命令 文件 不同 版本 内容 技能 格式 目标 知识 简明 简明扼要 之间 只有 就是 情况 拷贝 数据 文章 是在 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 单片机与车载网络技术试卷 同花顺是互联网科技股吗 数据库复合码和组合码 大华服务器设置摄像头离线报警 天津市计算机网络技术专接本 sql连接2个数据库 学校网络安全工作规程 网络技术挑战赛证书图片 网络安全教育综述 系统软件开发费用明细 hikserver服务器品牌 内网dns服务器公网访问 上市公司网络安全的有哪些 深圳市杰德网络技术有限公司 汉中市国家网络安全宣传周 机房服务器和云上服务器 美德服务器安全吗 服务器集群怎样连接的 mysql怎么建链接服务器 公安部国家网络安全局 百度的时候关闭自己的网络安全吗 写论文用哪个数据库为什么 数据库中查用户语句 软件工程数据软件开发专业 淘宝收件信息服务器保存多久 线上支付软件开发 中国网络安全产业联盟杨纪文 建立乡村振兴战略审计数据库 分行 科技 软件开发 阿里云服务器找回密码