千家信息网

hadoop零散笔记

发表于:2025-02-23 作者:千家信息网编辑
千家信息网最后更新 2025年02月23日,查找有没有这个软件通过管道查询:sudo apt-cache search ssh | grep ssh安装的话:sudo apt-get install xxxxx安装ssh后要生成一个文件即执行:
千家信息网最后更新 2025年02月23日hadoop零散笔记

查找有没有这个软件通过管道查询:sudo apt-cache search ssh | grep ssh


安装的话:sudo apt-get install xxxxx

安装ssh后要生成一个文件即执行:ssh-keygen -t rsa -P "" -f ~/.ssh/id_rsa

最后在soft/haoop/etc/hadoop目录下的三个文件中执行core-site.xml、hdfs-site.xml、mapred-site.xml中配置


-----------------------------------------------------


查看端口:netstat -lnpt netstat 或netstat -plut 。查看所有的端口:netstat -ano

--------------------------------------------------------------

把文件放到哪里用 hadoop fs -put xxxx /xxxx/xxxxx/xxx


往上面集群上放文件:hadoop --config /soft/hadoop/etc/hadoop_cluster fs -put /home/ubuntu/hell.txt /user/ubuntu/data/

在集群上下载文件是:hadoop --config /soft/hadoop/etc/hadoop_cluster fs -get /user/ubuntu/data/hello.txt bb.txt


查看文件的健康情况:hdfs --config /soft/hadoop/etc/hadoop/etc/hadoop_cluster fsck /user/ubuntu/data/hello.txt



通过scp远程复制 :scp -r /xxx/x


格式化文件系统:hdfs --config /soft/hadoop/etc/hadoop_cluster namenode -format


touch 是建一个文本文件


从一个虚拟机登录到另个虚拟机ssh s2 ,如果是ssh s2 ls ~ 的话就是显示一列列是的样子 。如果执行

ssh s2 ls ~ | xargs 是显示一横的内容


查看集群状况:hadoop --config /soft/hadoop/etc/hadoop_cluster fs -lsr /

把文件放到集群上面就是hadoop --config /soft/hadoop/etc/hadoop_cluster fs -put xxxxx 后面是加所放的路径位置


查看进程 ssh s2 jps 。ps -Af 也是查看进程 。杀死进程是kill -9 后面加进程的端口号


su root 根用户


--------------------------------------------------

HDFS概念:namenode & datanode

namenode:镜像文件+编辑日志,存放于本地磁盘,以及数据节点信息,不含block信息。block信息在cluster启动时由datanode重建

datanode:work节点,存储检索block定期向namenode发送block list


在usr/local/sbin下切换到su root 用户下建脚本,编写你想要的执行脚本


修改blocksize大小 ,默认是128m

它在[hdfs-site.xml]

dfs.blocksize = 8m 设置块大小是8M

1、测试方式 :put 文件 > 8m, 通过webui查看块大小


---------------------------------------------------------


hadoop:可靠、可伸缩、分布式的计算框架,开源软件


四大模块:1、common ----hadoop-commom-xxx.jar

2、hdfs

3、mapreduce

4、yarn


hadoop完全分布式:

1、hdfs --->NameNode、Datanode、SecondaryNode(辅助名称节点)

2、Yarn---->ResourceManager(资源管理器)、NodeManager(节点管理器)


---------------------------------------------------

配置静态ip进入etc的network里面下编辑sudo nano interfaces:


# This file describes the network interfaces available on your system

# and how to activate them. For more information, see interfaces(5).


# The loopback network interface

auto lo

iface lo inet loopback


# The primary network interface

auto eth0

iface eth0 inet dhcp

iface eth0 inet static(设置为静态的ip)

address 192.168.92.148(客户机的ip)

netmask:255.255.255.0(客户机的)

gateway 192.168.92.2 (NAT网关地址)

dns-nameservers 192.168.92.2


最后是重启网卡:sudo /etc/init.d/networking restart


-------------------------------------------------

客户机关机命令:

1、sudo poweroff

2、sudo shutdown -h o

3、sudo halt


------------------------------

配置文本模式

进入到/boot/grub里面查看一下

再进入cd /etc/default里面执行gedit grub

在#GRUB_CMDLINE_LINUX_DEFAULT="quiet"的下面编写GRUB_CMDLINE_LINUX_DEFAULT="text"


在# Uncomment to disable graphical terminal (grub-pc only)下面编写:

GRUB_TERMINAL=console //打开注释


改后执行sudo update-grub最后执行重启sudo reboot


-----------------------------------------

启动所有的数据节点:

hadoop-daemons.sh start namenode //在名称节点服务器上执行启动名称节点

hadoop-daemons.sh start datanode //在指定的datanode上执行,启动所有的数据节点

hadoop-daemon.sh start secondsrynamenode //启动辅助名称节点


-------------------------------------------------------

hdfs getconf 能查看到节点配置信息。比如hdfs getconf -namenode 可以知道是在s1客户机上运行



-----------------------------------------------------------------

四大模块:

1、common

hadoop-coommon-xxx.jar

core-site.xml

core-default.xml

2、hdfs

hdfs-site.xml

hdfs-defailt.xml

3、mapreduce

mapre-site.xml

mapred-default.xml

4、yarn

yarn-site.xml

yarn-default.xml


----------------------------------

常用的端口:

1、namenode rpc //8020 webui //50070

2、datanode rpc //8032 webui //50075

3、2nn webui //50090

4、historyServer webui //19888

5、resourcmanager webui//8088


--------------------------------------

dfs.hosts:决定能够连接namenode

dfs.hosts.exclude:决定不能连接namenode


dfs.hosts dfs.hosts.exclude

---------------------------------------------

0 0 //不能连接

0 1 //不能连

1 0 //能连

1 1 //能连会退役



---------------------------------------------

安全模式

1、namenode启动时,合并p_w_picpath和edit成新的p_w_picpath,并产生新的edit log

2、整个智能safe模式下,客户端只能读取

3、查看nameode是否位于安全模式

hdfs dfsadmin -safemode get //查看安全模式

hdfs dfsadmin -safemode enter //进入安全模式

hdfs dfsadmin -safemode leave //离开安全模式

hdfs dfsadmin -safemode wait //等待安全模式

4、手动保存名字空间:dfsadmin -saveNamespace


5、手动保存镜像文件:hdfs dfsadmin -fetchImage


6、保存元数据:(保存在hadoop_home下即:hadoop /logs/下)hdfs dfsadmin -metasave xxx.dsds


7、start-balancer.sh :启动均衡器,目的让集群数据存储上更加平均,提高整个集群的性能(一般我们在增加节点的情况下才启动均衡器)

8、hadoop fs -count统计目录



--------------------------------------------------

Hadoop Snapshot快照:就是把当前的情况拍照保存起来。一般目录默认的情况是不能创建快照的。必须执行hdfs dfsadmin -allowSnapshot /user/ubuntu/data。允许创建快照,后面跟的是你想创建快照的地址路径。在这里允许创建快照后我们就可以执行hadoop fs -createSnapshot /user/ubuntu/data snap-1创建快照了。snap-1是你创建快照名。查看快照的话直接hadoop fs -ls -R /user/ubuntu/data/.snapshot/。还有你在创建快照的情况下是不能禁用快照的



1、创建快照hadoop fs [-createSnapshot []]


2、删除快照hadoop fs [-deleteSnapshot ]


3、重命名快照hadoop fs [-renameSnappshot ]


4、允许目录快照hadoop dfsadmin [-allowSnapshot ]


5、禁用目录快照hadoop dfsamdin[-disallowSnapshot]



------------------------------------------

回收站

1、默认是0秒,意味着禁用回收站

2、设置文件回收站的驻留时间[corep-site.xml] fs.trash.interval=1 //分钟数计算

3、通过shell命令删除的文件,会进入trash

4、每个用户都有自己的回收站(目录) 即:/user/ubuntu/.Trash

5、编程方式删除不进入回收站,立即删除,可以调用。moveToTrash()方法,返回false,说明禁用回收站或者已经在站中


回收站:hadoop默认的回收站是关闭的,时间单位:分钟对应当前用户文件夹的.Trash目录。rm时会将文件移动到该目录下

[core-site.xml]

fs.trash.interval

30


回收站:恢复文件。将.Trash目录的文件移动出即可:hadoop fs -mv /user/ubuntu/.Trash/xx/x/x data/


清空回收站:hadoop fs -expunge


测试删除回收站:hadoop fs -rm -R /user/ubuntu/.Trash


-----------------------------------

配额:quota


1、目录配额:hdfs dfsadmin -setQuota N /dir //N > 0 ,目录配额。1:表示空目录,不能放置任何元素


2、空间配额 :hdfs dfsadmin -setSpaceQuota


hadoop fs === hdfs dfs //文件系统的操作命令

-clsSpaceQuota //清除空间配额

-clsQuota //清除目录配额


---------------------------------------------------

oiv可以查看镜像文件内容 -i是输入文件 -o是输出文件。XML是处理器

具体操作:hdfs oiv -i fsp_w_picpath_000000000000000054 -o ~/a.xml -p XML


查看edit_xxx编辑日志文件:hdfs oev -i xxx_edit -o xxx.xml -p XML



镜像文件是不是在/hadoop/dfs/name/current 这里?

cat: fsp_w_picpath_0000000000000054


bg %是让软件在后台运行


-----------------------------------------------------------

刷新节点:hdfs dfsadmin -refreshNodes


-----------------------------------------













文件 快照 目录 节点 回收站 模式 安全 配额 集群 客户 情况 数据 信息 名称 用户 镜像 配置 命令 大小 客户机 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 安卓m手游软件开发 网页服务器系统选择 形容软件开发技术很好 服务器和个人处理器 昆明教育电视台现场网络安全 关于网络安全的绘画图粉笔 网络安全离岗人员管理制度 冰河云做服务器怎么样 依法负有网络安全监管理 网络安全培训+密码设置 数据库设计不包括什么阶段 王者荣耀转服务器时间间隔 简答题数据库系统的三级体系结构 苹果软件开发配置环境 数据库技术与应用收获 网络技术战争手段 郑州软件开发app价格表 简单好看网络安全手抄报 外文文献常用的数据库 三级网络技术优秀多少分 网络安全相关法律有多少条 北京信息化软件开发一体化 如何增强服务器安全性 长治市科迪计算机网络技术 计算机三级数据库2020真题 郑州软件开发工程师2年工资 计算机考试数据库双引号 发光字牌宣传网络安全 黑科技互联网之路 饥荒云服务器网络延迟
0