记一次Alluxio HA master启动失败
发表于:2025-01-31 作者:千家信息网编辑
千家信息网最后更新 2025年01月31日,1. 今天遇到一个情况,就是alluxio不能正常访问,经过日志查看,发现下面错误。2018-05-14 03:35:58,680 ERROR logger.type (HdfsUnderFileSy
千家信息网最后更新 2025年01月31日记一次Alluxio HA master启动失败
1. 今天遇到一个情况,就是alluxio不能正常访问,经过日志查看,发现下面错误。
2018-05-14 03:35:58,680 ERROR logger.type (HdfsUnderFileSystem.java:open) - 4 try to open hdfs://sandy-bridge/user/alluxio/journal/FileSystemMaster/completed/log.00000000000000000001 : Cannot obtain block length for LocatedBlock{BP-1941630157-10.16.13.73-1486732586674:blk_1322900685_252817168; getBlockSize()=254; corrupt=false; offset=0; locs=[10.16.13.189:1019, 10.16.13.84:1019, 10.16.13.128:1019]; storageIDs=[DS-30126b4d-afdf-449a-8de1-e479c1abf33d, DS-ed2e905e-fa43-4f51-801f-3305da180d2a, DS-0e1946c8-dccb-4143-8d74-c11d8d429d02]; storageTypes=[DISK, DISK, DISK]}java.io.IOException: Cannot obtain block length for LocatedBlock{BP-1941630157-10.16.13.73-1486732586674:blk_1322900685_252817168; getBlockSize()=254; corrupt=false; offset=0; locs=[10.16.13.189:1019, 10.16.13.84:1019, 10.16.13.128:1019]; storageIDs=[DS-30126b4d-afdf-449a-8de1-e479c1abf33d, DS-ed2e905e-fa43-4f51-801f-3305da180d2a, DS-0e1946c8-dccb-4143-8d74-c11d8d429d02]; storageTypes=[DISK, DISK, DISK]}at org.apache.hadoop.hdfs.DFSInputStream.readBlockLength(DFSInputStream.java:400)at org.apache.hadoop.hdfs.DFSInputStream.fetchLocatedBlocksAndGetLastBlockLength(DFSInputStream.java:305)at org.apache.hadoop.hdfs.DFSInputStream.openInfo(DFSInputStream.java:242)at org.apache.hadoop.hdfs.DFSInputStream.(DFSInputStream.java:235)at org.apache.hadoop.hdfs.DFSClient.open(DFSClient.java:1487)at org.apache.hadoop.hdfs.DistributedFileSystem$3.doCall(DistributedFileSystem.java:302)at org.apache.hadoop.hdfs.DistributedFileSystem$3.doCall(DistributedFileSystem.java:298)at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)at org.apache.hadoop.hdfs.DistributedFileSystem.open(DistributedFileSystem.java:298)at org.apache.hadoop.fs.FileSystem.open(FileSystem.java:766)at alluxio.underfs.hdfs.HdfsUnderFileSystem.open(HdfsUnderFileSystem.java:387)at alluxio.underfs.BaseUnderFileSystem.open(BaseUnderFileSystem.java:124)at alluxio.master.journal.JournalReader.getNextInputStream(JournalReader.java:114)at alluxio.master.journal.JournalTailer.processNextJournalLogFiles(JournalTailer.java:118)at alluxio.master.AbstractMaster.start(AbstractMaster.java:140)at alluxio.master.file.FileSystemMaster.start(FileSystemMaster.java:419)at alluxio.master.DefaultAlluxioMaster.startMasters(DefaultAlluxioMaster.java:263)at alluxio.master.FaultTolerantAlluxioMaster.start(FaultTolerantAlluxioMaster.java:91)at alluxio.ServerUtils.run(ServerUtils.java:38)
2. 首先是怀疑文件log.00000000000000000001损坏,经过hfs fsck的检查,并没有发现corruption,但是Total size: 0,这是个问题。
[hdfs@hdfs-namenode hdfs]$ hdfs fsck /user/alluxio/journal/FileSystemMaster/completed/log.00000000000000000001Connecting to namenode via http://hdfs-namenode.eu-central-1.compute.internal:50070/fsck?ugi=hdfs&path=%2Fuser%2Falluxio%2Fjournal%2FFileSystemMaster%2Fcompleted%2Flog.00000000000000000001FSCK started by hdfs (auth:KERBEROS_SSL) from /10.16.13.73 for path /user/alluxio/journal/FileSystemMaster/completed/log.00000000000000000001 at Mon May 14 03:53:11 UTC 2018Status: HEALTHYTotal size: 0 B (Total open files size: 254 B)Total dirs: 0Total files: 0Total symlinks: 0 (Files currently being written: 1)Total blocks (validated): 0 (Total open file blocks (not validated): 1)Minimally replicated blocks: 0Over-replicated blocks: 0Under-replicated blocks: 0Mis-replicated blocks: 0Default replication factor: 3Average block replication: 0.0Corrupt blocks: 0Missing replicas: 0Number of data-nodes: 41Number of racks: 1FSCK ended at Mon May 14 03:53:11 UTC 2018 in 1 millisecondsThe filesystem under path '/user/alluxio/journal/FileSystemMaster/completed/log.00000000000000000001' is HEALTHY
3. 将这个问题件mv走,再启动alluxio HA master,启动成功。
[hdfs@hdfs-namenode hdfs]$ hdfs dfs -mv /user/alluxio/journal/FileSystemMaster/completed/log.00000000000000000001 /user/alluxio/journal/FileSystemMaster/completed/log.00000000000000000001.bak[hdfs@hdfs-namenode hdfs]$ hdfs dfs -ls /user/alluxio/journal/FileSystemMaster/completed/Found 2 items-rw-r--r-- 3 alluxio alluxio 254 2018-01-29 09:32 /user/alluxio/journal/FileSystemMaster/completed/log.00000000000000000001.bak-rw-r--r-- 3 alluxio alluxio 397 2018-05-14 03:03 /user/alluxio/journal/FileSystemMaster/completed/log.00000000000000000002
4. 其中尝试过,将文件再mv回来,但是alluxio依然启动失败,还是最开始的错误。
5. 直接cat这个文件,发现也不能访问。
hdfs dfs -cat /user/alluxio/journal/FileSystemMaster/completed/log.00000000000000000001.bakcat: Cannot obtain block length for LocatedBlock{BP-1941630157-10.16.13.73-1486732586674:blk_1322900685_252817168; getBlockSize()=254; corrupt=false; offset=0; locs=[DatanodeInfoWithStorage[10.16.13.189:1019,DS-30126b4d-afdf-449a-8de1-e479c1abf33d,DISK], DatanodeInfoWithStorage[10.16.13.128:1019,DS-0e1946c8-dccb-4143-8d74-c11d8d429d02,DISK], DatanodeInfoWithStorage[10.16.13.84:1019,DS-ed2e905e-fa43-4f51-801f-3305da180d2a,DISK]]}
6. 而正常的文件,输出如下:
[hdfs@hdfs-namenode hdfs]$ hdfs dfs -cat /user/alluxio/journal/FileSystemMaster/completed/log.00000000000000000002NOT_PERSISTED(0,@ HPXhdatadownloadz_20180510130731077.zip"NOT_PERSISTED(0,@ HPXhdatadownloadzdatadownload Z 6Perrier_%3F%3F_20180101_20180104_20180510130731077.zip"NOT_PERSISTED(0,@ HPXhdatadownloadzdatadownload Z 6Perrier_%3F%3F_20180101_20180104_20180510130731077.zip"NOT_PERSISTED(0,@ HPXhdatadownloadzdatadownload Z 6Perrier_%3F%3F_20180101_20180104_20180510130731077.zip"NOT_PERSISTED(0,@ HPXhdatadownloadz datadownload Z 6Perrier_%3F%3F_20180101_20180104_20180510130731077.zip"
7. Alluxio master是启动成功了,但是丢了一部分数据。
这个问题,有时间,还要继续研究一下,看是否能将数据找回。
文件
问题
成功
数据
错误
就是
情况
日志
时间
还是
这是
尝试
检查
研究
输出
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
闵行区上门软件开发厂家价格走势
科技互联网分享精品软件教程和资源
什么是数据库加盐
软件开发的ss阶段
管家婆远程服务器设置视频
人工智能的数据库
启动4g里语音与数据库
服务器怎么管理软件安装包
em7服务器地址怎么看
计算机移动终端软件开发
绿盟网络安全工程师
西安元福网络技术有限公司
全球十大互联网科技
浙江虚拟服务器管理软件云服务器
服务器系统在u盘上怎么用
河北信息化软件开发厂家现货
局域网怎么远程登录服务器
天津升腾服务器厂家供应
物联网设计大数据下数据库的构架
雅安游戏软件开发
流程管理软件开发
视频号网络技术
公众号域名服务器ip查询
陕西网络技术服务方案
职友集软件开发加班多吗
word网络安全海报
如何做一个软件开发者
网络安全达到334
数据库 代数
上善若水软件开发