Alluxio HA 写入文件失败
发表于:2025-01-23 作者:千家信息网编辑
千家信息网最后更新 2025年01月23日,Alluxio HA环境,今天发生,用户无法写入文件的情况. 创建文件夹,是正常的.但是最后copyFromLocal 文件的时候,就没有任何反应.最后可以看到这个新建的文件.但是文件size是0.a
千家信息网最后更新 2025年01月23日Alluxio HA 写入文件失败
Alluxio HA环境,今天发生,用户无法写入文件的情况. 创建文件夹,是正常的.但是最后copyFromLocal 文件的时候,就没有任何反应.最后可以看到这个新建的文件.但是文件size是0.
alluxio fs copyFromLocal test.txt /user/mytest/prefix2
最后决定重启一下master看看结果.然后重启,然后...就没有然后了.....Master起不来了!!!!
1. 查看master.log发现问题,刚开始,是正常的应用log file,在 inodeId 52,无法正常打开.导致master启动失败.
2018-07-25 16:39:12,897 INFO logger.type (JournalTailer.java:processNextJournalLogFiles) - FileSystemMaster: Processing a completed log file........2018-07-25 16:39:21,461 INFO logger.type (JournalReader.java:getNextInputStream) - Opening journal log file: hdfs://azbeta/user/alluxio/journal/FileSystemMaster/completed/log.000000000000000000072018-07-25 16:39:21,512 INFO logger.type (JournalTailer.java:processNextJournalLogFiles) - FileSystemMaster: Processing a completed log file.2018-07-25 16:39:21,520 ERROR logger.type (ServerUtils.java:run) - Uncaught exception while running Alluxio master, stopping it and exiting.java.lang.RuntimeException: alluxio.exception.FileDoesNotExistException: inodeId 52 does not existat alluxio.master.file.FileSystemMaster.processJournalEntry(FileSystemMaster.java:347)at alluxio.master.journal.JournalTailer.processNextJournalLogFiles(JournalTailer.java:123)at alluxio.master.AbstractMaster.start(AbstractMaster.java:148)at alluxio.master.file.FileSystemMaster.start(FileSystemMaster.java:419)at alluxio.master.DefaultAlluxioMaster.startMasters(DefaultAlluxioMaster.java:263)at alluxio.master.FaultTolerantAlluxioMaster.start(FaultTolerantAlluxioMaster.java:91)at alluxio.ServerUtils.run(ServerUtils.java:38)at alluxio.master.AlluxioMaster.main(AlluxioMaster.java:43)>>>>>>>>>>>>>>>Caused by: alluxio.exception.FileDoesNotExistException: inodeId 52 does not exist<<<<<<<<<<<<<<<<2. 通过hdfs fsck / , 也没有检查到文件损坏.
$ hdfs fsck /user/alluxio/Connecting to namenode via https://azcbetannl02.envazure.com:50470/fsck?ugi=hdfs&path=%2Fuser%2FalluxioFSCK started by hdfs (auth:KERBEROS_SSL) from /10.24.101.76 for path /user/alluxio at Wed Jul 25 16:38:07 CST 2018.........Status: HEALTHYTotal size: 61438434 B (Total open files size: 275 B)Total dirs: 7Total files: 9Total symlinks: 0 (Files currently being written: 1)Total blocks (validated): 8 (avg. block size 7679804 B) (Total open file blocks (not validated): 1)Minimally replicated blocks: 8 (100.0 %)Over-replicated blocks: 0 (0.0 %)Under-replicated blocks: 0 (0.0 %)Mis-replicated blocks: 0 (0.0 %)Default replication factor: 3Average block replication: 3.0Corrupt blocks: 0Missing replicas: 0 (0.0 %)Number of data-nodes: 6Number of racks: 1FSCK ended at Wed Jul 25 16:38:07 CST 2018 in 4 millisecondsThe filesystem under path '/user/alluxio' is HEALTHY
3. 经过google查询,也没有什么好的解决方案.
4. 最后使用杀手锏. format master. 效果立杆见影. master起来了, 数据也全没啦!!! 注意:数据全没了!!
由于我们的alluxio只是一个中间临时缓存,format的影响不大.
5. 我们看看, alluxio正常启动,日志是什么样子的:
2018-07-25 16:40:52,545 INFO logger.type (AbstractMaster.java:start) - FileSystemMaster: Starting leader master.2018-07-25 16:40:52,550 INFO logger.type (JournalWriter.java:completeAllLogs) - Marking all logs as complete.2018-07-25 16:40:52,557 INFO logger.type (AbstractMaster.java:start) - FileSystemMaster: journal checkpoint does not exist, nothing to process.2018-07-25 16:40:52,562 INFO logger.type (JournalWriter.java:getCheckpointOutputStream) - Creating tmp checkpoint file: hdfs://azbeta/user/alluxio/journal/FileSystemMaster/checkpoint.data.tmp2018-07-25 16:40:52,564 INFO logger.type (JournalWriter.java:getCheckpointOutputStream) - Latest journal sequence number: 0 Next journal sequence number: 12018-07-25 16:40:52,699 INFO logger.type (JournalWriter.java:close) - Successfully created tmp checkpoint file: hdfs://azbeta/user/alluxio/journal/FileSystemMaster/checkpoint.data.tmp2018-07-25 16:40:52,720 INFO logger.type (CheckpointManager.java:updateCheckpoint) - Renamed the checkpoint file from hdfs://azbeta/user/alluxio/journal/FileSystemMaster/checkpoint.data.tmp to hdfs://azbeta/user/alluxio/journal/FileSystemMaster/checkpoint.data2018-07-25 16:40:52,720 INFO logger.type (JournalWriter.java:deleteCompletedLogs) - Deleting all completed log files...2018-07-25 16:40:52,722 INFO logger.type (JournalWriter.java:deleteCompletedLogs) - Deleting completed log: hdfs://azbeta/user/alluxio/journal/FileSystemMaster/completed/log.000000000000000000002018-07-25 16:40:52,723 INFO logger.type (JournalWriter.java:deleteCompletedLogs) - Finished deleting all completed log files.2018-07-25 16:40:52,735 INFO logger.type (MetricsSystem.java:startSinksFromConfig) - Starting sinks with config: {}.2018-07-25 16:40:52,750 INFO util.log (Log.java:initialized) - Logging initialized @5111ms2018-07-25 16:40:52,917 INFO server.Server (Server.java:doStart) - jetty-9.2.z-SNAPSHOT2018-07-25 16:40:52,943 INFO handler.ContextHandler (ContextHandler.java:doStart) - Started o.e.j.s.ServletContextHandler@7ee0a1b3{/metrics/json,null,AVAILABLE}2018-07-25 16:41:04,080 INFO handler.ContextHandler (ContextHandler.java:doStart) - Started o.e.j.w.WebAppContext@4e3fbce1{/,file:/data1/alluxio-1.4.0/core/server/src/main/webapp/,AVAILABLE}{/data1/alluxio-1.4.0/core/server/src/main/webapp}2018-07-25 16:41:04,087 INFO server.ServerConnector (AbstractConnector.java:doStart) - Started ServerConnector@47fe4ff8{HTTP/1.1}{0.0.0.0:19999}2018-07-25 16:41:04,087 INFO server.Server (Server.java:doStart) - Started @16448ms2018-07-25 16:41:04,087 INFO logger.type (WebServer.java:start) - Alluxio Master Web service started @ /0.0.0.0:199992018-07-25 16:41:04,088 INFO logger.type (DefaultAlluxioMaster.java:startServing) - Alluxio master version 1.4.0 started @ aznballuxiosl01.envazure.com/10.24.101.103:19998 (gained leadership)
总结:
Alluxio HA的使用,原本是为了数据安全性和稳定性.
但是已经发生过多次,在hdfs上的journal文件夹的共享文件损坏的情况. 稳定性反倒变差了.这个需要重新考量,是否使用hdfs,提供HA的方式了.
另外,每次发生问题的时候hdfs fsck都是正常的.也就是说,不是hdfs 的"锅",而是alluxio写入hdfs的时候,没有成功,导致的文件损坏.
文件
数据
时候
情况
文件夹
稳定性
问题
安全
成功
不大
也就是
也就是说
原本
只是
安全性
效果
方式
方案
日志
杀手
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
40岁 软件开发 学历有用吗
中控考勤软件开发包
51优品软件开发
第九届山东省大学生网络安全大赛
数据库优化方案100条
举例说明对数据库应用的理解
数据库如何关闭自动提交
新版网络安全等级保护制度
西藏一站式网络技术服务怎么样
上海网络安全监察大队
调度数据网网络管理服务器
网络技术三级考试题型应用题
vfp的数据库记录数
电子支付与网络安全期末试卷
财纳康姆斯网络技术
从某一方面介绍网络安全
油管外评中国数据库变化
易语言的对象类型数据库
阿里云ecs服务器证书
mysql数据库连表去重复
ec小游戏服务器管理
邮件服务器 安全
口碑好的零信任网络安全
安装两个服务器系统
中国人民银行 软件开发
数据库跨服务器备份
dayz 服务器教程
自助终端服务器英文缩写
winxp数据库下载
派出所网络安全自查采集