千家信息网

Hadoop日志小结

发表于:2024-09-27 作者:千家信息网编辑
千家信息网最后更新 2024年09月27日,一、日志分类1、进程日志进程日志即为hadoop各个守护进程的日志,例如ResourceManager、NodeManager、NameNode、DataNode等守护进程。集群启动或者运行期间出现异
千家信息网最后更新 2024年09月27日Hadoop日志小结

一、日志分类


1、进程日志

进程日志即为hadoop各个守护进程的日志,例如ResourceManager、NodeManager、NameNode、DataNode等守护进程。集群启动或者运行期间出现异常,首先应该查看进程日志,它是系统排障的重要工具。默认位置为${HADOOP_HOME}/logs。可以在mapred-env.sh和yarn-env.sh中分别指定HADOOP_MAPRED_LOG_DIR和YARN_LOG_DIR变量来改变默认位置。

进程日志是滚动记录的,当日志达到指定大小之后,会滚动写入下一个文件。可以在$HADOOP_HOME/etc/hadoop/log4j.properties中对文件大小、保留个数等进行相应设置。


2、作业日志

作业日志记录了作业运行的整体情况,以及该作业的计数器统计信息。比如作业一共有多少个map,多少个reduce,分别在什么时候哪个节点启动,各个map进行了多少文件读写、占用了多少CPU时间等等。作业日志在系统监控和调优方面有重要作用。


3、Container日志

Container日志是hadoop各个container记录的日志,其中会包含错误或失败的重要信息。如果没有打开日志聚合,默认是分布在各个nodemanager节点上的。如果打开了日志聚合选项,则会统一放在集中的位置(比如HDFS上)。Container日志会记录作业运行时会发生的各种运行时信息和错误,对于调试和调优有很大的帮助。


二、作业日志位置的移动

作业日志记录的是作业的整体情况,而且会随着作业执行的阶段变化而改变。


1、作业启动后,hadoop会将作业日志放在${yarn.app.mapreduce.am.staging-dir}/${user}/.staging/{$job_ID}目录。其中:

yarn.app.mapreduce.am.staging-dir在yarn-site.xml中指定,默认是/tmp/hadoop-yarn/staging

${user}是运行作业的用户

例如:grid用户发起一个mr作业,job_id为job_1483969906296_0002,在其运行没有结束时,作业的日志会放在/tmp/hadoop-yarn/staging/grid/.staging/job_1483969906296_0002目录中。


2、作业完成后,作业日志会被移到${mapreduce.jobhistory.intermediate-done-dir}/${user},其中${mapreduce.jobhistory.intermediate-done-dir}可以在mapred-site.xml中配置,默认值是${yarn.app.mapreduce.am.staging-dir}/history/done_intermediate


3、第2步的这个新地址只是个临时的中转站,hadoop会定时将这个目录中的日志转移到永久地址:${mapreduce.jobhistory.done-dir}/${year}/${month}/${day}/000000目录中。其中的000000应该会发生变化,暂时未确定代表何种变量,以后确认后再补充。


三、其它补充


1、作业日志中的jhist文件为json格式,保存了作业的主要信息

2、如果需要查看container日志,最好打开日志聚合(在yarn-site.xml中配置yarn.log-aggregation-enable为true),可以使用yarn logs -applicationId 查看完整的container日志。


日志 作业 进程 运行 位置 信息 文件 目录 重要 变量 地址 大小 情况 整体 用户 系统 节点 错误 变化 配置 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 c 数据库求改 k3数据库文件过大 国外知名的物流软件开发公司 公网和内网直接传递数据库 山西大同网络安全 独立服务器的影响 企业网络技术服务直销价格 AB服务器代码encop 可视化数据库链接不上是为什么 中国新能源汽车数据库 计算机三级网络技术论坛 龙族幻想服务器怎么赚钱 万方数据库原文传递次数有上限吗 哪些平台可以找软件开发项目 如何获取数据库中的数量 数据库安装失败如何清理 销售软件开发大概费用 如何用按钮绑定数据库 加强金融网络安全人才队伍建设 硬件软件开发平台 软件开发工作表现 软件开发的安全性要考虑哪些 ntp时间服务器安装 数据库在冷链物流管理有哪些应用 数据库查询设计实验总结和体会 机关网络安全不容忽视 hive数据库是强隔离吗 武汉交个朋友互联网科技怎么样 计算机网络技术数据库工作 为什么要颁布网络安全法规
0