Spark 中怎么读取本地日志文件
发表于:2025-01-29 作者:千家信息网编辑
千家信息网最后更新 2025年01月29日,这篇文章给大家介绍Spark 中怎么读取本地日志文件,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。1.代码如下import java.io.{FileWriter, Buffer
千家信息网最后更新 2025年01月29日Spark 中怎么读取本地日志文件
这篇文章给大家介绍Spark 中怎么读取本地日志文件,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。
1.代码如下
import java.io.{FileWriter, BufferedWriter, File}import com.alvinalexander.accesslogparser.{AccessLogRecord, AccessLogParser}import org.apache.spark.{SparkContext, SparkConf}import scala.collection.immutable.ListMap/** * Spark 读取本地日志文件,抽取最高的访问地址,排序,并保存到本地文件 * Created by eric on 16/6/29. */object LogAnalysisSparkFile { def getStatusCode(line: Option[AccessLogRecord]) = { line match { case Some(l) => l.httpStatusCode case None => "0" } } def main(agrs: Array[String]): Unit = { //设置本地运行,在Vm options:上填写:-Dspark.master=local ,Program arguments上填写:local val sparkConf = new SparkConf().setMaster("local[1]").setAppName("StreamingTest") val sc = new SparkContext(sparkConf) val p = new AccessLogParser val log = sc.textFile("/var/log/nginx/www.eric.aysaas.com-access.log") println(log.count())//68591 val log1 = log.filter(line => getStatusCode(p.parseRecord(line)) == "404").count() println(log1) val nullObject = AccessLogRecord("", "", "", "", "GET /foo HTTP/1.1", "", "", "", "") val recs = log.filter(p.parseRecord(_).getOrElse(nullObject).httpStatusCode == "404") .map(p.parseRecord(_).getOrElse(nullObject).request) val wordCounts = log.flatMap(line => line.split(" ")) .map(word => (word, 1)) .reduceByKey((a, b) => a + b) val uriCounts = log.map(p.parseRecord(_).getOrElse(nullObject).request) .map(_.split(" ")(1)) .map(uri => (uri, 1)) .reduceByKey((a, b) => a + b) val uriToCount = uriCounts.collect // (/foo, 3), (/bar, 10), (/baz, 1) ...//无序 val uriHitCount = ListMap(uriToCount.toSeq.sortWith(_._2 > _._2):_*) // (/bar, 10), (/foo, 3), (/baz, 1),降序 uriCounts.take(10).foreach(println) println("**************************") val logSave = uriHitCount.take(10).foreach(println) // this is a decent way to print some sample data uriCounts.takeSample(false, 100, 1000) //输出保存到本地文件,由于ListMap,导致 saveAsTextFile 不能用 // logSave.saveAsTextFile("UriHitCount") val file = new File("UriHitCount.out") val bw = new BufferedWriter(new FileWriter(file)) for { record <- uriHitCount val uri = record._1 val count = record._2 } bw.write(s"$count => $uri\n") bw.close }}
2.结果图如下
关于Spark 中怎么读取本地日志文件就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。
文件
日志
内容
更多
帮助
不错
最高
代码
兴趣
地址
小伙
小伙伴
文章
知识
篇文章
结果
参考
抽取
排序
输出
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
长沙市网络安全资讯
成都萌果果软件开发有限公司
网络安全竞聘部门领导
有发展的网络安全接入方案
福建移动云空间服务器
药师代码数据库动态维护步骤
数据库QQ
三星服务器内存条怎么选
海淀区智能网络技术售后保障
矿大数据库实验报告
linux 连接服务器
网络安全产品有主要有哪些
软件开发成功祝贺语
数据库自动化技术有哪些
文库网络技术有限公司
网络技术监督职责
网络代理服务器ip
网络安全资质证书考试
云服务器租用价格多少钱一年学生
全文数据库有哪些英文缩写
网络安全监测服务请示
ttplink虚拟服务器设置
崇明区品质数据库服务有哪些
软件开发的行业费率
服务器网站的管理需要什么证
普宁天气预报软件开发
sql2000的数据库管理在哪
关于天然气泄漏数据库搭建
做网络安全的守门员
福建定制网络技术咨询哪家好