千家信息网

千家信息网

请输入关键字词

热门搜索排行

最新搜索排行

导航：首页 > 互联网科技 >

Spark 累加器实验

发表于：2025-01-24 作者：千家信息网编辑

千家信息网最后更新 2025年01月24日，以下代码用 Pyspark + IPython 完成统计日志空行的数量：读取日志，创建RDD：myrdd = sc.textFile("access.log")不使用累加器：In [6

千家信息网最后更新 2025年01月24日Spark 累加器实验

以下代码用 Pyspark + IPython 完成

统计日志空行的数量：

读取日志，创建RDD：

myrdd = sc.textFile("access.log")

不使用累加器：

In [68]: s = 0In [69]: def f(x):    ...:     global s    ...:     if len(x) == 0:    ...:         s += 1    ...:In [70]: myrdd.foreach(f)In [71]: print (s)

得出结果为：

原因是python 的变量，即使是全局变量不能应用在各个计算进程（线程）中同步数据，所以需要分布式计算框架的变量来同步数据，Spark 中采用累加器来解决：

使用累加器

In [64]: s = sc.accumulator(0)In [65]: def f(x):    ...:     global s    ...:     if len(x) == 0:    ...:         s += 1    ...:In [66]: myrdd.foreach(f)In [67]: print (s)

得出正确结果：

累加器变量数据日志结果同步代码全局分布式原因数量框架空行线程进程应用统计实验数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全 sql不是关系数据库全国dns服务器中国自己研发的数据库服务器为什么会出现网络错误从数据库获取数据PHP 网络技术可以学什么海岛奇兵服务器维护中上海希游网络技术有限公司陌生社交app软件开发有服务器怎么看视频河北app软件开发服务介绍服务器ip怎么设置手动内部网络安全隐患有哪些陈良网络安全数据库中表的组成是哪两种辽宁专科学校软件开发万全t260服务器bios设置软件开发质量管理课程提升群众网络安全 ps4重新构建数据库 5g网络技术集训班数据库安全控制模块华为弹性云服务器的cpu型号通信网络技术服务行业排名从科技方面讲互联网面向方面软件开发模型 ms数据库计算机网络安全篇事例免费http代理服务器ip jfinal访问数据库

相关文章