导航：首页 > 服务器 >

MapReduce中迭代查询的最优化是怎样的

发表于：2025-02-02 作者：千家信息网编辑

千家信息网最后更新 2025年02月02日，本篇文章为大家展示了 MapReduce中迭代查询的最优化是怎样的，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。MapReduce中迭代查询的最优化摘要：提出

千家信息网最后更新 2025年02月02日MapReduce中迭代查询的最优化是怎样的

本篇文章为大家展示了 MapReduce中迭代查询的最优化是怎样的，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。

MapReduce中迭代查询的最优化

摘要：

提出术语OptIQ：在分布式环境中迭代查询的一种查询优化的方法。（全自动化的）

用到的方法：view materialization and incremental view evaluation.

物化视图和增量视图评估

作用：减少了不同迭代过程中的重复计算

1. INTRODUCTION

几种新的技术：

Spark Haloop REX 查询优化都不是自动化和框架化的，需要程序员指出那些数据需要重用以及手动的指定那些数据如何存储。

OptIQ：为辨别迭代查询中出现的重复计算提出了一个总体框架，应用了在传统数据库领域中的物化视图和增量试图评估和编译器领域中的程序分析和转换的技术。

流程：1、把迭代查询分为变和不变的视图，并且不变的视图将会用到下次的迭代过程中去。

2、通过跳过评估那些收敛的元组来增量化变化的视图。

2、为迭代查询定义SQL语句

包括三部分

Local table 保存当前的迭代中的数据存在本地磁盘中 let语句

Global table 保存上一次迭代的数据存在分布式文件系统。set语句

判断是否收敛时跟新表中（update table）的所有的元组都要进行比较。

R和S是输入表，schema（R）表示R表的属性，T（list）表示T表中有一个list属性，表示一个命题公式。

投影操作（projection）投影输入表中特殊的属性集

选择操作（selection）选择满足输入表中满足的元组

连接操作（join）提取两个输入表的叉积满足^2的元组

Group-by操作重组元组和计算聚集函数

PageRank：

三个表，定义的查询语句如下

Src当前节点 Dest 目的节点 Score相当于PR值 count表示节点的出度

K-means：

两个表

Point数据点，Centro聚集的中心点

定义的语句

3、查询优化：

view materialization and incremental view evaluation.（物化视图和增量视图评估）

物化视图重用了未修改属性子查询的结果

增量视图评估重用了未修改元组的结果

为了进行物化视图-------表分解

把表分解成变和不变的视图，重复使用不变的视图。

为了进行自动的增量--------增量表（delta table）

根据收敛条件减少元组数目。

OptIQ概述图

如何物化视图

1、把update table 分解成变和不变的视图，重写迭代查询语句，把update table 用变化的视图表示(变和不变的视图有一个相同的视图，最后可以用来进行join操作)

2、物化查询过程中不变的视图，重写和简化迭代过程重要使用的不变视图

如PageRank

将Graph（src，dest，score）分解成 VI（src，score）和IT（src，dest）

子查询的提升（在上面的基础上继续优化）如利用分解的表在形成另外一个可以物化的表IT_count

IT_Count = select IT.src,IT.dest,Count.count

from IT, Count

where IT.src = Count.src.

VT表和score表可以相互替换

loop invariant code motion（循环不变量）

物化视图最后优化的语句

Automatic incrementalization

1、跟新操作Update operations

Update操作执行的频率大于Insert和delete操作

2、检测增量表Detecting delta tables

3、得到增量查询Deriving incremental queries

刚开始比较常规的语句

T是update table，q(T)相当于查询语句，φ(ΔT )是收敛条件

set T = q(T ⊕ ΔT )

假设：q(T ⊕ ΔT) = q(T) ⊗ q(ΔT ).

Dscore是score表的一个增量表

研究聚集函数中的增量计算，能够很大程度的提高性能

Sum函数

Count函数和sum函数有相同的分布规律，average函数可以分解为count函数和sum函数

Max和min函数

加了incrementalization之后的语句：

实验

Hadoop和spark上使用OptIQ

PageRank

反应时间和迭代次数减少

K-means

View并没有增加效率，优化过程中磁盘读写增加了。

物化视图：物化视图（Meterialized View）提供了强大的功能，可以用于预先计算，并且保存表连接或者表聚集等耗时比较多的操作的结果，这样子，在执行查询的时候，就可以避免这些耗时的操作，从而快速的得到结果。

空间换时间

如何能够保证IO开销，即消耗空间换取的时间能不能抵消掉读磁盘产生的IO开销。

上述内容就是 MapReduce中迭代查询的最优化是怎样的，你们学到知识或技能了吗？如果还想学到更多技能或者丰富自己的知识储备，欢迎关注行业资讯频道。

很赞哦！

视图查询迭代增量语句函数数据过程评估结果收敛输入属性时间节点相同两个内容分布式开销数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全软件开发帐务如何处理省市区三级联动数据库js 如何查询服务器安装目录最大容量河南商盈通网络技术有限公司乌市软件开发公司电话英伟达服务器有多厉害网络安全法知识问答题库软件开发的规章制度学校网络服务器管理人员 miui手机短信数据库清朗侠网络安全审查办法 java捕获数据库约束江苏大川网络技术有限公司网络安全大赛法首都网络安全日宣传语淘宝回应服务器崩了软件开发应看云趣科技 9900k可以做服务器吗定制软件开发报价依据百度研发数据库做软件开发用英文怎么说青海智慧城管软件开发哪儿好向等级数据表添加新数据库软件开发公司经理数据库表格如何取唯一值大学生网络安全技术研究服务器的易管理性校园网络技术方案百度文库内存nosql数据库服务器管理角色错误的是

千家信息网

千家信息网

MapReduce中迭代查询的最优化是怎样的

Linux中如何传输超大文件

织梦增加让文章置顶一天的方法

相关文章