千家信息网

spark MLlib数据类型有哪些

发表于:2025-02-04 作者:千家信息网编辑
千家信息网最后更新 2025年02月04日,本篇内容主要讲解"spark MLlib数据类型有哪些",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"spark MLlib数据类型有哪些"吧!MLlib是
千家信息网最后更新 2025年02月04日spark MLlib数据类型有哪些

本篇内容主要讲解"spark MLlib数据类型有哪些",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"spark MLlib数据类型有哪些"吧!

MLlib是spark的机器学习库,其目的是使得机器学习算法更容易使用和扩展。MLlib包含分类、回归、聚类、协同滤波、降维,以及更低层级的优化原语和更高层级的管道API。MLlib分成两个包:spark.mllib包含建立在RDD之上的原始API,spark.ml提供了建立在DataFrames之上的更高层级的机器学习管道API。推荐使用spark.ml,因为DataFrames使得API更加通用和灵活。

MLlib数据类型

  1. MLlib支持保存在本地的,或者由RDD所表示的分布式向量和矩阵。代数运算由Breeze和jblas库支持。在监督式学习中,一个训练样本称为:a labeled point

  2. 本地向量:元素为double类型,向量下标索引从0开始的int整数;支持dense和sparse两种类型。dense 向量由一个double数组保存向量中所有的值;sparse向量由两个并行的数组支持,分别保存索引和值。类继承关系:Vector -> (DenseVector, SparseVector)

  3. LabeledPoint:包括一个本地向量(可以是dense vector或者sparse vector),和给该向量打上的标签。标签采用double类型保存,所以LabeledPoint可用于分类和回归问题中。对于二值分类问题,标签要么为0,要么为1;对于多类问题,标签为从0开始的整数:0,1,2,...。实际问题中经常遇到训练数据稀疏的情况,MLlib支持从LIBSVM文件加载数据,构造LabeledPoint

  4. 本地矩阵:元素值为double类型,行列索引为int类型;支持dense和sparse矩阵。dense矩阵采用一个double数组,按照列主序保存数组;sparse矩阵采用CSC(Compressed sparse column)格式,以列主序保存矩阵中非零元素。Matrix -> (DenseMatrix, SparseMatrix)

  5. 分布式矩阵:采用long类型保存行列索引,元素值依然是double类型,分布式保存在一个或者多个RDD之中。选择正确的保存格式对分布式矩阵非常重要,因为转换分布式矩阵的格式很可能会牵涉到大量的shuffle IO操作,目前支持3种类型的分布式矩阵:RowMatrix, IndexedRowMatrix, CoordinateMatrix。最基本的类型RowMatrix,是一个以行为主的矩阵,每一行可以看成是一个特征向量,以向量的形式存储在本地。IndexedRowMatrix是特殊的RowMatrix,其还保存了每一行的索引,用于定位特定的行和执行join操作。CoordinateMatrix以坐标序列的形式保存数组中的元素。BlockMatrix是为分块矩阵设计的数据结构,矩阵被分割成一个个矩阵块,保存到本地。

MLlib数据统计

  1. 在RDD[Vector]上,Statistics类提供了基于列的统计函数colStats,colStats返回每一列的最大值,最小值,均值,方差,非零元素个数,以及所有元素数量

  2. 计算两个序列的相关性是一项很常用的操作,使用corr函数可以很容易的计算两个或者多个向量的相关系数,corr函数支持Pearson和Spearman相关系数。

  3. 在RDD[(K,V)],采用分层抽样函数sampleByKey,需指定每一个key抽样的比例

  4. 假设检验,支持皮尔逊卡方检验

  5. 随机数生成,支持均匀分布、标准正态分布、泊松分布

  6. kernel density estimation:允许在不知道被观察样本概率分布的情况下,对其经验概率分布进行可视化。通过评估给定的样本,估计随机变量的分布。在评估随机变量的分布时,假设随机变量的经验概率分布函数,可以表示为以所有采样点为中心的正态分布的均值。

到此,相信大家对"spark MLlib数据类型有哪些"有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

矩阵 类型 向量 支持 数据 元素 分布式 学习 函数 数组 索引 两个 标签 问题 变量 机器 样本 格式 概率 分类 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 电脑改名后无法登录金蝶服务器 为什么360网络安全防护 网络安全法所称网络是指 app雨伞软件开发 08674计算机网络技术题库 管理服务器ide 服务器存在那些安全威胁 现在网络安全吗 学软件开发对英语怎么说 无锡软件开发成本 违反网络安全审查办法的法律责任 明轩圆梦互联网科技公司 数据库自主改善报告 软件开发的三本有什么 重庆软件开发驻场费用 网络安全智能化革命 服务器安全完整性等级 北京从事软件开发有多少人 软件开发涉及到哪些税 北京共信互联网科技有限公司 上海软件开发培训学徒 软件开发中谁负责造测试数据 许可数据治理与网络安全国际联盟 温州无线网络技术有哪些 人力资源系统软件开发 靠谱的珠宝软件开发 我的世界进不去服务器什么原因 数据库的访问模式有哪些 学校网络安全预防最新消息 物理服务器安装几个数据库
0