千家信息网

大数据中的数据挖掘与建模是怎样的

发表于:2025-01-30 作者:千家信息网编辑
千家信息网最后更新 2025年01月30日,这篇文章主要为大家分析了大数据中的数据挖掘与建模是怎样的的相关知识点,内容详细易懂,操作细节合理,具有一定参考价值。如果感兴趣的话,不妨跟着跟随小编一起来看看,下面跟着小编一起深入学习"大数据中的数据
千家信息网最后更新 2025年01月30日大数据中的数据挖掘与建模是怎样的

这篇文章主要为大家分析了大数据中的数据挖掘与建模是怎样的的相关知识点,内容详细易懂,操作细节合理,具有一定参考价值。如果感兴趣的话,不妨跟着跟随小编一起来看看,下面跟着小编一起深入学习"大数据中的数据挖掘与建模是怎样的"的知识吧。

纸上得来终觉浅,绝知此事要躬行。

数据挖掘是基于统计学原理,利用机器学习中的算法工具实现价值信息的发现。机器学习是一种实现人工智能的方法,深度学习是实现机器学习的一种技术。

四大经典算法:分类、关联、聚类、回归

一、监督学习 (通俗来说就是已知样本类别,即知道当前的样本是哪一类的样本。)

1、分类分析:找出一组对象的共同特点并按照分类模式将他们分为不同类,分为线性分类和非线性分类。

线性分类典型的算法包括逻辑回归和线性判别分析。
非线性分类经典算法包括K近邻(KNN)、支持向量机(SVM)、决策树(D Tree)、朴素贝叶斯(NB)
2、回归分析:反映事务数据属性在时间上的特征,预测数据间的相关关系,与分类区别在于,分类是预测目标的离散变量,而回归是预测目标的连续变量。
典型的回归分析模型包括线性回归分析、支持向量机(回归)、K近邻(回归)。

二、无监督学习(事先没有任何训练数据样本,需要直接对数据进行建模,即不提供经验和训练样本,完全靠自己摸索)

1、关联分析:描述数据库中数据之间存在关系的规则。
关联规则挖掘中有4个指标:置信度、支持度、期望置信度、提升度。
典型算法:Apriori算法、FP-Tree算法、PrefixSpan算法。
2、聚类分析:训练样本标签信息未知,通过学习揭示数据内在性质及规律。
典型算法:K均值算法(K-means)、DBSCAN(具有噪声的基于密度的聚类方法)。

三、沃尔玛经典营销案例:啤酒与尿布

模型发现: 20世纪90年代的美国沃尔玛超市中,管理人员分析销售数据时发现了一个令人难于理解的现象: 在某些特定的情况下,"啤酒"与"尿布"两件看上去毫无关系的商品会经常出现在同一个购物篮中。
原因分析: 在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。 父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。
模型应用: 在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物; 而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入。
理论支撑: 1993年美国学者Agrawal提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。 艾格拉沃从数学及计算机算法角度提 出了商品关联关系的计算方法--Apriori算法。

关于"大数据中的数据挖掘与建模是怎样的"就介绍到这了,更多相关内容可以搜索以前的文章,希望能够帮助大家答疑解惑,请多多支持网站!

数据 算法 分析 商品 分类 学习 尿布 样本 关联 啤酒 数据挖掘 典型 线性 支持 购物 之间 方法 机器 模型 父亲 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 注意网络安全有哪些事项 逆战安全服务器断开连接 服务器未测速什么原因 浙江专升本计算机网络技术考哪些 影视后期软件开发 ai在计算机网络技术应用 ource创投数据库 mysql数据库访问技术 为什么要选择定位服务器 数据库treeview 广东公安软件开发商 定时任务更新数据库 方舟手游服务器pvp无限炮塔 网站放入服务器根目录网站不显示 腾讯云服务器有什么好处 彭州网络安全知识大全 企业级地理数据库的连接文件 南大通用数据库教程 配置信息存文件和数据库 网络安全方案设计工作原理 厦门网络技术服务包括什么 上海服务器电源报价多少钱 小米 系统软件开发工程师 网络技术在工作学习中的好处 宽带连接电视无法解析服务器域名 数据库升本湖北 高清录播服务器720 为何有网络还提示无法连接服务器 网络安全防范培训ppt 移动网络技术的内容传播
0