千家信息网

大数据运营之数据存储

发表于:2024-09-21 作者:千家信息网编辑
千家信息网最后更新 2024年09月21日,大数据服务的数据源不但来自归属于不同行业的组织之中,而且其类型还具有多样性(Variety)特征。多样性指的是大数据服务不仅包括例如姓名、年龄这样的结构化数据,还包括歌曲、电影这样的非结构化数据,此外
千家信息网最后更新 2024年09月21日大数据运营之数据存储

大数据服务的数据源不但来自归属于不同行业的组织之中,而且其类型还具有多样性(Variety)特征。

多样性指的是大数据服务不仅包括例如姓名、年龄这样的结构化数据,还包括歌曲、电影这样的非结构化数据,此外网页、邮件这样的数据介于结构化和非结构化之间,属于半结构化数据,也是大数据服务的重要数据源。

结构化数据来源于业务需求,系统分析员将需求中静态的"名词"提取出来并进行抽象,作为数据库表结构设计的依据。比如我们设计一个学籍管理系统,通过分析发现"张三"、"李四"等学生具有姓名、年龄、所属院系、所选课程、课程分数等属性,于是系统分析员将这些属性选取出来并设计一个"学生"类,那么"学生"表结构就相当于一个模板,可以将"张三"、"李四"等学生的姓名、年龄、班级等结构化数据存储到数据表中。由于数据表是二维的,借助关系型数据库的SQL语言,可以从多个维度对结构化数据进行查询统计。

与结构化数据相对的是非结构化数据。顾名思义,非结构化数据是不可以提取字段并定义属性的,只能以图片、语音、视频的媒体形式存在。虽然非结构化数据不像结构化数据那样能够进行统计分析,但是并不代表非结构化数据并没有价值。

非结构化数据可以以多媒体的形式存在,生动形象地反馈信息,因此我们可以从非结构化数据中采集有价值的信息,并将这些采集的新增转化为结构化数据,通过对非结构化数据的"理解"来发现其中隐藏的价值。

介于结构化数据和非结构化数据之间的是半结构化数据。半结构化数据的结构和内容混合在一起,例如电子邮件、网页等。从半结构化数据中同样可以抽取出许多有价值的数据,比如电子邮件中可以采集到发件人、收件人、标题等,通过对邮件的收发地址、频率、主题等进行分析,可以形成以电子邮件为通信媒介的社交网络。

企业可以根据应用的要求、数据的规模、数据的类型等维度进行分析和设计,选择不同的存储架构。

对于数据规模大、数据结构简单、对查询效率要求高的应用,可以采用Hadoop/Hbase这样的分布式存储架构。由于Hadoop/HBase存储架构采用键值存储结构,具有良好的可扩展性,因此可以通过增加基础设施资源来提高查询效率,系统整体性能随着集群规模的增大而线性增长。

对于需要关联多个数据模型才能实现的分析型应用,则可以考虑采用关系型数据库作为存储库。对于以邮件、文档、录音、录像等文件形式存在的非结构化数据,可以采用NAS(Network Attached Storage,网络连接式存储)存储架构,对于存取频率高、单次存取数据量小的结构化数据,具有明确数据类型和数据长度,可以考虑采用SAN(Storage Area Network,存储区域网络)存储架构。

对于以文件为存取单位的非结构化数据,则适合采用NAS(Network Attached Storage,网络连接式存储)存储架构。通常情况下,存储架构采用SAN和NAS混合的形式。

SAN和NAS属于"主机+磁盘阵列"的系统架构,在大数据时代,随着数据量的不断增加,企业越来越采用"单机+硬盘"组成的系统架构。这种架构适合于需要批量数据处理的分析型应用,并且对单个应用设备的能力要求不高,可以有效地利旧低端设备,可以快速地实现横向资源扩展。

数据 结构 结构化 存储 架构 系统 邮件 分析 应用 学生 形式 网络 设计 价值 姓名 属性 年龄 数据库 电子 电子邮件 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 软件开发时建立初始结构图 信息与网络安全管理制度 数据插入数据库出现问号c 数据库查询每个人总成绩 软件开发技术发展前景 选择网络安全测评对象 景德镇个人服务器哪家靠谱 db2数据库查所有表结构 英雄联盟集卡数据库请求失败 新乡市明颢网络技术有限公司 网络安全专业与数字媒体技术 lol哪个服务器靠近河南 网络工程师是否需要考网络技术 成都软件开发甲方机会多吗 河南省计算机三级网络技术 大学法制展厅软件开发 万方数据库到底好不好 全国防疫码数据库有误 图文处理用服务器 物流管理数据库系统源代码 软件开发难度金字塔 安装数据库时出现挂起 应用服务器中间件的使用 网络安全游戏是什么游戏 iis如何新建数据库 集团企业网络安全体系规划ppt js选择日期更新数据库 计算机软件开发发展 幼苗网络安全课观后感 嘉兴聚优网络技术有限公司
0