多来源数据采集、处理的数据流程
发表于:2025-01-23 作者:千家信息网编辑
千家信息网最后更新 2025年01月23日,数据平台数据处理流程图数据准备:主要分为几个来源:FTP数据来源,合作方推送的数据,从携程对外开放的API接口获取数据,酒店管理系统日志数据以及在线旅行社网站的数据源。数据接入:针对数据多来源的特性开
千家信息网最后更新 2025年01月23日多来源数据采集、处理的数据流程
数据平台数据处理流程图
- 数据准备:
主要分为几个来源:FTP数据来源,合作方推送的数据,从携程对外开放的API接口获取数据,酒店管理系统日志数据以及在线旅行社网站的数据源。 - 数据接入:
针对数据多来源的特性开发针对特定场景的数据接入方式。
a.FTP来源的数据:采用shel脚本开发,包括检查数据是否准备就绪、开始下载、解密解包、lzop压缩、put方式上传文件到HDFS
b.合作方推送的数据:搭建简单的web服务,接受携程推送的请求,利用Nginx完成请求负载,并利用Nginx记录请求中的数据,写入文件。后续通过日志收集系统获取数据(其实可以从合作方直接将数据推送Kafka的)
c.合作方API接口数据:开发程序形成生产者消费者模式,生产者将任务写入队列,消费者从队列中获取任务并利用线程池并发从合作方API接口获取数据
d.PMS日志数据:主要由开源Flume组件完成
e.网站数据:利用爬虫抓取网站数据
3.数据存储:
分为实时和离线数据存储两种方式,分别通过Kafka和HDFS进行存储
4.数据处理:
在数据处理环节,主要利用MapReduce和Spark进行数据处理任务的开发。
5、数据查询:
将Hive定义在数据查询这一流程,用户在使用数据平台过程中,通过Hive对数据进行查询。
数据
合作方
合作
来源
处理
数据处理
开发
推送
任务
接口
方式
日志
网站
存储
查询
流程
平台
数据查询
文件
消费者
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
软件开发组长工作总结
如何编程安卓软件开发
数据库给表重命名
惠山区进口软件开发大全
剪辑软件开发需要多少钱
网络安全防护实训总结
武汉高校网络安全
网络安全配置核查
珠海轩旸互联网科技有限公司
石嘴山网络安全事件
网络技术和信息安全哪个好考
网络安全不涉及范围的是
加强网络安全保护作文题目
济南医疗软件开发
新淼软件开发公司
如何创建个人mysql数据库
广东通信软件开发价目表
QT软件开发知乎
网络安全大学生征兵
数据库新建用户名
主机安全 网络安全 数据安全
云平台管理服务器难点
美国农业部数据库如何使用
中国三大互联网科技巨头
手机怎么设置网络安全
烽火服务器带外管理口地址
北京停车系统软件开发费用
专用财务软件开发
中山信息网络安全协会
怎么把数据库改名字