千家信息网

大数据时代,ETL工具的新标准正在削弱供应商价值!

发表于:2025-02-03 作者:千家信息网编辑
千家信息网最后更新 2025年02月03日,如果你问企业"ETL工具重要吗?"我想答案一定是肯定的;如果你问企业"一定要选用商用ETL工具吗?",这个结果就不见得那么统一了。ETL供应商足以应对不断变化的数据环境而更好得生存吗?ETL起源于数据
千家信息网最后更新 2025年02月03日大数据时代,ETL工具的新标准正在削弱供应商价值!

如果你问企业"ETL工具重要吗?"我想答案一定是肯定的;如果你问企业"一定要选用商用ETL工具吗?",这个结果就不见得那么统一了。ETL供应商足以应对不断变化的数据环境而更好得生存吗?ETL起源于数据仓库,虽然开发人员的学习曲线很高,但它提供了许多好处,比如分布式处理、可维护性、基于UI而不是脚本等。

耦合对编程而言是一个旧概念,但在涉及数据处理方式时仍然是一个相对较新的概念。众所周知,ETL流紧密耦合,但现在的数据流管道是松散耦合的,这种方法也有缺点,例如用暗数据创建数据沼泽。

标准化转换仍然可以遵循ETL过程,但对于像数据自助服务这样的全新概念,不能使用旧的流程和实践。数据质量、数据安全性、元数据管理和数据治理等标准ETL流程仍然与数据驱动相关。

数据湖的影响

大数据的到来对ETL的整体流程造成了影响,ETL必须转型并开始支持大数据生态系统技术,以下是ETL受到大数据影响的具体方式:

1、ETL仍然与使用的DW环境相关。目前,DW和数据湖通过扩展和改进架构相互补充,可能未来也是如此,因为所有新的用例都是使用数据湖构建的。

2、与使用ETL工具/引擎进行处理并将RDBMS作为存储来实现标准转换相比,使用数据湖处理和存储数据提供了单一平台,易于使用且更便宜。

3、数据湖扩展了仅来自标准化ETL的分析,因为数据湖可以实现首次获取,然后是数据准备,这是面向自助服务和ad-hoc的,这在ETL中是不可用的。

4、数据湖被用作数据登陆/归档,甚至RDBMS也无法作为存储解决方案处理。因此,需要重新思考如何实施ETL工具。

5、ETL并不适合在非结构化环境中使用,但是大数据流程可以存储半结构化和非结构化数据,这使得ETL必须向这些方向转换。

随着大数据而出现的新的体系结构和技术都在逐渐削弱传统ETL的作用,ETL工具需要支持新的技术才会有价值,需要向Hadoop和其他开放式架构转变,这也意味着传统ETL供应商的作用在减少。

重塑ETL,需要注意哪些事情:

1、与开源工具的结合程度

用于数据处理和存储的专有技术正在失去与ETL工具的相关性,ETL供应商应该能够支持所有开源项目,比如Spark、MR以及HDFS等。

2.以云为中心

ETL工具应该支持具有内部部署版本的云原生架构,有一些新的云原生ETL工具,如Snaplogic,Informatica Cloud和Talend Integration Cloud,它们提供了一个集成平台即服务(iPaaS),可以解决基础架构方面的许多挑战,但仍有一些ETL功能方面的限制。与新兴工具相比,这些ETL工具并非自助服务,未来应该更多地关注自助服务和机器学习,可以尽量让这些工具实现 ad-hoc和自我训练。

3.为融合数据做准备

ETL是一个以开发人员为中心的数据转换工具,而融合数据准备则是以自助服务为重点的数据转换工具。随着越来越多得开发人员使用数据湖进行分析,无论是临时流程还是标准流程,ETL都开始变得无关紧要,因为自助服务将变得更加普遍,两者合并为创建单一数据转换类别工具,这样的工具可用于任何标准和临时转换。

4. AI / ML

AI / ML是一个推动者,它通过自动化流程帮助数据工程师和开发人员轻松快速完成工作。在AI算法和数据工作者之间创建一个沟通桥梁, 一旦建议被开发者接受,AI就会开始学习,并根据建议调整分类和转换。

因此,AI将继续影响数据架构的许多部分,包括数据分类、数据建模、数据存储等自学习算法,ETL工具需要支持AI解决方案--部分供应商已经开始提供AI功能但离被用作标准解决方案还差得远。

5.自助设计能力

ETL工具应该通过增强现有工具并为此类设计提供新工具,支持创建新的基于自助服务的设计/流程,这将有助于为企业创建新的基于自助服务的用例。

6.实时支持

通过开源技术提供实时支持,并对现有工具的体系结构或为此目的创建新工具,实时让该工具为大数据的所有用例提供支持。

7.大数据质量

仍然没有可以提高大数据质量的ETL工具。很少有人能够描述清楚大数据流程,也没有基于规则的引擎来支持这种执行。 ETL供应商应该专注于这个关键领域,以便能够与Hadoop上基于平台的新工具竞争。

8.匹配和合并大数据支持

在MDM和ETL的灰色区域中 - 需要提供对数据湖中获取数据的支持。这也是一个关键领域,通过使用ML技术,这可以由供应商轻松提供。

9.统一元数据目录支持

大数据时代,企业需要访问其所有数据目录。由于ETL工具已经是元数据的存储库,因此它们能够支持这样的要求,该功能需要自动填充目录,自动对数据进行分类/标记,并启用搜索功能和群组/专家评级。

10.以可重用性为中心的数据湖设计

ETL工具应该通过设计为可重用组件提供支持,这个需求已经出现很久了,是时候重视起来了。

结论
由于大数据时代的到来,企业对数据的掌握更加重视,都希望以更低的成本获得更好的见解,ETL工具需要根据新的需求进行改造,供应商可能会逐渐淡出ETL世界,但还是可以将ETL作为数据转换活动的基础工具提供。 在国外,类似于Talend、Informatica等ETL供应商已经认识到了这些挑战,并创建了专门针对大数据和云计算的新产品。

数据 工具 支持 流程 服务 供应商 供应 标准 存储 技术 处理 企业 架构 结构 设计 人员 功能 学习 开发 影响 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 怎样查出数据库为空的数据 水包砂色卡数据库 网络安全知识 技能考核计划 广州互联网软件开发需要多少钱 好视通连接服务器失败 广州直销软件开发公司哪个好 畅游软件开发工作室靠谱不 嘉定区参考网络技术咨询创新服务 网络安全信息评估 敏捷软件开发结对编程 泰拉瑞亚服务器开荒群 单招软件开发学校排名 网络安全知识竞赛电子证书 服务器hly红灯快闪 淘淘汽车配件网数据库 误删公司数据库要赔偿多少钱 广州商城小程序软件开发 计算机三级网络技术与应用 新剑侠情缘龙雀版服务器端 华为历年研发费用数据库 衡阳市公安局网络安全检查 棋牌游戏软件开发企业最专业 vr软件开发翻译 贵州数据网络安全工程均价 河南储存服务器云空间 什么是计算机网络技术供应 合肥哈咔网络技术有限公司 炫舞服务器为什么断开 政府网络安全分析报告 中国的服务器有安全问题吗
0