导航：首页 > 互联网科技 >

怎么使用Cloudera数据工程分析薪资保护计划数据

发表于：2024-11-11 作者：千家信息网编辑

千家信息网最后更新 2024年11月11日，本篇文章为大家展示了怎么使用Cloudera数据工程分析薪资保护计划数据，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。薪酬保护计划（PPP）由美国联邦政府实施

千家信息网最后更新 2024年11月11日怎么使用Cloudera数据工程分析薪资保护计划数据

本篇文章为大家展示了怎么使用Cloudera数据工程分析薪资保护计划数据，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。

薪酬保护计划（PPP）由美国联邦政府实施，旨在为企业提供直接激励措施，以使员工保持工资，特别是在Covid-19大流行期间。PPP帮助合格的企业保留其劳动力，并帮助支付相关业务费用。从数据美国财政部的网站，其公司获得PPP贷款，许多工作是如何保留节目。美国财政部批准了全美大约100万笔PPP贷款。

对这些数据的分析提出了三个挑战。首先，数据量很大。提取、整理、转换、检索和报告该数据的时间非常耗时。其次，数据集可能会发展，这将消耗额外的开发时间和资源。最后，在这样的多阶段过程中，事情可能会破裂。快速确定错误或瓶颈的能力将有助于一致地满足SLA。

这里说明了 Cloudera 数据工程（CDE）中如何使用Apache Spark用于基于PPP数据的报告，同时解决上述所有挑战。

目的

下面设置了德克萨斯州立法预算委员会（LBB）的模拟方案，以帮助数据工程师管理和分析PPP数据。该数据工程师的主要目标是向LBB提供两个最终报告：

• 报告1：德克萨斯州所有保留工作的城市的细目分类

• 报告2：保留职位的公司类型明细

Cloudera数据工程（CDE）

这是运行Apache Spark的Cloudera数据工程（CDE）可以提供帮助的地方。 CDE是Cloudera Data Platform（CDP）中的一项服务，它允许数据工程师创建，管理和调度Apache Spark作业，同时提供有用的工具来监视作业性能，访问日志文件以及通过Apache Airflow编排工作流程。 Apache Spark是一个数据处理框架，能够快速运行大规模数据处理。

美国财政部提供了两种不同的数据集，一种用于大于15万美元的批准贷款，另一种用于15万美元以下的批准贷款。为了生成LBB的两个最终报告，请遵循以下步骤（见图1）。

• 第一步是将两个单独的数据集加载到S3存储桶中。

• 为每个数据集创建了一个Spark作业，以从S3存储桶中提取和过滤数据。

• 这两个Spark作业将转换干净数据并将其加载到Hive数据仓库中以进行检索。

• 创建了第三个Spark作业，以处理来自Hive数据仓库的数据以创建两个报告。

作业运行完成后，CDE将提供每个Spark作业内各个阶段的图形表示（参见图2）。这使数据工程师可以轻松地查看工作中哪些部分可能花费最多的时间，从而使他们可以轻松地完善和改进代码，从而最好地满足客户的SLA。

图 1 ：数据行程以生成两个最终报告。

图 2 ：各种 Spark 阶段的 CDE 图形表示。

结论

实现了从一百万个批准申请人的记录中生成两个最终报告的主要目标。第一份报告的图形摘要（请参见图3）显示了德克萨斯州每个城市保留的职位数量的前10个样本，第二份报告（见图4）显示了保留的职位数排名前5的样本按公司类型。例如，借助这些报告，德克萨斯州立法预算委员会可以推断出人均保留工作量最少的城市可能需要资源来减轻任何经济影响。