給与保護プログラム(PPP)は、特にCovid-19のパンデミックの際に、企業が従業員を給与にとどめるための直接的なインセンティブを提供するために、米国連邦政府によって実施されています。 PPPは、資格のある企業が労働力を維持し、関連する事業費の支払いを支援します。米国財務省のWebサイトのデータは、PPPローンを受け取った企業と、保持された雇用の数を示しています。米国財務省は、全米で約100万件のPPPローンを承認しました。
このデータの分析には、3つの課題があります。まず、データのサイズが重要です。そのデータをプル、キュレート、変換、取得、およびレポートするための時間は、時間がかかります。第二に、データセットは進化する可能性が高く、追加の開発時間とリソースを消費します。最後に、このような多段階のプロセスでは、物事が壊れる可能性があります。エラーやボトルネックをすばやく特定する機能があると、SLAを一貫して満たすのに役立ちます。
このブログでは、ApacheSparkを使用するClouderaData Engineering(CDE)を使用して、上記の各課題に対処しながら、PPPデータに基づいてレポートを作成する方法を説明しています。
目的
データエンジニアがPPPデータを管理および分析するのに役立つように、Texas Legislative Budget Board(LBB)の模擬シナリオを以下に示します。このデータエンジニアの主な目的は、LBBに2つのエンドレポートを提供することです。
- レポート1:雇用を維持したテキサス州のすべての都市の内訳
- レポート2:雇用を維持した企業タイプの内訳
Cloudera Data Engineering(CDE)
これは、ApacheSparkを実行しているClouderaData Engineering(CDE)が役立つ場合があります。 CDEはClouderaDataPlatform(CDP)のサービスの1つであり、データエンジニアがApache Sparkジョブを作成、管理、スケジュールできると同時に、ジョブのパフォーマンスを監視し、ログファイルにアクセスし、ApacheAirflowを介してワークフローを調整するための便利なツールを提供します。 Apache Sparkは、大規模なデータ処理を迅速に実行できるデータ処理フレームワークです。
米国財務省は、2つの異なるデータセットを提供しています。1つは15万ドルを超える承認済みローン用で、もう1つは15万ドル未満の承認済みローン用です。 LBBの2つのエンドレポートを作成するために、これらの手順に従いました(図1を参照)。
- 最初のステップは、2つの別々のデータセットをS3バケットにロードすることでした。
- S3バケットからデータをプルしてフィルタリングするために、データセットごとにSparkジョブが作成されました。
- これらの2つのSparkジョブは、クリーンなデータを変換してHiveデータウェアハウスにロードし、取得しました。
- Hiveデータウェアハウスからのデータを処理して2つのレポートを作成するために、3番目のSparkジョブが作成されました。
ジョブの実行が完了すると、CDEは各Sparkジョブ内のさまざまな段階のグラフィック表現を提供しました(図2を参照)。これにより、データエンジニアは、ジョブのどの部分に最も時間がかかる可能性があるかを簡単に確認できるため、顧客のSLAに最も適合するようにコードを簡単に改良および改善できます。
図1:2つのエンドレポートを作成するためのデータジャーニー。
図2:さまざまなSparkステージのCDEグラフィック表現。
結果
100万人の承認された申請者の記録から2つの最終報告書を作成するという主な目的は達成されました。最初のレポート(図3を参照)のグラフの要約は、テキサス州の都市ごとに保持されているジョブ数の上位10サンプルを示し、2番目のレポート(図4を参照)は、保持されているジョブ数の上位5サンプルを示しています。会社の種類別。たとえば、これらのレポートを使用して、テキサス州立法予算委員会は、1人当たりの雇用維持が最も少ない都市では、経済的影響を軽減するためのリソースが必要になる可能性があると推測できます。
図3:最も多くの仕事を保持した上位10都市、テキサス州、2020年
図4:最も多くの仕事を保持した上位5つの企業タイプ、テキサス州、2020年
次のステップ
これらすべての動作を確認するには、作成されたプロセスを紹介するいくつかの異なるソースへの以下のリンクをクリックしてください。
- ビデオ–これがどのように構築されたかを確認したい場合は、リンクのビデオを参照してください。
- チュートリアル–自分のペースでこれを実行したい場合は、スクリーンショットと、これを設定して実行する方法の行ごとの説明を含む詳細なウォークスルーを参照してください。
- 交流会– Clouderaの専門家と直接話をしたい場合は、仮想交流会に参加してライブストリームのプレゼンテーションをご覧ください。最後に直接Q&Aの時間があります。
- CDPユーザーページ–追加のビデオ、チュートリアル、ブログ、イベントなど、ユーザー向けに構築された他のCDPリソースについては、リンクをクリックしてください。