CDPでNiFi、Kafka、HBaseを使用してスケーラブルなプロセスを構築する

Navistarは、商用トラックの世界的な大手メーカーです。 35万台の車両があり、予定外のメンテナンスと車両の故障により、ビジネスに継続的な混乱が生じました。 Navistarは、ダウンタイムを最小限に抑えるために車両のメンテナンスが必要な時期を予測するのに役立つ診断プラットフォームを必要としていました。このプラットフォームは、エンジン性能、冷却水温度、トラック速度、ブレーキ摩耗を測定するデータを含む、フリート内の各車両からの70を超えるテレマティクスおよびセンサーデータフィードからのデータを収集、分析、および提供できる必要がありました。 NavistarはClouderaを利用して、OnCommand®Connectionと呼ばれるIoT対応のリモート診断プラットフォームの構築を支援し、車両の状態を監視し、車両の稼働時間を増やしました。

このブログは、範囲がはるかに小さいが、Navistarが直面している問題と類似した問題に対処するための同様のテクノロジーの使用を示しています。データは、高度に変更された高性能のコルベット（図1を参照）から取得され、外部ソースからデータをロードし、Apache NiFiを使用してフォーマットし、Apache Kafkaを介してストリームソースにプッシュし、を使用して保存する手順を示しています。追加の分析のためのApacheHBase。

図1.変更された6.8Lエンジンを搭載した2008コルベット

この特定の例では、問題のコルベットは、より高性能な部品を優先して、元の工場のエンジンコンポーネントをすべて交換しました。エンジンはシェルまで分解され、シリンダーは退屈し、クランクシャフトとカムシャフトが交換され、新しいピストンとコネクティングロッドが取り付けられ、約600馬力の目標を達成しました（図2を参照）。この新しいエンジン構成が正しく機能するために、エンジンのソフトウェアは完全にオーバーホールされました。スロットルを押すことが大幅に劇的になりましたが、意図しない結果として、車の元の診断およびエラーシステムが正確でなくなったため、無効にする必要がありました。

図2.すべての新しい光沢のある内部構造を備えたエンジンミッドリビルド

コルベットのセンサーデータをキャプチャして分析するには、データが車から代替の分析および診断プラットフォームに流れるためのパスが必要でした。最初のステップは、ラップトップをコルベットの診断ポート（図3を参照）に接続して、センサーデータをクラウドベースのストレージの場所にインポートすることでした。このプロジェクトにはS3が使用されました。

図3.USB経由で診断ポートに接続されたラップトップ

次のステップは、Clouderaの多機能マルチ分析プラットフォームであるCloudera Data Platform（CDP）を使用して、追加の分析のためにデータを最終的な保存先に移動するために必要なサービスにアクセスすることでした。 CDP Public Cloudを使用して、3つのデータハブがセットアップされ、それぞれが事前にパッケージ化されたオープンソースサービスのセットをホストしています（図4を参照）：

最初のセットアップは、データの流れを自動化および管理するために構築されたサービスであるNiFiでした。 NiFiは、コルベットのデータをソースから最終的なストレージポイントにインポート、フォーマット、および移動するために使用されました。
次は、大量のデータをストリームとして利用できるようにするリアルタイムストリーミングサービスであるKafkaのセットアップでした。 Kafkaは、データのストリーム処理機能を提供すると同時に、他のユーザーがデータストリームをサブスクライブするオプションを提供します。この例では、サブスクライバーはありません。ただし、これは設定方法のデモンストレーションに値する重要な概念です。
最終的なセットアップは、リアルタイムの読み取り/書き込みアクセスを提供する、拡張性の高い列指向の運用データベースであるHBaseでした。データがHBaseにインポートされると、Phoenixを使用してデータのクエリと取得が行われます。

図4.ソースからクエリへのコルベットデータフロー図。

CDPを使用してコルベットの状態とパフォーマンスを監視する診断プラットフォームを構築することは、成功した演習でした。 NiFiとKafkaを使用してセンサーデータをフォーマットしてHBaseにストリーミングできるようになったため、データセットのサイズに関係なく、高度なデータエンジニアリングと処理を実行できます。

次のステップ

これらすべての動作を確認するには、作成されたプロセスを紹介するいくつかの異なるソースへの以下のリンクを参照してください。

ビデオ–これがどのように構築されたかを確認したい場合は、NiFi、Kafkaを実行しているCDPのリアルタイムナビゲーションを示す5分間のビデオをご覧ください。およびHBase。
チュートリアル–自分のペースでこれを実行したい場合は、スクリーンショットとこれを設定する方法の行ごとの説明を含む詳細なウォークスルーを参照してください。
MeetUps – Clouderaの専門家、さらにはこのCorvetteの所有者と直接話をしたい場合は、仮想のMeetupに参加して彼のライブプレゼンテーションをご覧ください。最後に直接Q＆Aの時間があります。
CDPユーザーページ–追加のビデオ、チュートリアル、ブログ、イベントなど、ユーザー向けに構築された他のCDPリソースについては、リンクをクリックしてください。