sql >> データベース >  >> NoSQL >> HBase

デジタルトランスフォーメーションは、エッジからインサイトへのデータジャーニーです

    デジタルトランスフォーメーションは、爆発的な成長率で価値を提供するため、すべての市場と業界にとってホットなトピックです。製造業のモノのインターネット(IIOT)が25%の成長率で1610億ドルと評価されたことを考えると、コネクテッドカー市場は2027年までに17%の成長率で2250億ドルと評価されるか、 2020年、小売業者はわずか3か月で10年間のデジタル販売の浸透を実現しました。ただし、記述されている内容のほとんどは、テクノロジープラットフォーム(データウェアハウスなどのクラウドまたはエッジまたはポイントソリューション)またはこれらのメリットを促進するユースケース(予防保守、金融機関の不正検出、または予測ヘルスモニタリングに適用される予測分析)に関係しています。例として)基礎となるデータではありません。欠落している章は、ポイントソリューションやユースケースの成熟の旅についてではありません。欠落している章はデータに関するものであり、常にデータに関するものです。そして最も重要なのは、ジャーニーデータがエッジから人工知能の洞察に織り込まれていることです。

    これは、エッジからAIへのデータジャーニーとそのジャーニーに沿って生成されるビジネス価値データの概要を説明する6部構成のブログシリーズの最初のものです。データジャーニーは直線的ではありませんが、無限ループのデータライフサイクルです。エッジで開始し、データプラットフォームを織り交ぜ、実際のビジネスクリティカルな問題に適用されるビジネスに不可欠な洞察をもたらし、新しいデータ主導のイニシアチブをもたらします。この旅を5つの個別のステップに簡略化し、共通の6番目のステップでデータのセキュリティとガバナンスについて説明しました。 6つのステップは次のとおりです。

    1. データ収集 –エッジでのデータの取り込みと監視(エッジが産業用センサーであるか、実店舗の小売店の人々であるかを問わず)
    2. データの強化 –データパイプラインの処理、集約、および管理により、データをさらに洗練する準備を整えます
    3. レポート –企業の洞察を提供する(例として、販売分析と予測、市場調査、予算編成)
    4. サービング– 重要な事業運営(ATMトランザクション、小売チェックアウト、または生産監視)の管理と実行
    5. 予測分析– AIと機械学習に基づく予測分析(例として、不正検出、予知保全、需要ベースの在庫最適化)
    6. セキュリティとガバナンス– データライフサイクル全体にわたるセキュリティ、管理、ガバナンステクノロジーの統合セット

    図1:エンタープライズデータのライフサイクル

    データジャーニーを説明するために、非常に関連性が高く、持続可能性を重視した製造トピックを選択しました。電気自動車の製造は、通常、製造業務が本質的に革新的であるために選択されました(最新のデータツールを展開する高度なデジタル成熟度) 、「旧式の進化型」(成熟度が低い)と比較して、これらの車のほとんどは、自動車を単なる輸送手段ではなく、データを活用した知識と洞察のためのプラットフォームにするコネクテッドモビリティプラットフォームとして構築されています。このストーリーでは、Cloudera Data Platformを使用して、データがどのように収集、強化、保存、提供され、自動車の製造プロセスにおけるイベントを予測するために使用されるかを示します。

    このストーリーでは、 The Electric Car Company と呼ばれる電気自動車の模擬コネクテッドカー製造会社(非常に独創的な名前)を取り上げます。 (ECC)。 ECCは、世界中にある複数の製造工場を運営しており、垂直統合されて、独自の自動車だけでなく、電気モーター、バッテリー、補助部品などの重要なコンポーネントの多くを構築しています。各工場は、戦略的に配置されたいくつかの工場で最終組み立てが行われるさまざまなコンポーネントの製造を担当しています。

    データ収集の課題

    製造プロセスのすべての工場からのすべてのデータの収集を管理することは、いくつかの課題を提示する重要な作業です。

    • IoTデータの量と多様性を評価することの難しさ: 多くの工場では、さまざまなプロトコルとデータ形式を使用して、複数のベンダーの最新および従来の製造資産とデバイスの両方を利用しています。コントローラとデバイスはOTシステムに接続できますが、通常、ITシステムとデータを簡単に共有できるように接続されているわけではありません。コネクテッドマニュファクチャリングと新しいIoTのユースケースを可能にするために、ECCは、あらゆるタイプの多様なデータ構造とスキーマをエッジから処理し、データを正規化し、ビッグデータアプリケーションを含むあらゆるタイプのデータコンシューマーと共有できるソリューションを必要としています。
    • リアルタイムデータの複雑さの管理: ECCが予測分析のユースケースを推進するには、データ管理プラットフォームでストリーミングデータのリアルタイム分析を有効にする必要があります。また、プラットフォームは、洞察とアクションを即座に提供するために、ストリーミングデータをリアルタイムまたはほぼリアルタイムで効果的に取り込み、保存、および処理する必要があります。
    • 独立したサイロからのデータの解放: 製造バリューチェーン内の特殊なプロセス(イノベーションプラットフォーム、QMS、MESなど)は、独自のサイロ化されたソリューションに合わせた異種のデータソースとデータ管理プラットフォームに報酬を与えます。これらのニッチなソリューションは、企業間データが提供できる洞察のほんの一部を考慮して、企業価値を制限しますが、ビジネスを分割し、コラボレーションの機会を制限します。適切なプラットフォームには、バリューチェーンのすべてのポイントからストリーミングデータを取り込み、保存、管理、分析、処理し、データヒストリアン、ERP、MES、QMSソースと組み合わせて、実用的な洞察に活用する機能が必要です。これらの洞察は、価値の高い製造のユースケースを推進するダッシュボード、レポート、および予測分析を提供します。
    • エッジのバランスをとる: エッジとクラウドでのデータ処理の適切なバランスを理解することは課題であり、これがデータライフサイクル全体を考慮する必要がある理由です。企業が両方を実行できること、および実行する必要があることに気付かずに、どちらか一方に焦点を当てることを選択するため、業界には厄介な傾向があります。クラウドコンピューティングには、長期的な分析と大規模な展開にメリットがありますが、帯域幅によって制限され、ごく一部しか使用せずに大量のデータを収集することがよくあります。エッジの価値は、さらに高性能な処理のために最も価値のあるデータをクラウドに送信する前に、レイテンシがゼロで最大の影響を与えるエッジで動作することにあります。

    ClouderaDataPlatformを使用したデータ収集

    ステップ1:生データの収集

    ECCの製造業務からのデータには、産業用ロボット、ボディインホワイトリン酸塩コーティングプロセスタンク(温度、濃度、または補充)、サプライチェーンテレマティクス、マスターパーツ情報など、多数のソースが含まれます。この特定の例では、未加工パーツApache NiFiに供給する準備として、ECCの5つの工場のそれぞれのマスターデータが収集されました(図2を参照)。

    ステップ2:各ファクトリのデータソースを構成する

    Clouderaのデータフローエクスペリエンス(Apache NiFiを利用)を使用してデータ収集を説明し、この生データを取得して、実際のシナリオにより正確に似せるために個々のファクトリストリーム(Apache Kafkaが管理)に分割します(図2を参照)。例を簡単にするために、工場で生成された各パーツに対して次のデータ属性タグが選択されました。

    • ファクトリID
    • マシンID
    • 製造されたタイムスタンプ
    • 部品番号
    • シリアル番号

    図2:データ収集のフロー図。

    ステップ3:各ファクトリからのデータスループットを監視する

    すべてのデータが個々のKafkaストリームに流れ込むようになったため、データアーキテクトは各ファクトリからのデータスループットを監視し、各ファクトリがプラットフォームにデータを送信するために必要なスループットを確保するために必要なコンピューティングリソースとストレージリソースを調整しています。

    >

    ステップ4:ApacheKafkaストリームからデータをキャプチャする

    Kafkaは、すべてのファクトリデータストリームをキャプチャし、それをプロセッサに収集します。これらのプロセッサは、運用データベースを利用した重要なビジネスオペレーションの制御と実行、またはエンタープライズデータウェアハウスを介したビジネスエンタープライズインサイトの提供、または高度な分析での使用に使用できます。

    ECCは最近、ファクトリー5でのみ生産されている電気モーターのアップグレードバージョンの生産を開始しました。このデータは、データライフサイクルの次のステップの説明として使用されます

    ステップ5:データをストレージソリューションにプッシュする

    ECCの製造および品質エンジニアは、このモーターの展開と現場での使用を綿密に監視する必要があるため、特定の製造トレーサビリティデータは別のルートにフィルターされ、ApacheHiveの独自のテーブルに保存されます。これにより、エンジニアはCloudera Data Warehouseでデータに対してアドホッククエリを実行したり、修理注文や顧客フィードバックなどのエンタープライズデータウェアハウス内の他の関連データに結合して、保証や予知などの事前のユースケースを作成したりできます。メンテナンスルーチン、または製品開発入力。

    または、重要なビジネスオペレーションを制御および実行する必要がある場合は、処理されたタイムスタンプを追加したデータセット全体が、ApacheHBaseを利用したClouderaオペレーショナルデータベースに送信されます。このデータは、ECCがインベントリプラットフォームを実行するための基盤として機能します。インベントリは1日に何千回も追加および削除できるため、一定の読み取り/書き込み操作を使用する必要があります。 HBaseは、これらの種類のデータトランザクションを大規模に処理するように設計されているため、この独自の課題に対する最良のソリューションとして機能します。

    結論

    この簡単な図は、データの取り込みを正しく行うことの重要性を示しています。これは、運用データベース、エンタープライズデータウェアハウス、または高度な分析機械学習予測分析の両方から提供される洞察の基礎となるためです。 「正しく理解する」ことの価値には、あらゆるエンタープライズソースからのデータを使用してデータのサイロを分解し、ストリーミングまたはバッチ指向のすべてのデータを使用し、そのデータを適切な場所に送信して、目的のダウンストリームインサイトを生成する機能が含まれます。

    CDPを使用すると、ECCデータエンジニアやその他の基幹業務ユーザーは、在庫管理から部品予測、機械学習に至るまで、さまざまなタスクに収集されたデータの使用を開始できます。 Cloudera Data Flowは、あらゆるエンタープライズソースからのリアルタイムのデータ取り込みを促進するため、さまざまなプログラミング言語や独自のデータ収集方法に関する幅広い知識がなくても、拡張および保守できます。固有の問題が発生した場合、エンジニアは独自のプロセスを作成して、真にきめ細かい制御を行うこともできます。

    データの強化と、それがデータライフサイクルストーリーをどのようにサポートするかについて詳しく説明する次のブログを探してください。さらに、このストーリーは、データライフサイクルの各ステップでのデータジャーニーを示すデータ駆動型のデモで補強されます。

    その他のデータ収集リソース

    これらすべての動作を確認するには、以下の関連リンクをクリックして、データ収集の詳細を確認してください。

    • ビデオ–これがどのように構築されたかを確認したい場合は、リンクのビデオを参照してください。
    • チュートリアル–自分のペースでこれを実行したい場合は、スクリーンショットと、これを設定して実行する方法の行ごとの説明を含む詳細なウォークスルーを参照してください。
    • >
    • 交流会– Clouderaの専門家と直接話をしたい場合は、仮想交流会に参加してライブストリームのプレゼンテーションをご覧ください。最後に直接Q&Aの時間があります。
    • ユーザー–ユーザー固有の技術的なコンテンツを表示するには、リンクをクリックしてください。

    1. 完了したら、マングースの接続を適切に閉じます

    2. Redis-Redisをプライマリデータベースとして使用する理由、理由、方法

    3. データ構造が増大するMongoDBのパフォーマンス

    4. MongoError:「cursor」オプションが必要です。ただし、explain引数を使用した集計は除きます。