sql >> データベース >  >> NoSQL >> HBase

サンタンデールUKでの次世代データウェアハウジング

    ビッグデータ時代のビジネスにとってタイムリーなデータは非常に重要です。このブログ投稿では、サンタンデールUKが最新のClouderaテクノロジーと優れたソフトウェア開発機能を利用して、顧客との関係を改善できるインテリジェンスをサポートする次世代のデータウェアハウジングおよびストリーミング分析を作成する方法について概説しています。 「私たちは人々の成長と繁栄を支援したい」というモットーに従ってください。

    Santander UKのビッグデータの旅は、約4年前に始まりました。彼らはApacheKafkaのような新しいデータストリーミングテクノロジーを早期に採用し、モバイルユーザー向けのリアルタイムデータとアプリ内分析を使用してカスタマーエクスペリエンスに革命を起こすという野心を持っていました。

    それ以来、Santander UKは、ビッグデータテクノロジーで革新するためのフットプリントと機能の両方を強化し、急速に進化してきました。大規模なストリーミング分析の必要性が高まり、現実のものとなっています。現在、サンタンデールUKでは、Clouderaのビッグデータ、機械学習、分析プラットフォームが、Apache Kafkaを介した統合された高品質でスケーラブルなPlatform-as-a-Service(PaaS)イベント配信によって補完されています。

    Santander UKの次世代データウェアハウスの中心となるもう1つのテクノロジーコンポーネントは、ApacheKuduを使用して高速データの高速分析を可能にすることです。 Data Vault 2.0の設計手法の側面と組み合わせると、何百ものApacheKafkaデータストリームからの迅速な取り込みが容易になります。既存のレガシーシステムからワークロードをオフロードすることと、顧客の行動や銀行の現状について「今ここで」質問する機能を提供することの両方。

    市場投入までのスピード

    Santander UKの革新的な新しいプラットフォームにより、最小限の労力で高速データストリームをオンラインに移動できます。このプラットフォームは、ApacheKafkaを介してレガシーシステムを新しいDataVaultと統合します。統合されるデータのクリーンな構造により、Apache Kudu Data Vaultにデータを取り込むための新しいイベントストリームフィードは、主に構成主導型であり、データイベントをData Vault 2.0手法のハブ、サテライト、およびリンク構造に準拠させます。これにより、スキーマはビジネスの変化やデータの適合方法に関する新しい理解に対応できます。

    Santander UKは、ScalaAkkaとApacheKafkaに基づく弾力性のあるイベント配信プラットフォームをスケーリングすることでデータ変換に影響を与えることができ、リアルタイムで迅速かつスケーラブルなデータ強化を可能にします。これにより、再利用可能なプラットフォームとアーキテクチャにより、より速く、よりタイムリーなデータ、より迅速な意思決定、およびユースケースの市場投入までのスピードが向上します。

    データサイエンスとデータ製品のラピッドプロトタイピング

    最終的に、このストリーミングデータソースの潜在的な消費者はたくさんいます。ただし、Cloudera Data ScienceWorkbenchをDataVaultに統合することで、興味深い洞察がすでに収集されています。これらは、成長するデータサイエンスチームに包括的なデータサイエンス体験を提供し、また、通常はサンタンデールUKの革新的な方法で、エンジニアリングやアーキテクチャの大きな課題に取り組む前に、アイデアを迅速にプロトタイプ化し、新しいデータ製品を作成する可能性を利用します。高速なプロトタイプを作成し、それが価値を生み出す場合は、それを一流の製品に発展させます。

    高速統合:貢献モデル

    Santander UK Data Innovationチームが実現した革新性と敏捷性の流れの中で、彼らは貢献モデルの概念を作成しました。クラスターはマルチテナントであり、さまざまなビジネスユニットが新しいデータセットを調達、クレンジング、エンジニアリングしているためです。他のビジネスに役立つと思われる場合は、Data Vaultスタイルのリンクテーブルを使用して、この一般的に役立つデータをDataVaultスキーマのコアに統合できます。このように、チームは、ガバナンスにCloudera Navigatorを使用することで追跡可能な系統を使用し、アクセス制御にApache Sentryを使用することでセキュリティを備えた、データセットの新しい組み合わせを迅速に生成することで、データ製品の価値を高めることができます。ビジネスユニットのデータが他の人にとって有用であると見なされる場合、そのデータはコアにリンクされ、ガバナンスの原則に従って共有されます。


    コントリビューションモデルを使用すると、さまざまなビジネスユニットや製品チームによって独自に作成された純粋なデータセットを活用できます。このデータが他のビジネスにとって価値がある場合は、リンクテーブルを利用して、データを第一級市民としてDataVaultに取り込むことができます。コラボレーションを通じてイノベーションを改善するために、組織内のデータシステム用のオープンソースソフトウェアへのApacheコミュニティアプローチを複製したいと考えていました。

    – Nicolette Bullivant –サンタンデールUKのデータエンジニアリング責任者

    複数の宛先:すべてを支配する1つのストリーム

    レガシーシステムから生成された生のイベントストリームは正規と見なされ、通常、クラスターを使用する他の利害関係者によって必要とされます。 Santander UK Data Innovation Teamは、さまざまなユースケースとテクノロジーによってこれらのイベントストリームを利用できるようにするという原則を採用しています。したがって、正規のイベントストリームをさまざまな宛先に再配布できます。 HDFSファイルシステム、Apache HBase、またはApacheKuduのいずれか。これにより、レガシーシステムへのバックプレッシャーを回避しながら、すべての利害関係者に正しい唯一の真実を生み出すことができます。

    結論

    つまり、Santander UKは、Clouderaスタックを直接革新し、ストリーミングデータ、高度なソフトウェアエンジニアリングの原則とフレームワーク、最新のデータウェアハウス設計の原則を組み合わせて、リアルタイムの洞察を生成し、顧客体験と顧客の経済的幸福を向上させています。このイノベーションは最近、サンタンデールをデータインパクトアワードのファイナリストに選出したサードパーティの審査員団として認められました。

    Nicolette Bullivantは、サンタンデールUKのデータエンジニアリング責任者です。
    Rob Siwickiは、ClouderaのプロフェッショナルサービスであるEMEAのシニアソリューションアーキテクトです。


    1. redisスレーブはマスターと同期しません

    2. SpringセッションデータRedis-有効なセッション、現在のユーザーをRedisストアから取得

    3. MongoDBはサブドキュメントを取得します

    4. Mongodb集計:日付を別のタイムゾーンに変換します