このブログ投稿は、CDPにあるClouderaの運用データベース(OpDB)に関するシリーズの一部です。各投稿では、新機能について詳しく説明しています。シリーズの最初から、CDPの運用データベースを使用して開始します。
ClouderaのOpDBは、データを保存およびアクセスするための豊富な機能セットを提供します。このブログ投稿では、OpDBのユーザー補助機能と、これらの機能を使用してデータにアクセスする方法について説明します。
配布とシャーディング
Clouderaのオペレーショナルデータベース(OpDB)は、ペタバイトのデータに線形にスケーリングするように設計されたスケールアウトデータベース管理システム(DBMS)です。すべてのDBMSと同様に、スケールアウトはシャーディングによって実装されます。 2つの異なるシャーディングポリシーがサポートされています:
- 自動シャーディング
- 事前定義されたシャーディング
アプローチに関係なく、ハッシュ、値の範囲、および両方の組み合わせに基づいてシャーディングを有効にするAPIがあります。
自動シャーディング
自動シャーディングが有効になっている場合、テーブルはクラスター全体に動的に分散され、シャードサイズが構成可能な制限を超えると、クラスター内のサーバー間で自動的に分割および移動されます。
テーブルセグメントは中央のキーで2つに分割され、ほぼ等しい2つの半分が作成され、それらの2つの半分は異なるサーバーで処理できます。
自動シャーディングは、OpDBで使用されているネットワーク(WANまたはローカル)に関係なく適用されます。クラスタはWANにまたがるように設定できます。その場合、データの損失がなく、WAN全体でシャーディングとデータ移動が発生します。
システムは、どのノードがどのデータセンターにあるかを認識するように構成できます。これにより、シャードのコピーを複数のデータセンターに分散できるため、シャードの復元力が向上します。
事前定義されたシャーディング
シャードは、通常はテナント固有の方法で、ポリシーに基づいてクラスター内のノードの特定のサブセットに制限できます。これにより、地理ベースのポリシーの実装が可能になります。次に、テーブルをクラスター間で複製し、ポリシーで設定して、テーブルと関連するシャードの複製を目的の地域に限定することができます。
ClouderaのOpDBは、データ主権のネイティブサポートを提供します。クラスタが複数の国にまたがっている場合は、リージョンサーバーグループを使用して、HDFSラック分離構成とともに特定の国のデータを固定できます。
クエリ
Clouderaは、運用と分析の両方のさまざまなタイプのユースケースに最適化された3つのクエリエンジンと、運用とデータウェアハウスの両方のワークロードの広い範囲にわたって最適化されたパフォーマンスを可能にするNoSQLインターフェイスを提供します。これにより、複数のシャード間でデータのクエリと結合を実行できます。
ClouderaのOpDBは、複数のデータおよびオブジェクトモデルのクエリをサポートするネイティブOLTP SQLエンジンを提供します。これには、それら間のクエリと結合が含まれます。 2つのOLAPクエリエンジンを使用して、OpDB内(または他の場所)にある外部テーブルをマップし、それらを介してクエリまたは結合して、データウェアハウスに典型的なより複雑な分析クエリを実行できます
データ統合ツール
Clouderaは、データウェアハウジングおよびフェデレーションクエリ処理との統合を可能にする複数のツールを提供します。
例:
- データウェアハウスへの一括エクスポートは、Flink、Spark、Hive、およびMapReduceによって提供されます
- データウェアハウスへのエクスポートのストリーミングはNifiによって提供されます
- OpDB内の現場データクエリは、Phoenix、Impala、およびHiveによって提供されます。
- OpDB、データウェアハウスソリューション、およびサードパーティのデータウェアハウスソリューション全体でのフェデレーションクエリ処理は、Hiveによって提供されます
外部データのサポート
ClouderaのOpDBには多くのHadoopツールが含まれており、ほとんどのHadoopエコシステムと統合されています。
OpDBはNoSQLおよびSQLインターフェースを提供します。このインターフェースに制限はなく、Hadoopコミュニティで非常によくサポートされています。
モバイルOpDB
MiNiFiは、エッジのポータブルデバイスで使用でき、OpDBとのデータ接続を提供します。
クエリエディタHUEは、モバイルデバイスまたはポータブルデバイスで実行できます。
標準ベースの接続
Clouderaは、データストアとツールへの直接APIアクセスに加えて、SQLエンジンを介して提供されるJDBCとODBCの両方のドライバーを提供します。
次へ
このブログ投稿では、データクエリ、データ統合、接続などのOpDBアクセシビリティ機能のいくつかについて説明しました。次の記事では、OpDBの管理機能を利用する方法について説明します。こちらをご覧ください。
詳細については、「オペレーショナルデータベース入門」を参照してください。