sql >> データベース >  >> RDS >> Database

Greenplumデータベースとは何ですか?ビッグデータデータベースの紹介

    Greenplum Databaseは、PostgreSQLに基づいて構築された超並列処理(MPP)SQLデータベースです。単一の問題なしに数ペタバイトレベルのデータワークロードに拡張でき、すべてのデータを表示できる単一のSQLインターフェイス内で連携する強力なサーバーのクラスターへのアクセスを可能にします。このブログ投稿では、Greenplumとは何かを説明し、Greenplumのアーキテクチャ、利点、主な使用例、および開始方法について説明します。

    Greenplumとは正確には何ですか?

    Greenplum Databaseは、PostgreSQLに基づいており、後にVMwareに買収されたPivotalによって開発された、分析用のオープンソースのハードウェアに依存しないMPPデータベースです。このアーキテクチャは、データを多数のサーバーに分散する機能を提供することで、大規模なデータウェアハウスとビジネスインテリジェンスのワークロードを管理するために特別に設計されました。

    この機能満載のデータベースは、ペタバイトのボリュームにスケールアップするデータに関する強力で迅速な分析を提供します。

    概要– TLDR

    グリーンプラムアーキテクチャ

    Greenplumは、スケーラブルで高性能なデプロイメントの開発に役立つMPPデータベース設計を使用しています。今すぐ読む

    Greenplumの利点

    Greenplumの主な利点は、高性能、クエリ最適化、オープンソースおよび多態性データストレージです。今すぐ読む

    主な使用例

    Greenplumが分析、機械学習、AIのユースケースに最適なデータベースである理由をご覧ください。今すぐ読む

    グリーンプラムアーキテクチャ

    Greenplumアーキテクチャをよく理解するために、まずMPPデータベースとは何かを見てみましょう。

    MPPデータベースとは何ですか?

    大量の複雑なデータやビッグデータを処理する場合、分析を生成するために処理する必要のあるすべてのデータによってメインマシンがクラッシュし始める可能性があります結果。より高速な処理とより迅速な結果を可能にするというこのニーズを満たすために、多くの組織はMPPデータベースの採用を検討しています。

    MPPシステムは、シェアードナッシングアーキテクチャを活用して、複数の操作を並行して処理します。専用のメモリとリソースを使用して独立して動作する複数の異なる処理ユニットを使用するため、ワークロードは1つではなく複数のデバイス間で共有されます。通常、MPPシステムには1つのリーダーノードと1つまたは複数の計算ノードがあります。 Greenplumでは「マスター」と呼ばれるリーダーノードは、Greenplumでセグメントと呼ばれる他のすべてのノードに何をすべきかを指示し、それらの応答を統合して最終的な回答を作成します。

    MPPデータベースは水平方向に拡大縮小 ますます高価な個々のサーバーへのアップグレード(垂直方向のスケーリング)を心配する必要がなく、コンピューティングリソース(ノード)を追加することによって。

    Greenplum Architectural Design

    PostgreSQLアーキテクチャに基づいて、Greenplumは基本的に1つのGreenplumクラスターで一度に複数のPostgreSQLデータベースインスタンスを活用します。 Greenplumの機能、構成、機能の多くは同じであり、PostgreSQLがビジネスインテリジェンス(BI)タスクとワークロードでどのように機能するかを最適化するように設計された機能が含まれているため、PostgreSQLユーザーはこのデータベースタイプにすぐに慣れることができます。

    Greenplumは、並列データの読み込み、リソース管理、ストレージの拡張、高度なクエリ最適化など、PostgreSQLでは利用できない多くの機能も導入しました。 2つ。

    PostgreSQLと同様に、Greenplumは、データベースへのエントリポイントである1つのマスターサーバーまたはホストを利用して、接続とSQLクエリを受け入れます。ただし、PostgreSQLがスタンバイノードを利用して配置を地理的に分散する場合、Greenplumはデータを保存および処理するセグメントホストを使用します。 Greenplumセグメントは独立しており、クエリ処理の大部分を処理しますが、それぞれがデータの一部を格納します。わずか2つのセグメントホストを活用して、無制限の容量に拡張できます。ミラーリングを有効にしている場合は、セグメントホストを少なくとも2つ増やす必要があります。

    では、これはどのように調整されているのでしょうか。 Greenplum相互接続は、アーキテクチャのネットワーク層であり、Greenplumセグメントとマスターホストネットワークインフラストラクチャ間の通信を管理します。

    Greenplumの利点

    データベースのパフォーマンスを向上させるのに役立つGreenplumの主な利点のいくつかを次に示します。

    • 高性能

      Greenplumは、Greenplum Next Generation Bigで説明されているように、RAMメモリに収まるデータに依存することなく、ディスクからCPUにデータを効率的にストリーミングできる独自に設計されたデータパイプラインを備えています。データプラットフォーム:上位5つの理由の記事。これにより、Greenplumデプロイメントは、データを格納するのに十分なメモリを必要とするインメモリシステム、または同時クエリごとにRAMを割り当てるインメモリ処理エンジンである非RDBMSベースのシステムよりもパフォーマンスが大幅に向上します。 Greenplumの高性能は、データを効率的に処理するために線形にスケーリングできるため、ほとんどのRDBMSがペタブティレベルのデータにスケーリングするという課題を排除します。

    • クエリの最適化

      Greenplumは、大規模なビッグデータワークロード向けのコストベースのクエリオプティマイザーを備えています。上記で説明したようにパフォーマンスを活用することで、Greenplumは、クエリのパフォーマンスを低下させることなく、インタラクティブなバッチモード分析をペタバイトスケールに拡張します。これにより、Greenplumは負荷を異なるセグメント間で分散し、システムのすべてのリソースを並行して使用してクエリを処理できます。

      さらに、Greenplum 6のOLTP(Online Transactional Processing)ワークロードの改善により、単一クエリのパフォーマンスがGreenplum 5よりも3.5c以上向上しました。この更新により、Greenplumは多くの競合をロックして、マスターCPU使用率が90%を超える可能性があるため、マスターノードのハードウェアパフォーマンスが向上するため、クエリのパフォーマンスが向上します。

    • オープンソース

      Greenplumデータベースは、PostgreSQLのオープンソースコアに基づくオープンソースのデータウェアハウスプロジェクトであり、ユーザーはPostgreSQLの背後にある数十年にわたる専門家の開発とGreenplumのターゲットを絞ったカスタマイズを利用できます。ビッグデータアプリケーション用。 Greenplumは、クラウドでホストされているかオンプレミスでホストされているかに関係なく、任意のLinuxサーバーで実行でき、任意の環境で実行できます。

      Greenplumは、メインリポジトリへのコミット権を持つ開発者のコ​​アチームによって維持されていますが、Greenplumの将来を形作るのに役立つ、データベースの経験を持つ新しい貢献者を熱心に歓迎しています。 GreenplumGitHubページで参加する方法の詳細をご覧ください。

    • ポリモーフィックデータストレージ

      Greenplumのポリモーフィックデータストレージを使用すると、テーブルとパーティションストレージの構成を制御し、その中のファイルをいつでも自由に実行および圧縮できます。これにより、特定のデータへのアクセス方法に基づいてテーブルを設計し、行または列指向のストレージ階層を設定できます。

      Greenplumでテーブルを作成する場合、列指向または行指向のデータを選択する機能を使用して、方向を制御できます。通常、列指向はフルスキャンに適していますが、行指向は小さなスキャンまたはルックアップに適しています。

    Greenplumでは、ドメイン固有のデータ型と関数を作成することもできます。 XML、HStore、JSONなどの半構造化データタイプを使用することで、データベース内に構造化データと非構造化データの両方を保存して分析することができます。

    Greenplumデータベースとは何ですか?ビッグデータデータベースの紹介クリックしてツイート

    主な使用例

    Greenplumは、超並列処理データベースと高度なデータ分析の強力な組み合わせを提供し、人工知能によって収集されたデータに基づいてデータ科学者や建築家がビジネス上の意思決定を行うためのフレームワークを作成できるようにしますと機械学習。 Greenplumの主な使用例を見ていきましょう:

    アナリティクス

    Greenplumが提供する高度な分析は、金融、製造、自動車、政府、エネルギー、教育、小売など、さまざまな分野で使用されており、さまざまな分野に対応しています。問題の。 Pivotalによって強調されたGreenplumデータベース分析機能の一部には、多数のデータタイプを分析し、既存のSQL知識を活用し、MPPアーキテクチャを使用してより多くのモデルをより短時間でトレーニングする機能が含まれます。

    さらに、Greenplumはデータベース内分析を提供します。これにより、外部分析エンジンでデータをエクスポートおよび実行するのではなく、データベースで直接分析を実行できます。エンタープライズワークロード向けに調整されたデータベースとして、これは、利用可能なセグメントホスト間で分析を並列化することによって達成される高いパフォーマンスとともに、大規模なデータセットを探索するために必要な機能を提供します。 Greenplumでは、MADlib、R統計言語、SAS、予測モデリングマークアップ言語(PMML)など、さまざまな電力分析ツールを活用することもできます。

    たとえば、10億ドル規模のインターネットマーケティング会社は、Greenplumの高度な分析を使用してオーディエンスプロファイリングを実行し、オーディエンスが誰であるか、何を購入するか、どのネットワークとデバイスを使用するかを理解しています。地理的に配置されているため、市場をよりよく理解してサービスを提供できます。

    機械学習

    Greenplumは、機械学習のための優れたデータベースです。これは、経験を通じて自動的に改善されるコンピューターアルゴリズムの研究です。 Apache MADlibは、オープンソースのSQLベースの機械学習ライブラリであり、PostgreSQLだけでなくGreenplumでもデータベース内で実行されます。この組み合わせは、Greenplum機械学習デプロイメントの並列処理、スケーラビリティ、および予測精度を向上させるのに役立ちます。データ変換と特徴工学の機能は、機械学習のためにMADlibを介して利用できます。これには、記述統計と推論統計、ピボット、セッション化、カテゴリ変数のエンコードが含まれます。

    たとえば、政府の不正収益保持会社は、GemFireとともにGreenplum機械学習機能を活用して、大規模な不正検出を実行し、個人情報の盗難を防止し、年間50億ドルを検出して保持し、処理しています1日800万件。

    AI

    人工知能(AI)は、機械学習に似ていますが、機械がタスクをスマートに実行できるという幅広い考え方を指します。 Greenplumは、スマートマシンを介して人間の能力を模倣しようとしているアプリケーションに最適なデータベースです。 Greenplumは大量のデータを高速で取り込むことができるため、このデータベースは、無制限の数の固有のシナリオに基づいてインテリジェントに対話する必要があるスマートアプリケーション向けの強力なツールになります。

    たとえば、電気通信会社は、IoT運用レポートシステムのスマートセンサーにGreenplumデータベースAI機能を使用して、メンテナンス、セキュリティ、運用効率に使用されるイベントを分析および実行しています。

    では、今日Greenplumを使用しているのは誰ですか? Greenplumの顧客には、American Express、Walmart、Asurian、Bank of Americaなど、銀行、専門サービス、メディア、保険、ヘルスケア、自動車、小売市場などが含まれます。

    開始方法

    この投稿全体で述べたように、Greenplumはオープンソースデータベースであるため、コミュニティバージョンは完全に無料でダウンロードして使用できます。 Greenplumの小さいながらも活発なコミュニティは、新しい貢献者を歓迎し、フィードバックを受け入れ、Greenplumのエバンジェリストと協力してビッグデータデータベースを宣伝しています。

    Greenplumを活用している多くの組織は、DBAが展開を管理するのに役立つ追加のサポートとツールを探しています。 Greenplumで利用できる2つの異なるデータベース管理およびサポートオプションは次のとおりです。

    ScaleGridforGreenplum®データベース–オープンソースバージョン

    ScaleGridforGreenplum®データベースは、2020年5月にリリースされるGreenplumのオープンソースバージョン向けのフルマネージドソリューションです。マルチクラウドプラットフォームを使用すると、AWSにデプロイして管理できます。 AzureまたはGoogleCloud(近日公開)の​​クラウドプラットフォーム、またはVMwareのオンプレミス環境。 ScaleGridは、Greenplumユーザーに、シングルクリックでデプロイし、バックアップを自動化し、オープンソースデプロイメントに対して完全なスーパーユーザー管理者権限を維持する機能で動的にスケーリングするために必要な高度な管理ツールを提供します。

    ピボットグリーンプラム–商用バージョン

    Pivotal Greenplum、現在VMware Tanzuは、クラウドおよびオンプレミスでのGreenplumの展開と管理を支援するデータベースの商用バージョンを提供する、オープンソースデータベースの背後にある作成者です。 Pivotal Greenplumには、稼働時間を最大化し、データの整合性を保護し、ストリーミングデータとクラウドデータを簡単に処理できるなど、多くの利点があります。

    ScaleGridとPivotalGreenplumはどちらも、DBAがGreenplumの展開を最適化するのに役立つ高度なサポートパッケージを提供します。


    1. ADDDATE()の例– MySQL

    2. 例外の取得ORA-00942:表またはビューが存在しません-既存の表に挿入する場合

    3. 句内のMySQLアイテム数

    4. SQLServer2017でテーブルを作成する