sql >> データベース >  >> NoSQL >> HBase

20Hadoop2.xとHadoop3.xの顕著な違い

    このHadoopチュートリアルの目的 異なるHadoopバージョン間のより明確な理解を提供することです。このブログでは、Hadoop2.xとHadoop3.xの上位20の違いについて説明しました。

    このブログでは、さまざまな機能に基づいて、Hadoop2とHadoop3の違いについて説明しています。

    Hadoop2.xとHadoop3.xの違い

    Apache Hadoop は、大量のデータセットの分散ストレージと処理のためのオープンソースソフトウェアフレームワークです。

    Hadoop 3.xは、Hadoopの制限を克服するために導入されました。 2.x. Hadoop 3.xにはいくつかの新機能が追加されていますが、古い機能は引き続き使用されています。

    Hadoop2.xとHadoop3.xの機能に関する詳細な比較を以下に示します。

    a。ライセンス

    • Hadoop 2 x- Apache 2.0、オープンソース
    • Hadoop 3 x- Apache 2.0、オープンソース

    b。サポートされているJavaの最小バージョン

    • Hadoop 2 x- Java7。
    • Hadoop 3 x- Java8。

    c。フォールトトレランス

    • Hadoop 2.x- このバージョンでは、レプリケーションがフォールトトレランスを処理します。
    • Hadoop 3.x- このバージョンでは、イレイジャーコーディングはフォールトトレランスを処理します。

    d。データバランシング

    • Hadoop 2.x- HDFSを使用します データバランシング用のバランサー
    • Hadoop 3.x- HDFSディスクバランサーCLIを介して呼び出されるデータ内ノードバランサーを使用します。

    e。ストレージスキーム

    • Hadoop 2.x- 3Xレプリケーションスキームを使用します。
    • Hadoop 3.x- イレイジャーコーディングを使用します。

    f。ストレージオーバーヘッド

    • Hadoop 2.x- このバージョンでは、HDFSのストレージスペースに200%のオーバーヘッドがあります。
    • Hadoop 3.x- このバージョンでは、HDFSのストレージスペースに50%のオーバーヘッドがあります。

    g。ストレージオーバーヘッドの例

    • Hadoop 2.x- 6つのブロックがあり、各ブロックのレプリケーションが3倍である場合、18ブロックになります。 18ブロックのスペースを占有します。
    • Hadoop 3.x- 6つのブロックがある場合、9つのブロックスペースを占有します。つまり、6つのブロックと3つのパリティを占有します。

    h。 YARNタイムラインサービス

    • Hadoop 2.x- スケーラビリティの問題がある古いタイムラインサービスを使用します。
    • Hadoop 3.x- このバージョンは、タイムラインサービスv2を改善します。また、タイムラインサービスのスケーラビリティと信頼性も向上します。

    j。デフォルトのポート範囲

    • Hadoop 2.x- このバージョンでは、デフォルトのポートはLinuxのエフェメラルポート範囲です。したがって、起動時に、バインドに失敗します。
    • Hadoop 3.x- このバージョンは一時的な範囲外に移動されます。

    k。ツール

    • Hadoop 2.x- Hive、pig、Tez、Hama、およびその他のHadoopツールも利用できます。
    • Hadoop 3.x- このバージョンでは、Hive、pig、Tez、Hama、およびその他のHadoopツールも利用できます。

    l。互換性のあるファイルシステム

    • Hadoop 2.x- HDFS(デフォルトFS)、FTPファイルシステムをサポートします。これにより、すべてのデータがリモートアクセス可能なFTPサーバーに保存されます。また、Amazon S3(Simple Storage Service)ファイルシステムWindows Azure Storage Blobs(WASB)ファイルシステムもサポートしています。
    • Hadoop 3.x- 以前のすべてとMicrosoftAzureDataLakeファイルシステムをサポートします。

    m。データノードリソース

    • Hadoop 2.x- MapReduce Datanodeの場合、リソースは専用ではありません。他のアプリケーションにも使用できます。
    • Hadoop 3.x- このバージョンでは、データノードリソースを他のアプリケーションにも使用できます。

    n。 MRAPIの互換性

    • Hadoop 2.x- Hadoop2.Xで実行するHadoop1.xプログラムと互換性のあるMRAPI
    • Hadoop 3.x- MR APIは、Hadoop3.Xで実行するHadoop1.xプログラムの実行とも互換性があります

    o。 Microsoftのサポート

    • Hadoop 2.x- Windowsに展開できます。
    • Hadoop 3.x- MicrosoftWindowsもサポートしています。

    p。スロット/コンテナ

    • Hadoop 2.x- Hadoop 1.xはスロットの概念に基づいて機能し、Hadoop2.Xはコンテナーの概念に基づいて機能します。
    • Hadoop 3.x- Hadoop 3.xは、コンテナーの概念にも対応しています。

    q。単一障害点

    • Hadoop 2.x- SPOFを克服する機能があります。したがって、NameNodeに障害が発生すると、自動的に回復します。
    • Hadoop 3.x- また、SPOFを克服する機能もあります。したがって、NameNodeに障害が発生すると、手動で介入する必要がなく、自動的に回復します。

    r。 HDFSフェデレーション

    • Hadoop 2.x- Hadoop 1.xでは、すべての名前空間を管理する単一のNameNodeのみ。ただし、Hadoop 2.xには、複数の名前空間に対して複数のNameNodeがあります。
    • Hadoop 3.x- また、複数の名前空間用に複数のNamenodeがあります。

    s。スケーラビリティ

    • Hadoop 2.x- クラスタごとに最大10000ノードまでスケールアップできます。
    • Hadoop 3.x- クラスタごとに10000を超えるノードをスケーリングできます。

    t。 HDFSスナップショット

    • Hadoop 2.x- スナップショットのサポートが追加されます。また、災害復旧とユーザーエラーの保護も提供します。
    • Hadoop 3.x- スナップショット機能もサポートしています。

    u。プラットフォーム

    • Hadoop 2.x- さまざまなデータ分析のプラットフォームとして機能します。イベント処理、ストリーミング、およびリアルタイム操作を実行することも可能です。
    • Hadoop 3.x- YARN上でイベント処理、ストリーミング、リアルタイム操作を実行することもできます。

    結論

    結論として、Hadoop 3.0は、フォールトトレランスを処理するためのイレイジャーコーディングなどの新機能を追加しました。 Hadoop 3.xは、ストレージのオーバーヘッドも200%から50%削減します。

    また、ディスクバランサーと呼ばれる新しいコマンドラインツールも導入されました。したがって、Hadoop3.xは全体的なパフォーマンスを向上させました。

    Hadoop2.xとHadoop3.xの間に他の違いを見つけた場合は、コメントセクションでお知らせください。


    1. WindowsにmongoDBをインストールするにはどうすればいいですか?

    2. MongoDB Aggregation:個別のフィールドをカウントする

    3. Mongodb C#ドライバーは、配列内の一致するサブドキュメントのみを返します

    4. SQLで文字列と数値を連結する