このHadoopチュートリアルの目的 異なるHadoopバージョン間のより明確な理解を提供することです。このブログでは、Hadoop2.xとHadoop3.xの上位20の違いについて説明しました。
このブログでは、さまざまな機能に基づいて、Hadoop2とHadoop3の違いについて説明しています。
Hadoop2.xとHadoop3.xの違い
Apache Hadoop は、大量のデータセットの分散ストレージと処理のためのオープンソースソフトウェアフレームワークです。
Hadoop 3.xは、Hadoopの制限を克服するために導入されました。 2.x. Hadoop 3.xにはいくつかの新機能が追加されていますが、古い機能は引き続き使用されています。
Hadoop2.xとHadoop3.xの機能に関する詳細な比較を以下に示します。
a。ライセンス
- Hadoop 2 。x- Apache 2.0、オープンソース
- Hadoop 3 。x- Apache 2.0、オープンソース
b。サポートされているJavaの最小バージョン
- Hadoop 2 。x- Java7。
- Hadoop 3 。x- Java8。
c。フォールトトレランス
- Hadoop 2.x- このバージョンでは、レプリケーションがフォールトトレランスを処理します。
- Hadoop 3.x- このバージョンでは、イレイジャーコーディングはフォールトトレランスを処理します。
d。データバランシング
- Hadoop 2.x- HDFSを使用します データバランシング用のバランサー
- Hadoop 3.x- HDFSディスクバランサーCLIを介して呼び出されるデータ内ノードバランサーを使用します。
e。ストレージスキーム
- Hadoop 2.x- 3Xレプリケーションスキームを使用します。
- Hadoop 3.x- イレイジャーコーディングを使用します。
f。ストレージオーバーヘッド
- Hadoop 2.x- このバージョンでは、HDFSのストレージスペースに200%のオーバーヘッドがあります。
- Hadoop 3.x- このバージョンでは、HDFSのストレージスペースに50%のオーバーヘッドがあります。
g。ストレージオーバーヘッドの例
- Hadoop 2.x- 6つのブロックがあり、各ブロックのレプリケーションが3倍である場合、18ブロックになります。 18ブロックのスペースを占有します。
- Hadoop 3.x- 6つのブロックがある場合、9つのブロックスペースを占有します。つまり、6つのブロックと3つのパリティを占有します。
h。 YARNタイムラインサービス
- Hadoop 2.x- スケーラビリティの問題がある古いタイムラインサービスを使用します。
- Hadoop 3.x- このバージョンは、タイムラインサービスv2を改善します。また、タイムラインサービスのスケーラビリティと信頼性も向上します。
j。デフォルトのポート範囲
- Hadoop 2.x- このバージョンでは、デフォルトのポートはLinuxのエフェメラルポート範囲です。したがって、起動時に、バインドに失敗します。
- Hadoop 3.x- このバージョンは一時的な範囲外に移動されます。
k。ツール
- Hadoop 2.x- Hive、pig、Tez、Hama、およびその他のHadoopツールも利用できます。
- Hadoop 3.x- このバージョンでは、Hive、pig、Tez、Hama、およびその他のHadoopツールも利用できます。
l。互換性のあるファイルシステム
- Hadoop 2.x- HDFS(デフォルトFS)、FTPファイルシステムをサポートします。これにより、すべてのデータがリモートアクセス可能なFTPサーバーに保存されます。また、Amazon S3(Simple Storage Service)ファイルシステムWindows Azure Storage Blobs(WASB)ファイルシステムもサポートしています。
- Hadoop 3.x- 以前のすべてとMicrosoftAzureDataLakeファイルシステムをサポートします。
m。データノードリソース
- Hadoop 2.x- MapReduce Datanodeの場合、リソースは専用ではありません。他のアプリケーションにも使用できます。
- Hadoop 3.x- このバージョンでは、データノードリソースを他のアプリケーションにも使用できます。
n。 MRAPIの互換性
- Hadoop 2.x- Hadoop2.Xで実行するHadoop1.xプログラムと互換性のあるMRAPI
- Hadoop 3.x- MR APIは、Hadoop3.Xで実行するHadoop1.xプログラムの実行とも互換性があります
o。 Microsoftのサポート
- Hadoop 2.x- Windowsに展開できます。
- Hadoop 3.x- MicrosoftWindowsもサポートしています。
p。スロット/コンテナ
- Hadoop 2.x- Hadoop 1.xはスロットの概念に基づいて機能し、Hadoop2.Xはコンテナーの概念に基づいて機能します。
- Hadoop 3.x- Hadoop 3.xは、コンテナーの概念にも対応しています。
q。単一障害点
- Hadoop 2.x- SPOFを克服する機能があります。したがって、NameNodeに障害が発生すると、自動的に回復します。
- Hadoop 3.x- また、SPOFを克服する機能もあります。したがって、NameNodeに障害が発生すると、手動で介入する必要がなく、自動的に回復します。
r。 HDFSフェデレーション
- Hadoop 2.x- Hadoop 1.xでは、すべての名前空間を管理する単一のNameNodeのみ。ただし、Hadoop 2.xには、複数の名前空間に対して複数のNameNodeがあります。
- Hadoop 3.x- また、複数の名前空間用に複数のNamenodeがあります。
s。スケーラビリティ
- Hadoop 2.x- クラスタごとに最大10000ノードまでスケールアップできます。
- Hadoop 3.x- クラスタごとに10000を超えるノードをスケーリングできます。
t。 HDFSスナップショット
- Hadoop 2.x- スナップショットのサポートが追加されます。また、災害復旧とユーザーエラーの保護も提供します。
- Hadoop 3.x- スナップショット機能もサポートしています。
u。プラットフォーム
- Hadoop 2.x- さまざまなデータ分析のプラットフォームとして機能します。イベント処理、ストリーミング、およびリアルタイム操作を実行することも可能です。
- Hadoop 3.x- YARN上でイベント処理、ストリーミング、リアルタイム操作を実行することもできます。
結論
結論として、Hadoop 3.0は、フォールトトレランスを処理するためのイレイジャーコーディングなどの新機能を追加しました。 Hadoop 3.xは、ストレージのオーバーヘッドも200%から50%削減します。
また、ディスクバランサーと呼ばれる新しいコマンドラインツールも導入されました。したがって、Hadoop3.xは全体的なパフォーマンスを向上させました。
Hadoop2.xとHadoop3.xの間に他の違いを見つけた場合は、コメントセクションでお知らせください。