このHadoopチュートリアルでは、Hadoopの10の最高の機能について説明します。 Apache Hadoopに慣れていない場合は、Hadoopの概要を参照してください。 ApacheHadoopフレームワークの詳細な知識を得るためのブログ。
このブログでは、Hadoopフォールトトレランス、Hadoopでの分散処理、スケーラビリティ、など、ビッグデータHadoopの最も重要な機能について説明します。 信頼性、 高可用性、経済性、柔軟性、Hadoopのデータローカリティ。
Hadoopの紹介
Hadoopは、大量のデータセットの分散ストレージと処理をサポートするオープンソースソフトウェアフレームワークです。その機能により、市場で最も強力なビッグデータツールです。フォールトトレランス、信頼性、高可用性などの機能
Hadoopが提供する-
- HDFS –世界で最も信頼性の高いストレージレイヤー
- MapReduce –分散処理レイヤー
- YARN –リソース管理レイヤー
ビッグデータHadoopの重要な機能
ApacheHadoopが提供する機能は非常にたくさんあります。 Hadoopのこれらの機能について詳しく説明しましょう。
a。オープンソース
これは、オープンソースのJavaベースのプログラミングフレームワークです。オープンソースとは、無料で利用できることを意味し、要件に応じてソースコードを変更することもできます。
b。フォールトトレランス
レプリカ作成のプロセスによるHadoop制御の障害。クライアントがファイルをHDFSに保存すると、Hadoopフレームワークはファイルをブロックに分割します。次に、クライアントはHDFSクラスターに存在するさまざまなマシンにデータブロックを分散します。
次に、クラスター内に存在する他のマシン上にある各ブロックのレプリカを作成します。 HDFSは、デフォルトで、クラスター内に存在する他のマシン上にブロックの3つのコピーを作成します。
クラスター内のいずれかのマシンが、不利な条件のためにダウンまたは障害が発生した場合。また、ユーザーは他のマシンからそのデータに簡単にアクセスできます。
c。分散処理
Hadoopは、大量のデータをHDFSに分散して保存します。ノードのクラスターでデータを並行して処理します。
d。スケーラビリティ
Hadoopはオープンソースプラットフォームです。これにより、非常にスケーラブルなプラットフォームになります。そのため、ダウンタイムなしで新しいノードを簡単に追加できます。 Hadoopは水平方向のスケーラビリティを提供するため、新しいノードがオンザフライモデルでシステムに追加されます。 Apache hadoopでは、アプリケーションは数千を超えるノードで実行されます。
e。信頼性
データの複製によるマシンの障害にもかかわらず、データはマシンのクラスターに確実に保存されます。したがって、いずれかのノードに障害が発生した場合でも、データを確実に保存できます。
f。高可用性
データの複数のコピーがあるため、ハードウェア障害にもかかわらず、データは高可用性でアクセス可能です。したがって、どのマシンもダウンすると、他のパスからデータを取得できます。 Hadoop高可用性機能の詳細をご覧ください。
g。経済的
Hadoopは、コモディティハードウェアのクラスター上で実行されるため、それほど高価ではありません。低コストのコモディティハードウェアを使用しているため、Hadoopクラスターのスケールアウトに多額の費用をかける必要はありません。
i。柔軟性
Hadoopは、あらゆる種類のデータを処理する能力に関して非常に柔軟性があります。構造化、半構造化、または非構造化を扱います。
j。使いやすい
分散コンピューティングを処理するためのクライアントの必要はありません。フレームワークがすべてを処理します。使いやすいです。
k。データの局所性
これは、実際のデータがノード上にある場所の近くに計算を移動する機能を指します。データを計算に移す代わりに。これにより、ネットワークの輻輳が最小限に抑えられ、システムのオーバースループットが向上します。 データの局所性の詳細
結論
結論として、Hadoopは非常にフォールトトレラントであると言えます。ハードウェア障害があっても、大量のデータを確実に保存します。高いスケーラビリティと高可用性を提供します。
Hadoopは、コモディティハードウェアのクラスター上で実行されるため、コスト効率が高くなります。移動計算はデータ移動よりも安価であるため、Hadoopはデータの局所性に取り組んでいます。ビッグデータHadoopのこれらすべての機能により、ビッグデータ処理が強力になります。