このブログでは、 Hadoopについて説明しています。 HDFS高可用性機能。このブログでは、最初に、正確に高可用性とは何か、Hadoopが高可用性を実現する方法、HDFS高可用性機能の必要性について説明します。
このビッグデータHadoopチュートリアルでは、Hadoop高可用性機能の例についても説明します。
Hadoop HDFS高可用性とは何ですか?
Hadoop HDFS 分散ファイルシステムです。 HDFSは、ファイルのレプリカを作成することにより、Hadoopクラスター内のノード間でデータを分散します。 Hadoopフレームワークは、これらのファイルのレプリカをクラスター内に存在する他のマシンに保存します。
したがって、HDFSクライアントが自分のデータにアクセスしたい場合、クラスター内に存在する多数のマシンからそのデータに簡単にアクセスできます。データは、クラスター内の最も近いノードで簡単に利用できます。
ノードの障害などのいくつかの不利な状況では、クライアントは他のノードから自分のデータに簡単にアクセスできます。 Hadoopのこの機能は、高可用性と呼ばれます。 。
Hadoopで高可用性を実現するにはどうすればよいですか?
HDFSクラスターには、多数の DataNodes があります 。一定の時間が経過すると、これらすべてのDataNodeはハートビートメッセージを NameNodeに送信します。 。 NameNodeがこれらのDataNodeのいずれかからのハートビートメッセージの受信を停止した場合、NameNodeは停止していると見なします。
その後、それらのノードに存在するデータをチェックし、他のデータノードにコマンドを渡して、他のデータノードへのそのデータのレプリカを作成します。したがって、データは常に利用可能です。
クライアントがHDFSでデータアクセスを要求すると、まず、NameNodeは、データがすぐに利用できるデータノードでデータを検索します。そして、そのデータへのアクセスをクライアントに提供します。
クライアントは、すべてのデータノードでデータを検索する必要はありません。 HDFS Namenode自体は、ユーザーが直接読み取ることができるデータノードのアドレスを提供することにより、クライアントがデータを簡単に利用できるようにします。
Hadoopの高可用性の例
Hadoop HDFSは、データの高可用性を提供します。クライアントがNameNodeにデータアクセスを要求すると、NameNodeはそのデータが利用可能なすべてのノードを検索します。
その後、データがすぐに利用可能になったノードからユーザーにそのデータへのアクセスを提供します。クラスター内のすべてのノードでデータを検索しているときに、NameNodeが一部のノードが停止していることを検出すると、ユーザーの知らないうちにNameNodeは同じデータが利用可能な他のノードへのユーザー。
中断することなく、ユーザーはデータを利用できるようになります。そのため、ノードに障害が発生した場合でも、ユーザーはデータを高可用性で利用できます。
レガシーシステムの問題は何でしたか?
- マシンがクラッシュしたため、データを利用できませんでした。
- HDFSクライアントは、データにアクセスするために長時間待機する必要があります。ほとんどの場合、ユーザーはWebサイトが起動するまで特定の期間待機する必要があります。
- 限られた機能と機能。
- データが利用できないため、組織での多くの主要なプロジェクトの完了が長期間延長されるため、企業は危機的な状況を経験する必要があります。
結論
したがって、In Hadoopデータは、データの複数のコピーによるハードウェア障害にもかかわらず、可用性とアクセス性が高くなっています。したがって、ノードまたはマシンのいずれかがクラッシュまたはダウンした場合、データは別のパスからデータにアクセスできます。 HDFSの機能の詳細。
このブログがHadoopの高可用性に役立つと思われる場合は、コメントセクションでご意見をお聞かせください。