Clouderaは最近、ApacheHBaseの2つの新しい主要機能を含むCDH6.2をリリースしました。
- シリアルレプリケーション
- バケットキャッシュがIntelのOptaneメモリをサポートするようになりました
シリアルレプリケーション
HBaseには、グローバルラウンドロビン、双方向、スパンインおよびスパンアウトトポロジを含む今日の複雑なトポロジをサポートする高度な非同期レプリケーションメカニズムがあります。
これまでのところ、この複製機能は結果整合性を提供します。つまり、更新が複製される順序は、データベースに適用された順序と必ずしも同じではありません。これは多くのお客様に有効でしたが、レプリケーションエンドポイントでの更新の順序は多くのユースケースにとって重要でした。
シリアルレプリケーション機能は、レプリケーションのタイムラインの一貫性を提供します。つまり、更新の順序は、宛先クラスターへのレプリケーションを通じて保持されます。この一貫性にはわずかなコストがかかり、場合によっては、レプリケーションがデフォルトのレプリケーションアプローチよりもわずかに遅いことに気付くことがあります。
このオプションの構成は非常に簡単で(SERIALフラグをtrueに設定)、レプリケーションのセットアップ時、またはその後いつでもテーブルレベル、名前空間レベル、またはHBase内のすべてのテーブルをレプリケートするピアに適用できます。
HBaseバケットキャッシュ
HBaseのバケットキャッシュは2層のキャッシュであり、さまざまなユースケースですぐに使えるパフォーマンスを向上させるように設計されています。第1層はJavaヒープ内にあり、キャッシュの第2層は、オフヒープメモリ、Intel Optaneメモリ、SSD、HDDなどのさまざまな場所に配置できます。
ほとんどのお客様に推奨されるバケットキャッシュの第2層の構成は、オフヒープです。この構成でのデプロイメントは、組み込みのオンヒープキャッシュで可能であるよりもはるかに大きなメモリサイズにスケールアップできます。これは、オフヒープエンジンがJVMガベージコレクションのプレッシャーを回避するためです。キャッシュサイズを大きくすると、HBaseの読み取りパフォーマンスが大幅に向上します。
CDH 6.2以降、Clouderaには、バケットキャッシュの第2層の代替宛先として、Intelの新しくリリースされたOptaneメモリを使用する機能が含まれるようになりました。このデプロイメント構成により、一定のコストでキャッシュのサイズを最大3倍にすることができます(DRAMのオフヒープキャッシュと比較して)。従来のオフヒープ構成と比較すると、追加のレイテンシが発生しますが、テストでは、データのワーキングセットのすべてではないにしても、より多くのデータをキャッシュに収めることで、データのパフォーマンスが向上することが示されています。最終的にはHDFSに保存されます(HDDを使用)。
クラウドにデプロイする場合、またはオンプレミスのオブジェクトストレージを使用する場合、オブジェクトストレージは少量のデータのランダムな読み取りに非常に費用がかかる傾向があるため、パフォーマンスの向上はさらに向上します。次の表は、バケットキャッシュの第2層を構成する方法を計画する際に必要なコスト、サイズ、およびレイテンシのトレードオフを示しています。
ストレージ | $コスト/GB | サイズ(一定のコスト) | レイテンシ |
オフヒープDRAM | 35 | 1.0 GB | 〜70 ns |
IntelOptane¹ | 13 | 2.7 GB | 180〜340 ns |
SSD | 0.15 | 233.3 GB | 10-100 µs |
HDD² | 0.027 | 1.3 TB | 4〜10ミリ秒 |
オブジェクトストレージ³ | 0.006 | 5.8 TB | 10-100ミリ秒 |
パフォーマンス向上のためのOptaneDC永続メモリの活用に関するIntelとClouderaのコラボレーションの詳細については、このブログをお読みください。
参照:
- Optane DC永続メモリパフォーマンスの概要(https://www.youtube.com/watch?v=UTVt_AZmWjM)–分6:53、
https:// www.pcper.com/news/Storage/Intels-Optane-DC-Persistent-Memory-DIMMs-Push-Latency-Closer-DRAM、
https://www.tomshardware.com/news/intel-optane- dimm-pricing-performance、39007.html - https://www.backblaze.com/blog/hard-drive-cost-per-gigabyte/、
https://www.westerndigital.com/ products / data-center-drives#hard-disk-hdd - https://www.qualeed.com/en/qbackup/cloud-storage-comparison/、https://www.dellemc.com/en-us/collaterals/ unauth / analyst-reports / products / storage / esg-ecnomic-value-audi-dell-emc-elastic-cloud-storage.pdf