「企業は、貴重なビジネスインテリジェンスをマイニングして、意思決定を改善し、競争力を獲得できることを認識しています。 HadoopやCassandraなどのツールは、これらすべてを可能にしており、そのため、すべてのレベルのNoSQLスキルに対する需要が非常に高くなっています。」 – TechRepublicのアナリスト
Facebookの社内プロジェクトとして開発され、受信トレイの検索機能である Cassandraを強化しています。 はオープンソースの分散データベース管理システムです。 。 オープンソースプロジェクトとしてリリースされました 2008年にGoogleCodeに掲載され、その後トップレベルのプロジェクトになりました。 Apache Software Foundationで 2010年以降。
カサンドラは次の大きなものです:
- Apache Cassandraは、膨大な量のデータを処理するように設計されています (速度、ボリューム、および多様性の観点から)多数のコモディティサーバーにわたって、高可用性を保証し、SPOF(単一障害点)を提供しません。
- Cassandraは、複数のデータセンターにまたがるクラスターの強力なサポートも提供します。従来のアーキテクチャのように「マスタースレーブ構造」がないため、特定のノードがダウンした場合でもシステムへの影響はゼロになります。
- NoSQLシステムの研究を行っているトロント大学の研究者は、スケーラビリティとノードあたりの最大スループットの観点から次のように述べています。 、Cassandraが明確な勝者として浮上します。NoSQLDBMSの主な焦点は、スケーラビリティを確保することです。 、パフォーマンス および高可用性。 ほとんどのNoSQLDBMSと同様に、Cassandraは構造化データと非構造化データの両方を処理でき、上記のパラメーターでかなりうまく機能します。
- Cassandraはリアルタイムデータストアの両方として機能できます (「記録システム」)オンライン/トランザクションアプリケーション用および読み取り集約型データベースとして ビジネスインテリジェンスシステム用。詳細については、Cassandraが提供するさまざまな利点に関するブログ投稿をお読みください。
CassandraでHadoopを使用する理由
簡単に言うと、次のようになります。
- 統合されたワークロード
- 可用性
- より簡単な展開
Hadoopに関しては、企業はHadoopの基盤となるストレージ構造には関心がありませんが、大量のデータを分析および処理するための費用対効果の高い配信方法に関心があります。 MapReduce、Hive、Pig、Mahout、およびその他の操作の出力から決定を下せることが、これらの組織にとって最も重要なことです。
覚えておくべき重要なポイント:
- Hadoop分散ファイルシステム(HDFS) は、Hadoopエコシステムに含まれるさまざまなコンポーネントとプロジェクトの1つです。 Apache Hadoopプロジェクトでは、HDFSをHadoopアプリケーションで使用されるプライマリストレージシステムとして定義しています .HDFSは、大規模な分散型非構造化データセットを格納できます。データはHDFSに直接保存することも、HBaseに半構造化形式で保存することもできます。これにより、レコードレベルのデータアクセスが高速になり、GoogleのBigTableシステムをモデルにしています。一方、Cassandraは BigTableデータモデルを使用するリレーショナルシステム 、ただし、データの分散とクラスタリングにはAmazonのDynamoスキームを採用しています。
- Hadoopは多くの優れた機能を備えており、そのコアMapReduce機能は非常に強力です。業界の専門家は、HiveとそのSQLのような設計を崇拝しています。 ただし、HDFSファイルシステムのセットアップは非常に複雑で、単一障害点があります。また、主要企業からのフィードバックによると、やりたいことを実行する準備ができていません。 。一方、Cassandraは、Hadoopスタックの下位レベルのすべての機能を提供します。同時に、Cassandraは、まさにそのインフラストラクチャで低レイテンシのリアルタイムアプリケーション機能も提供します。
CassandraとHadoopはどのように連携できますか?
多くのベンダーがHDFSの代替案を提供しています。GigaOMという組織による最近の論文では、ApacheCassandraファイルシステムを使用してHDFSを置き換える方法の概要を説明しています。開発の観点から必要な最小限のプログラミング変更、およびこのプロセスで多くのメリットを享受する方法。 DataStax 、Cassandraのディストリビューションの大手商用プロバイダーは、CassandraとHadoopを組み合わせて、Briskと名付けました。 Briskでは、HDFSはCassandraファイルシステムに置き換えられています。 HDFSの概念の詳細をご覧ください。このオンラインビッグデータコースをご覧ください 、トップインダストリアルワーキングエキスパートによって作成されました。
CassandraとHadoopの組み合わせの利点:
- 同じクラスターにHadoopを使用してCassandraを実装することもできます。 これは、両方の長所を活用できることを意味します。
- Timeベースのリアルタイム Cassandraアプリケーションで実行 (リアルタイムはCassandraの強みです)バッチベースの分析 およびクエリ タイムスタンプを必要としないものは、Hadoopで実行できます。この種のエコシステムでは、HDFSはCassandraに置き換えられており、これは開発者には見えません。必要に応じて、Cassandra環境とHadoop環境の間でノードを動的に再割り当てできます。
- Cassandraファイルシステムは単一障害点を取り除きます これらはHDFSに関連付けられています。つまり、HDFSに関連付けられているNameNodeおよびJobTrackerの単一障害点です。
したがって、アイデアは、大量のリアルタイムトランザクション処理のパイオニアであるCassandraを組み合わせることです。 、よりバッチ指向の分析ソリューションに優れたHadoopを使用 。
カサンドラと大物:
業界全体の多くの組織が、さまざまなビジネス目標を達成するためにCassandraを採用しています。いくつかの著名なものは次のとおりです。
- Netflix –ストリーミングサービスのバックエンドデータベースとしてCassandraを使用します。
- シスコのWebEx – Cassandraを使用して、ユーザーフィードとアクティビティをほぼリアルタイムで保存します。
- SoundCloud –Cassandraを使用してユーザーのダッシュボードを保存します。
- IBM –Cassandraに基づくスケーラブルな電子メールシステムの構築に関する調査を行いました
HadoopとCassandraのスキルを含む役職:
Simplyhiredによる調査によると、Cassandraの仕事は、特に過去2年間の業界での採用率が高いため、需要が高いことが示されています。そして、将来は非常に有望に見えます。
Indeed.comで言及されているHadoop-Cassandraスキルとその給与に関連する役職のいくつかを見てみましょう:
- データアーキテクト: このポジションの平均給与は107,000ドルです。データアーキテクトは、データモデルの作成、データウェアハウジング、データの分析、およびデータ移行の経験が必要です。
- データサイエンティスト: 彼らはデータを収集し、分析し、データを視覚的に提示し、そのデータを使用して予測/予測を行います。データサイエンティストの平均給与は104,000ドルです
- システムエンジニア: システムエンジニアの平均給与は89,000ドルです。
- DBA: DBAは平均10万ドル以上を稼ぎます。
- ソフトウェアアプリケーション開発者: ソフトウェア開発者の平均給与は107,000ドル、アプリケーション開発者の平均給与は93,000ドルです。これらのスキルを持っている人は、十分なフリーランスの仕事を得ることができます。また、起業家精神があれば、独自のスタートアップを立ち上げることもできます。
関連記事:
適切なNoSQLデータベースを選択します。
WindowsにインストールされているCassandraのCQLSHを開く方法は?