2012年12月、Cloudera Impalaはまだベータ段階でしたが、本番リリースで計画されている機能のロードマップを提供しました。 Impalaのユーザー、顧客、愛好家に十分な情報を提供するという同じ精神で、この投稿は、今年後半および2014年初頭の今後のリリースの更新されたロードマップを提供します。
しかし、最初に感謝します。最初のベータリリース以来、Impalaに関する膨大な量のフィードバックと検証を受け取りました。その質と量は豊富です。現在までに、世界中の約4,500のユニークな組織の少なくとも1人がImpalaバイナリをダウンロードしています。また、わずか数か月のGAの後でも、複数の業界のCloudera Enterpriseのお客様が、Cloudera RTQ(Real-Time Query)サブスクリプションを介したサポートにより、ビジネスクリティカルな環境にImpala 1.xを導入しているのを目にしました。これには、保険業界の主要な組織も含まれます。銀行、小売、ヘルスケア、ゲーム、政府、通信、広告。
さらに、データ管理分野の他のベンダーからの反応に基づいて、ImpalaがHadoopの低レイテンシーのインタラクティブSQLクエリを、高レイテンシーのバッチ指向のSQLクエリと同じくらい重要な顧客要件にしたという考えに異議を唱えるオブザーバーはほとんどいません。 ApacheHiveによって有効になります。これは、世界中のHadoopユーザーにとって素晴らしい開発です!
Impala 1.0/1.1で提供されたもの
以前に公開されたImpala1.0/1.1ロードマップのレポートカードから始めましょう。配信ステータスごとにグループ化された機能リストは次のとおりです。
配信済み:
| 顧客のフィードバックに基づいて延期:
|
さらに、Apache Sentryモジュール(インキュベーション)が追加されたおかげで、Impala 1.1以降では、きめ細かい役割ベースの承認も提供されるようになり、適切なユーザーとアプリケーションが適切なデータにアクセスできるようになりました。 (最近、SentryがApache Incubatorに、HiveServer2がHive by Clouderaに貢献したため、Hive 0.11以降にもその機能があります。)
多くの作業が行われましたが、まだやるべきことがたくさんあります。それでは、Impala2.0の波に移りましょう。
短期ロードマップ
次の新しいImpala機能は、2013年後半のImpala 1.2から始まり、2014年の最初の3分の1のImpala 2.0で終わる、近い将来のリリースで段階的にリリースされます。さらに、パフォーマンスの向上とSQL機能の強化が各リリース– Impalaのパフォーマンスを拡張することを目的として、レガシーリレーショナルデータベースベンダーおよびHadoopディストロベンダーの代替SQL-on-Hadoopアプローチを上回ります。
ロードマップの場合と同様に、タイムラインと機能は常に変更される可能性があることに注意してください。ただし、以下に表示されているのは、現在の記録計画を示しています。
Impala 1.2
- UDFと拡張性–ユーザーが独自のカスタム機能を追加できるようにします。 Impalaは、既存のHive Java UDFだけでなく、高性能のネイティブUDFとUDAFもサポートします
- 自動メタデータ更新–新しいテーブルとデータをImpalaクエリでシームレスに利用できるようにします。これらは追加されるため、各Impalaノードで手動更新を発行する必要はありません。
- インメモリHDFSキャッシング–頻繁にアクセスされるHadoopデータにインメモリ速度でアクセスできるようにします
- コストベースの結合順序の最適化–ユーザーが正しい結合順序を推測する必要がなくなります
- YARN統合リソースマネージャーのプレビュー—ClouderaManagerで現在提供されているサービスレベルの分離よりも細かい粒度でワークロードに優先順位を付けることができます
Impala 2.0
以下のリストは、より大きく、最も頻繁に要求される機能のみを示しています。完全ではありません。
- SQL 2003準拠の分析ウィンドウ関数(パーティションを介した集約)–より高度なSQL分析機能を提供します
- 追加の認証メカニズム–すでにサポートされているKerberos認証に加えてユーザー名/パスワードを指定する機能を含む
- UDTF(ユーザー定義のテーブル関数)–より高度なユーザー関数と拡張性のために
- ノード内の並列化された集約と結合– Impalaのパフォーマンスの向上に加えて、さらに高速な結合と集約を提供します
- ネストされたデータ–マップ、構造体、配列などの複雑なネストされた構造体に対するクエリを有効にします
- 拡張された、本番環境に対応した、YARNに統合されたリソースマネージャー
- 寄木細工の機能強化–インデックスページを含む継続的なパフォーマンスの向上
- 追加のデータ型–日付型と小数型を含む
- LIMIT句なしのORDERBY
Impala2.0を超えて
次の機能のリストは、2.1またはその後すぐにリリースされると現在予想されている機能です。
- 追加の分析SQL機能– ROLLUP、CUBE、およびGROUPING SET
- Apache HBase CRUD –HBaseへの挿入と更新にImpalaを使用できます
- ディスクを使用した外部結合–テーブル間の結合がディスクにスピルして、集約メモリサイズよりも大きい結合テーブルを必要とする結合を可能にします
- WHERE句内のサブクエリ
顧客とパートナーの要件について詳しく知ると、このリストは拡大します。
結論
ご覧のとおり、Impalaはベータ版のリリース以来大幅に進化しており、ユーザー、顧客、パートナーからより多くのフィードバックを収集するにつれて進化し続けます。
最終的に、Impalaは、ユーザーがすべてのデータをネイティブHadoopファイル形式で保存し、そのデータに対してすべてのバッチ、機械学習、インタラクティブSQL / BI、数学、検索、その他のワークロードを同時に実行できるようにするという全体的な目標をすでに実現していると信じています。所定の位置に。ここからは、より豊富な機能と改善されたパフォーマンスを備えた非常に強固な基盤の上に構築し続けることが重要です。
Justin Ericksonは、Clouderaの製品管理ディレクターです。