IRIソフトウェア製品の名前とその実行方法は、初心者にとっては謎や混乱の原因となることがあります。この記事では、断片を詳しく説明し、それらの相互作用を明確にして、将来のユーザー、パートナー、および新しい業界分析のための簡単な入門書を提供します sts。
すべてが始まった場所
それは1978年のIRICoSortで始まりました。これは、UnixおよびWindows用のビッグデータの並べ替え、変換、およびレポート作成ユーティリティであり、現在でも広く使用されています。 CoSort以前は、この最初のIRI製品は、CO-SORT、COSORT、CoSORTの順に呼ばれていました。
1992年、IRIは、ソート制御言語(SortCL)データ定義構文および操作プログラムをCoSortパッケージの他のユーティリティおよびAPIに追加しました。現在、SortCLは、CoSortパッケージで最も広く使用されている機能満載のUIです。
SortCLスクリプトは、CoSortユーザーが実行する必要のある多くの一般的なデータ移動およびマッピングタスクを実行および結合するジョブを定義し、sortclプログラムを実行します。 SortCLは、学習、読み取り、変更を行うための単純な4GLであるだけでなく、API(sortcl_routineと呼ばれる)を介してサポートされ、Eclipse上に構築された無料のIRIWorkbenchIDEでグラフィカルにサポートされます。
SortCL機能が拡張されると、ソートの移行とBI/DWアクセラレーションの従来のCoSort市場を上回りました。現在、SortCL実行可能ファイルは、ほとんどのCoSortジョブを実行するエンジンであるだけでなく、ここに示すように、いくつかのスピンオフ製品の心臓部でもあります。
CoSort/SortCLスピンオフ製品
具体的には、同じSortCLエンジンと互換性のあるジョブスクリプト(通常はIRI Workbenchから設計され、多くの場合管理されます)は、次の場所で構造化データソースを処理します。
- データマスキング用のIRIFieldShieldおよびIRIDarkShield
- テストデータの合成とデータベースのサブセット化のためのIRIRowGen
- データとデータベースの変換とレプリケーションのためのIRINextForm、および
- IRI Voracityデータ管理プラットフォームのジョブ。これには、CoSortおよびのジョブが含まれます。 上記のリンク先の製品、プラス 次のような、一般的なWorkbenchGUIを介した追加のフロントエンド機能:
- データの検出(プロファイリング、分類、検索)
- データウェアハウスETL、CDC、およびSDC
- DataVault2.0の移行とプロトタイピング
- データ品質(検証、クレンジング、均質化)
- SplunkとKNIME、およびハンドオフを介したその他のBIツールの分析またはデータラングリング
製品階層を確認するもう1つの方法は、次のとおりです。
ここで、Workbench IDEは、Voracityでサポートされている追加機能を含むすべてのIRI製品ジョブが設計されている場所です。
よくある質問
SortCLはCoSortで始まり、これらすべての製品に共通しているので、これは、CoSortまたは上記の他の製品を使用して、他の製品と同じように実行できることを意味しますか?
答えはイエスとノーです。はい、SortCLがあり、理論的には、別のSortCL互換IRI製品が実行することを意図しているのと同じ作業の一部を実行できます。しかし、それはより困難であり、生産リスクを表します。 IRIは、ライセンスされたIRI製品に最も関連するタスクのドキュメントとサポートのみを提供します。
したがって、実際にはクロスオーバー機能は制限されています。それでも、組み合わせ機能は多くの場合(ソートされたDBサブセットなど)一般的であり、Voracityでは、マルチタスク、マルチステップのユースケース(インクリメンタルマッピング、マスキング、クレンジング、再フォーマットなど)が非常に効率的で、完全にサポートされています。
SortCLは、すべてのIRI Voracity CDC、ETL、CDC、クレンジング、調整、サブセット化のデフォルトエンジンです。 、
PIIマスキング、テストデータ合成、変換、再フォーマット、ラングリング、分析、およびレポートのジョブ。
ランタイムアーキテクチャ
製品の名前がわかったので、それらがどのように相互に関連して展開されるかについて説明しましょう。
IRIソフトウェアは通常、クライアント/サーバーモデルで動作し、SortCL互換のジョブは、IRI Workbenchやその他のテキストエディタなどのフロントエンド編集環境で、またはIRIAPIを介して定義されます。これらのジョブは通常、Linux、Unix、またはWindows(物理または仮想)マシンのSortCLバックエンドプログラムで、オンプレミスまたはクラウドで実行されます。
SortCL構文でスクリプト化された一部のジョブは、Hadoop用のVoracity Grid(VGrid)エディションのライセンシーの場合、Map Reduce 2、Spark、Spark Stream、Story、またはTezで直接変更せずに実行することもできます。
ただし、他の多くのETLおよびデータマスキングプログラムとは異なり、SortCLを一元的に実行または管理する必要があるCoSortサーバーはありません。軽量のSortCL実行可能ファイルは、RaspberryPiからz/Linuxメインフレームまでどこでも実行できます。
したがって、上の図によると、サイトでは、パフォーマンスを最適化するために、IRIWorkbenchを実行している開発者のラップトップおよび集中型のファイルサーバーまたはデータベースサーバーにテストおよびQASortCLインスタンスをインストールするのが一般的です。このFAQは、たとえばIRIデータマスキング製品のコンテキストでSortCLのライセンスを取得する場所と、それに応じてコストを計算する方法について説明しています。
必要なIRI製品、または使用している(またはプロビジョニングを計画している)ハードウェアに最適に展開する方法について質問がある場合は、IRI担当者にお問い合わせください。