Statisticaプラットフォームは、Gartnerの2017年の新しいレポート「MagicQuadrant for Data SciencePlatforms」(https://www.gartner.com/doc/3606026/magic-quadrant-data-science-)によってデータサイエンスプラットフォームのトップ5にランクされています。プラットフォーム)、以前は2016年に「AdvancedAnalyticsPlatforms」と呼ばれていました。Statisticaが提供する幅広い機能とグラフィカルユーザーインターフェイス(GUI)により、Statisticaは最も一般的に使用されるデータサイエンスツールの1つになっています。
統計データファイルはスプレッドシートと呼ばれます 、データの行と列があります。データの行はケースと呼ばれます データの列ヘッダーは変数と呼ばれます 。データ準備の一般的な問題は、さまざまなチームメンバーがデータセットを個別に開発または収集しており、スプレッドシートを使用する前にデータセットをマージする必要があることです。データは複数のデータファイルにある可能性があります。 2つの異なるデータファイルのデータをStatisticaを使用して1つのデータファイルにマージする方法について説明します。
Statisticaは、2つのデータファイルに対してさまざまなタイプのマージモードをサポートしています。これらは次のとおりです。
- 連結: 2つのデータファイルが連結されると、一方のデータファイルが取得され、もう一方のデータファイルの右側に追加(または連結)されます。
- デカルト: 2つのデータファイルの外積を作成します。
- ケース名を一致させる: ケース名を照合することにより、1つのファイルのケース(行)を他のファイルのケースとマージします。
- 変数の一致: 変数名を照合することにより、1つのデータファイルの行を他のデータファイルの行とマージします。
まず、連結マージについて説明します。このチュートリアルには次のセクションがあります:
- 環境の設定
- データファイルの連結
- 結論
環境の設定
StatisticaPlatformをダウンロードしてインストールします。 Statisticaデータファイルはスプレッドシートと呼ばれます( .sta とともに保存されます) サフィックス)。このチュートリアルでは、いくつかのStatisticaデータファイルを作成します。データファイルはファイル>新規で作成されます 。 新しいドキュメントの作成 、スプレッドシートを選択します 、図1に示すように。
図1: 作成する新しいスプレッドシートの選択
データファイルを保存するには、[ファイル]>[名前を付けて保存]を選択します 、図2に示すように。
図2: [ファイル]>[名前を付けて保存]
データファイルの連結
まず、マージする2つのデータファイルを作成します。マージされるデータファイルは、通常、同じ数の行と同じまたは異なる数の列を持ちます。データは連結されるため、通常、列名は異なります。これはいずれも要件ではありません。 2つのデータファイルの行数が異なる可能性があるため、このようなデータファイルのセットをマージする方法についても説明します。目的は、1つのデータファイルの右側に2つのデータファイルが追加されるように、1つのデータファイルのデータを他のデータファイルとマージすることです。例として、データファイル( wlslog1.sta と呼ばれる)を作成します )列ヘッダー(変数 )タイムスタンプ 、カテゴリ 、およびタイプ および次のデータ(ログデータの例)。
4-8-2014-7:06:16,Notice,WebLogicServer 4-8-2014-7:06:17,Notice,WebLogicServer 4-8-2014-7:06:18,Notice,WebLogicServer 4-8-2014-7:06:20,Notice,WebLogicServer 4-8-2014-7:06:21,Notice,WebLogicServer 4-8-2014-7:06:22,Notice,WebLogicServer
wlslog1.sta データファイルは、図3のStatisticaに示されています。
図3: データファイルwlslog1.sta
別のデータファイル( wlslog2.sta )を作成します )列ヘッダー付き servername 、コード 、および msg 、次のデータ(ログデータの例も)を追加します。
AdminServer,BEA-000365,STANDBY AdminServer,BEA-000365,RESUMING AdminServer,BEA-000365,ADMIN AdminServer,BEA-000331,STARTING AdminServer,BEA-000365,STARTED AdminServer,BEA-000360,RUNNING
wlslog2.sta ファイルを図4に示します。2つのデータファイルをマージするには、 wlslog1.sta およびwlslog2.sta 、データをクリックします タブをクリックし、マージを選択します 、図4に示すように。
図4: データファイルwlslog2.sta
マージオプション 図5に示すように、ダイアログが表示されます。変数 デフォルトではタブが選択されています。 モードを選択します 連結として 。 ファイル1をクリックします ボタンをクリックして、マージする1つのファイルを選択します。
図5: マージオプション
wlslog1.staを選択します スプレッドシートの選択のファイル ダイアログ(図6を参照)。 OKをクリックします 。 wlslog1.sta ファイルはファイル1に追加されます 分野。同様に、2つのファイル wlslog2.staを選択します 。
図6: マージするスプレッドシートの選択
他の構成は必要ありません。デフォルトでは、出力スプレッドシートが生成され、オプションで構成できます。 図7に示すように、タブ。出力スプレッドシートのデフォルト設定を保持します。
図7: [オプション]タブ
マージされる2つのファイルがファイル1に追加されます およびファイル2 図8に示すように、フィールド。一致しないケースのデフォルト設定 欠落している値でデータファイルを埋めます。これは、マージされた行のセクションに空のデータが保存されることを意味します( case )あるデータファイルから別のデータファイルに一致しません。 OKをクリックします 。
図8: マージするデータファイル
図9に示すように、2つのデータファイルが連結されます。結果のスプレッドシートには、6列と6行があります。
図9: マージ後のスプレッドシート
一方のスプレッドシートにもう一方のスプレッドシートよりも多くの行がある場合、2つのスプレッドシートはまったく同じように連結されます。例として、1つのスプレッドシート( wlslog1.sta )に行を追加します。 )図10に示すように、7行を作成します。
図10: wlslog1.staの追加行
2つのスプレッドシート( wlslog2.sta )と連結した場合 )、結果のスプレッドシートには、2つのスプレッドシートの列のデータが欠落している余分な行があります(図11を参照)。
図11: マージされたスプレッドシート
結論
このチュートリアルでは、データサイエンス用のStatisticaプラットフォームにデータファイル(スプレッドシートとも呼ばれます)をマージする方法を紹介しました。マージモードの1つである連結マージについて説明しました。後続のチュートリアルでは、ケース名を一致させ、変数を一致させることによるマージについて説明します。