データファイルとStatisticaのマージ、パート1

Statisticaプラットフォームは、Gartnerの2017年の新しいレポート「MagicQuadrant for Data SciencePlatforms」（https://www.gartner.com/doc/3606026/magic-quadrant-data-science-）によってデータサイエンスプラットフォームのトップ5にランクされています。プラットフォーム）、以前は2016年に「AdvancedAnalyticsPlatforms」と呼ばれていました。Statisticaが提供する幅広い機能とグラフィカルユーザーインターフェイス（GUI）により、Statisticaは最も一般的に使用されるデータサイエンスツールの1つになっています。

統計データファイルはスプレッドシートと呼ばれます、データの行と列があります。データの行はケースと呼ばれますデータの列ヘッダーは変数と呼ばれます。データ準備の一般的な問題は、さまざまなチームメンバーがデータセットを個別に開発または収集しており、スプレッドシートを使用する前にデータセットをマージする必要があることです。データは複数のデータファイルにある可能性があります。 2つの異なるデータファイルのデータをStatisticaを使用して1つのデータファイルにマージする方法について説明します。

Statisticaは、2つのデータファイルに対してさまざまなタイプのマージモードをサポートしています。これらは次のとおりです。

連結： 2つのデータファイルが連結されると、一方のデータファイルが取得され、もう一方のデータファイルの右側に追加（または連結）されます。
デカルト： 2つのデータファイルの外積を作成します。
ケース名を一致させる： ケース名を照合することにより、1つのファイルのケース（行）を他のファイルのケースとマージします。
変数の一致： 変数名を照合することにより、1つのデータファイルの行を他のデータファイルの行とマージします。

まず、連結マージについて説明します。このチュートリアルには次のセクションがあります：

環境の設定
データファイルの連結
結論

環境の設定

StatisticaPlatformをダウンロードしてインストールします。 Statisticaデータファイルはスプレッドシートと呼ばれます（ .sta とともに保存されます）サフィックス）。このチュートリアルでは、いくつかのStatisticaデータファイルを作成します。データファイルはファイル>新規で作成されます。 新しいドキュメントの作成 、スプレッドシートを選択します、図1に示すように。

図1： 作成する新しいスプレッドシートの選択

データファイルを保存するには、[ファイル]>[名前を付けて保存]を選択します、図2に示すように。

図2： [ファイル]>[名前を付けて保存]

データファイルの連結

まず、マージする2つのデータファイルを作成します。マージされるデータファイルは、通常、同じ数の行と同じまたは異なる数の列を持ちます。データは連結されるため、通常、列名は異なります。これはいずれも要件ではありません。 2つのデータファイルの行数が異なる可能性があるため、このようなデータファイルのセットをマージする方法についても説明します。目的は、1つのデータファイルの右側に2つのデータファイルが追加されるように、1つのデータファイルのデータを他のデータファイルとマージすることです。例として、データファイル（ wlslog1.sta と呼ばれる）を作成します）列ヘッダー（変数）タイムスタンプ 、カテゴリ 、およびタイプ および次のデータ（ログデータの例）。

4-8-2014-7:06:16,Notice,WebLogicServer
4-8-2014-7:06:17,Notice,WebLogicServer
4-8-2014-7:06:18,Notice,WebLogicServer
4-8-2014-7:06:20,Notice,WebLogicServer
4-8-2014-7:06:21,Notice,WebLogicServer
4-8-2014-7:06:22,Notice,WebLogicServer

wlslog1.sta データファイルは、図3のStatisticaに示されています。

図3： データファイルwlslog1.sta

別のデータファイル（ wlslog2.sta ）を作成します）列ヘッダー付き servername 、コード 、および msg 、次のデータ（ログデータの例も）を追加します。

AdminServer,BEA-000365,STANDBY
AdminServer,BEA-000365,RESUMING
AdminServer,BEA-000365,ADMIN
AdminServer,BEA-000331,STARTING
AdminServer,BEA-000365,STARTED
AdminServer,BEA-000360,RUNNING

wlslog2.sta ファイルを図4に示します。2つのデータファイルをマージするには、 wlslog1.sta およびwlslog2.sta 、データをクリックしますタブをクリックし、マージを選択します、図4に示すように。

図4： データファイルwlslog2.sta

マージオプション 図5に示すように、ダイアログが表示されます。変数デフォルトではタブが選択されています。 モードを選択します連結として。 ファイル1をクリックしますボタンをクリックして、マージする1つのファイルを選択します。

図5： マージオプション

wlslog1.staを選択します スプレッドシートの選択のファイルダイアログ（図6を参照）。 OKをクリックします。 wlslog1.sta ファイルはファイル1に追加されます分野。同様に、2つのファイル wlslog2.staを選択します。

図6： マージするスプレッドシートの選択

他の構成は必要ありません。デフォルトでは、出力スプレッドシートが生成され、オプションで構成できます。図7に示すように、タブ。出力スプレッドシートのデフォルト設定を保持します。

図7： [オプション]タブ

マージされる2つのファイルがファイル1に追加されますおよびファイル2 図8に示すように、フィールド。一致しないケースのデフォルト設定欠落している値でデータファイルを埋めます。これは、マージされた行のセクションに空のデータが保存されることを意味します（ case ）あるデータファイルから別のデータファイルに一致しません。 OKをクリックします。

図8： マージするデータファイル

図9に示すように、2つのデータファイルが連結されます。結果のスプレッドシートには、6列と6行があります。

図9： マージ後のスプレッドシート

一方のスプレッドシートにもう一方のスプレッドシートよりも多くの行がある場合、2つのスプレッドシートはまったく同じように連結されます。例として、1つのスプレッドシート（ wlslog1.sta ）に行を追加します。）図10に示すように、7行を作成します。

図10： wlslog1.staの追加行

2つのスプレッドシート（ wlslog2.sta ）と連結した場合）、結果のスプレッドシートには、2つのスプレッドシートの列のデータが欠落している余分な行があります（図11を参照）。

図11： マージされたスプレッドシート

結論

このチュートリアルでは、データサイエンス用のStatisticaプラットフォームにデータファイル（スプレッドシートとも呼ばれます）をマージする方法を紹介しました。マージモードの1つである連結マージについて説明しました。後続のチュートリアルでは、ケース名を一致させ、変数を一致させることによるマージについて説明します。