sql >> データベース >  >> RDS >> Database

データファイルとStatisticaのマージ、パート1

    Statisticaプラットフォームは、Gartnerの2017年の新しいレポート「MagicQuadrant for Data SciencePlatforms」(https://www.gartner.com/doc/3606026/magic-quadrant-data-science-)によってデータサイエンスプラットフォームのトップ5にランクされています。プラットフォーム)、以前は2016年に「AdvancedAnalyticsPlatforms」と呼ばれていました。Statisticaが提供する幅広い機能とグラフィカルユーザーインターフェイス(GUI)により、Statisticaは最も一般的に使用されるデータサイエンスツールの1つになっています。

    統計データファイルはスプレッドシートと呼ばれます 、データの行と列があります。データの行はケースと呼ばれます データの列ヘッダーは変数と呼ばれます 。データ準備の一般的な問題は、さまざまなチームメンバーがデータセットを個別に開発または収集しており、スプレッドシートを使用する前にデータセットをマージする必要があることです。データは複数のデータファイルにある可能性があります。 2つの異なるデータファイルのデータをStatisticaを使用して1つのデータファイルにマージする方法について説明します。

    Statisticaは、2つのデータファイルに対してさまざまなタイプのマージモードをサポートしています。これらは次のとおりです。

    • 連結: 2つのデータファイルが連結されると、一方のデータファイルが取得され、もう一方のデータファイルの右側に追加(または連結)されます。
    • デカルト: 2つのデータファイルの外積を作成します。
    • ケース名を一致させる: ケース名を照合することにより、1つのファイルのケース(行)を他のファイルのケースとマージします。
    • 変数の一致: 変数名を照合することにより、1つのデータファイルの行を他のデータファイルの行とマージします。

    まず、連結マージについて説明します。このチュートリアルには次のセクションがあります:

    • 環境の設定
    • データファイルの連結
    • 結論

    環境の設定

    StatisticaPlatformをダウンロードしてインストールします。 Statisticaデータファイルはスプレッドシートと呼ばれます( .sta とともに保存されます) サフィックス)。このチュートリアルでは、いくつかのStatisticaデータファイルを作成します。データファイルはファイル>新規で作成されます 。 新しいドキュメントの作成スプレッドシートを選択します 、図1に示すように。


    図1: 作成する新しいスプレッドシートの選択

    データファイルを保存するには、[ファイル]>[名前を付けて保存]を選択します 、図2に示すように。


    図2: [ファイル]>[名前を付けて保存]

    データファイルの連結

    まず、マージする2つのデータファイルを作成します。マージされるデータファイルは、通常、同じ数の行と同じまたは異なる数の列を持ちます。データは連結されるため、通常、列名は異なります。これはいずれも要件ではありません。 2つのデータファイルの行数が異なる可能性があるため、このようなデータファイルのセットをマージする方法についても説明します。目的は、1つのデータファイルの右側に2つのデータファイルが追加されるように、1つのデータファイルのデータを他のデータファイルとマージすることです。例として、データファイル( wlslog1.sta と呼ばれる)を作成します )列ヘッダー(変数タイムスタンプカテゴリ 、およびタイプ および次のデータ(ログデータの例)。

    4-8-2014-7:06:16,Notice,WebLogicServer
    4-8-2014-7:06:17,Notice,WebLogicServer
    4-8-2014-7:06:18,Notice,WebLogicServer
    4-8-2014-7:06:20,Notice,WebLogicServer
    4-8-2014-7:06:21,Notice,WebLogicServer
    4-8-2014-7:06:22,Notice,WebLogicServer
    

    wlslog1.sta データファイルは、図3のStatisticaに示されています。


    図3: データファイルwlslog1.sta

    別のデータファイル( wlslog2.sta )を作成します )列ヘッダー付き servername コード 、および msg 、次のデータ(ログデータの例も)を追加します。

    AdminServer,BEA-000365,STANDBY
    AdminServer,BEA-000365,RESUMING
    AdminServer,BEA-000365,ADMIN
    AdminServer,BEA-000331,STARTING
    AdminServer,BEA-000365,STARTED
    AdminServer,BEA-000360,RUNNING
    

    wlslog2.sta ファイルを図4に示します。2つのデータファイルをマージするには、 wlslog1.sta およびwlslog2.staデータをクリックします タブをクリックし、マージを選択します 、図4に示すように。


    図4: データファイルwlslog2.sta

    マージオプション 図5に示すように、ダイアログが表示されます。変数 デフォルトではタブが選択されています。 モードを選択します 連結として 。 ファイル1をクリックします ボタンをクリックして、マージする1つのファイルを選択します。


    図5: マージオプション

    wlslog1.staを選択します スプレッドシートの選択のファイル ダイアログ(図6を参照)。 OKをクリックします 。 wlslog1.sta ファイルはファイル1に追加されます 分野。同様に、2つのファイル wlslog2.staを選択します 。


    図6: マージするスプレッドシートの選択

    他の構成は必要ありません。デフォルトでは、出力スプレッドシートが生成され、オプションで構成できます。 図7に示すように、タブ。出力スプレッドシートのデフォルト設定を保持します。


    図7: [オプション]タブ

    マージされる2つのファイルがファイル1に追加されます およびファイル2 図8に示すように、フィールド。一致しないケースのデフォルト設定 欠落している値でデータファイルを埋めます。これは、マージされた行のセクションに空のデータが保存されることを意味します( case )あるデータファイルから別のデータファイルに一致しません。 OKをクリックします 。


    図8: マージするデータファイル

    図9に示すように、2つのデータファイルが連結されます。結果のスプレッドシートには、6列と6行があります。


    図9: マージ後のスプレッドシート

    一方のスプレッドシートにもう一方のスプレッドシートよりも多くの行がある場合、2つのスプレッドシートはまったく同じように連結されます。例として、1つのスプレッドシート(​​ wlslog1.sta )に行を追加します。 )図10に示すように、7行を作成します。


    図10: wlslog1.staの追加行

    2つのスプレッドシート(​​ wlslog2.sta )と連結した場合 )、結果のスプレッドシートには、2つのスプレッドシートの列のデータが欠落している余分な行があります(図11を参照)。


    図11: マージされたスプレッドシート

    結論

    このチュートリアルでは、データサイエンス用のStatisticaプラットフォームにデータファイル(スプレッドシートとも呼ばれます)をマージする方法を紹介しました。マージモードの1つである連結マージについて説明しました。後続のチュートリアルでは、ケース名を一致させ、変数を一致させることによるマージについて説明します。


    1. 専用サーバーでのMySQLのチューニングの基本

    2. 最大限のデータ保護のための完全なMariaDB暗号化の保管中および転送中-パート2-

    3. Oracle Pivotクエリは、列名を引用符で囲んだ列を提供します。何?

    4. MacでのOracleのJavaを理解する