sql >> データベース >  >> NoSQL >> MongoDB

MongoDB $ stdDevPop

    MongoDBでは、$stdDevPop 集計パイプライン演算子は、入力値の母標準偏差を計算します。

    入力値は、ドキュメントのグループ(つまり、同じキーでグループ化されたドキュメント)からのものにすることも、単一のドキュメント内の複数のフィールドにすることもできます。

    構文

    $stdDevPop 演算子は2つの構文をサポートします。

    構文1:

    { $stdDevPop: <expression> }

    構文2:

    { $stdDevPop: [ <expression1>, <expression2> ... ]  }

    最初の構文は1つの引数を受け入れ、2番目の構文は複数の引数を受け入れます。

    $groupで使用する場合 ステージでは、最初の構文のみを使用できます。この場合、$stdDevPop キーごとに同じグループを共有するドキュメントのグループについて、指定された式の母標準偏差を返します。

    構文1の例(単一引数)

    構文1を使用する例をいくつか示します。

    グループ化されたドキュメント

    この例では、$stdDevPopを使用しています $groupと組み合わせて キーでグループ化されたドキュメントのグループ全体の標準偏差を返します。

    stonksというコレクションがあるとします。 次のドキュメントを使用:

    { "_id" : 1, "ticker" : "gme", "price" : 10 }
    { "_id" : 2, "ticker" : "gme", "price" : 40 }
    { "_id" : 3, "ticker" : "gme", "price" : 90 }
    { "_id" : 4, "ticker" : "gme", "price" : 180 }
    { "_id" : 5, "ticker" : "gme", "price" : 290 }
    { "_id" : 6, "ticker" : "gme", "price" : 390 }
    { "_id" : 7, "ticker" : "gme", "price" : 190 }
    { "_id" : 8, "ticker" : "gme", "price" : 90 }
    { "_id" : 9, "ticker" : "gme", "price" : 10 }
    { "_id" : 10, "ticker" : "jnj", "price" : 131 }
    { "_id" : 11, "ticker" : "jnj", "price" : 133 }
    { "_id" : 12, "ticker" : "jnj", "price" : 138 }
    { "_id" : 13, "ticker" : "jnj", "price" : 141 }
    { "_id" : 14, "ticker" : "jnj", "price" : 145 }
    { "_id" : 15, "ticker" : "jnj", "price" : 150 }
    { "_id" : 16, "ticker" : "jnj", "price" : 154 }
    { "_id" : 17, "ticker" : "jnj", "price" : 156 }
    { "_id" : 18, "ticker" : "jnj", "price" : 160 }

    これらのドキュメントをtickerでグループ化できます フィールドをクリックし、$stdDevPopを使用します priceの母標準偏差を返す 各グループのフィールド:

    db.stonks.aggregate(
       [
         {
           $group:
              {
                _id: "$ticker",
                standardDeviation: { $stdDevPop: "$price" }
              }
         }
       ]
    )

    結果:

    { "_id" : "gme", "standardDeviation" : 123.7380746218039 }
    { "_id" : "jnj", "standardDeviation" : 9.752492558885207 }

    そのgmeを見ることができます jnjよりもはるかに高い標準偏差があります 。

    配列

    この例では、$stdDevPopを適用します 値の配列を持つフィールドを含む単一のドキュメントに。

    このオプションは、単一引数構文を使用する場合にのみ使用できます。マルチ引数構文を使用する場合、配列は無視されます(これについては以下で詳しく説明します)。

    playersというコレクションがあるとします。 次のドキュメントを使用:

    { "_id" : 1, "player" : "Homer", "scores" : [ 1, 7, 2, 3, 8, 7, 1 ] }
    { "_id" : 2, "player" : "Marge", "scores" : [ 0, 1, 8, 17, 18, 8 ] }
    { "_id" : 3, "player" : "Bart", "scores" : [ 15, 11, 8, 0, 1, 3 ] }
    { "_id" : 4, "player" : "Brian", "scores" : [ 7 ] }
    { "_id" : 5, "player" : "Farnsworth", "scores" : [ ] }
    { "_id" : 6, "player" : "Meg", "scores" : null }

    $stdDevPopを適用できます scoresに 各ドキュメントのフィールド:

    db.players.aggregate(
       [
         {
           $project:
              {
                standardDeviation: { $stdDevPop: "$scores" }
              }
         }
       ]
    )

    結果:

    { "_id" : 1, "standardDeviation" : 2.849991049037143 }
    { "_id" : 2, "standardDeviation" : 6.968181653455625 }
    { "_id" : 3, "standardDeviation" : 5.467073155618908 }
    { "_id" : 4, "standardDeviation" : 0 }
    { "_id" : 5, "standardDeviation" : null }
    { "_id" : 6, "standardDeviation" : null }

    この場合、最初の3つのドキュメントは、それぞれの配列にあるさまざまな数値の標準偏差を返しました。

    ドキュメント4の結果、0の標準偏差が発生しました 。これは、配列に1つの番号しか指定していないためです。

    ドキュメント5がnullを返しました 空の配列を提供したためです。

    ドキュメント6がnullを返しました nullを提供したため 引数として。

    構文2の例(複数の引数)

    2番目の構文には、$stdDevPopの提供が含まれます。 複数の引数があります。 $stdDevPop 次に、提供されたすべての引数に基づいて標準偏差を計算します。

    dataというコレクションがあるとします。 次のドキュメントを使用:

    { "_id" : 1, "a" : 1, "b" : 2, "c" : 3, "d" : 4 }
    { "_id" : 2, "a" : 1, "b" : 2, "c" : 3, "d" : [ 4 ] }
    { "_id" : 3, "a" : 1, "b" : 2, "c" : 3, "d" : "Hey" }

    $stdDevPopを使用できます aの母標準偏差を返す 、bc 、およびd 各ドキュメントのフィールド:

    db.data.aggregate(
       [
         {
           $project:
              {
                result: { $stdDevPop: [ "$a", "$b", "$c", "$d" ] }
              }
         }
       ]
    )

    結果:

    { "_id" : 1, "result" : 1.118033988749895 }
    { "_id" : 2, "result" : 0.816496580927726 }
    { "_id" : 3, "result" : 0.816496580927726 }

    ドキュメント1は、1の入力値に基づいて標準偏差を返します。 、23 、および4

    ただし、最後の2つのドキュメントは、1の入力値の標準偏差のみを返しました。 、2 、および3$stdDevPop オペレーターはdを無視しました 田畑。

    なぜですか?

    それが機能する方法は、$stdDevPopです。 数値以外の値を無視します。したがって、この場合は"Hey"を無視しました ドキュメント3で、残りの(数値)フィールドからの母標準偏差を計算しました。

    ドキュメント2については、そのd フィールドに配列が含まれています。前述のように、$stdDevPop マルチ引数構文を使用する場合、演算子は配列を無視します。より正確には、このコンテキストで使用される場合、配列は非数値として扱われます。そして、前述のように、$stdDevPop 数値以外の値を無視します。

    すべての値が数値以外の場合、$stdDevPop nullを返します 。

    欠落しているフィールド

    複数引数の構文を使用する場合は、$stdDevPop 欠落しているフィールドはすべて無視されます。つまり、存在しないフィールドを指定すると、それは無視されます。フィールドが存在しない場合は、nullを返します。 。

    例:

    db.data.aggregate(
       [
         {
           $project:
              {
                result: { $stdDevPop: [ "$a", "$b", "$c", "$d", "$e" ] }
              }
         }
       ]
    )

    結果:

    { "_id" : 1, "result" : 1.118033988749895 }
    { "_id" : 2, "result" : 0.816496580927726 }
    { "_id" : 3, "result" : 0.816496580927726 }

    この場合、追加のフィールド($e)を提供しました )ドキュメントに存在しません。 $stdDevPop 実行する残りのフィールドに基づいて標準偏差を計算しました 存在します。

    ただし、なしの場合は次のようになります 存在するフィールドの数:

    db.data.aggregate(
       [
         {
           $project:
              {
                result: { $stdDevPop: [ "$x", "$y", "$z" ] }
              }
         }
       ]
    )

    結果:

    { "_id" : 1, "result" : null }
    { "_id" : 2, "result" : null }
    { "_id" : 3, "result" : null }

    結果はnullです すべてのドキュメントに対して。

    単一引数の構文を使用する場合、フィールドが欠落していると、nullになります。 。

    例:

    db.stonks.aggregate(
       [
         {
           $group:
              {
                _id: "$ticker",
                standardDeviation: { $stdDevPop: "$oops!" }
              }
         }
       ]
    )

    結果:

    { "_id" : "gme", "standardDeviation" : null }
    { "_id" : "jnj", "standardDeviation" : null }

    利用可能なステージ

    $stdDevPop 次の段階で利用できます:

    • $group
    • $project
    • $addFields
    • $set
    • $replaceRoot
    • $replaceWith
    • $match $exprを含むステージ 表現

    サンプル標準偏差を計算する

    MongoDB $stdDevSampを参照してください サンプルを取得する必要がある場合 母集団とは対照的な標準偏差 標準偏差。この演算子は、値に母集団について一般化するデータの母集団のサンプルが含まれている場合に役立ちます。


    1. ビッグデータHadoopのトップ10の機能

    2. リレーショナルデータベースの代わりにNoSQLデータベースを使用する必要があるのはいつですか?同じサイトで両方を使用しても大丈夫ですか?

    3. 接続ごとに新しいRedisクライアントを作成する必要がありますか?

    4. mongodbコレクション内のドキュメントの数をカウントする方法