sql >> データベース >  >> RDS >> Database

ビッグデータの3つの主要な特徴を理解する

    組織がビッグデータの課題に直面しているという事実は、今日では一般的です。用語ビッグデータ 膨大なデータの山から意味のある情報を抽出するために、新旧両方の複数のテクノロジーのセットを使用することを指します。データセットは大きいだけでなく、それらのキャプチャ、管理、および処理において独自の一連の課題があります。構造化されたリレーショナルデータベースに保持されるデータとは異なり、ビッグデータ形式は、構造化、半構造化から非構造化、またはさまざまなサイズのさまざまなソースから収集できます。この記事では、ビッグデータの基本的な側面とその基本的な特徴について詳しく説明し、ビッグデータを処理するために使用されるツールと手法のヒントを提供します。

    概要

    用語ビッグデータ データのサイズのみの印象を与えます。これはある意味では真実ですが、全体像を示すものではありません。それに関連する課題は、単にそのサイズだけではありません。実際、このアイデアは、さまざまなソース、形式、サイズから収集された大量のデータに名前を付けるように進化しましたが、同時に、それを利用したり、価値を引き出したりすることは困難でした。新興技術の台頭とインターネットの使用の増加は、量と格差に弾みをつけました。インターネットを介した情報交換のたびに、あるいは私たちが使用するごくわずかなIoTオブジェクトでさえ、その量は増え続けています。電話に出るか、CCTVのスイッチを入れるだけで、データチェーンを生成できます。現在、ほとんどのデバイスはオンラインで接続されています。現在、組織がその情報をオンラインで収集したい場合、生成されるデータは膨大になるため、特別な処理プロセスが必要になります。さらに、キャプチャされたデータの形式に統一性がない場合があります。これにより、構造化データ、半構造化データ、または非構造化データを処理する必要があるため、複雑さが増します。これまでデータを整理するために使用していたツールでは、このような多様性と量を処理することはできません。したがって、ビッグデータという用語は 実際には、リレーショナルデータベースやXMLなどを使用するなど、構造化データまたは半構造化データの処理に通常使用される従来のツールや手法では処理または分析できないデータに適用されます。

    今日の組織は、生の形式で利用できる非構造化データまたは半構造化データでいっぱいです。これらのデータは、処理されて価値が得られれば、豊富な情報になる可能性があります。しかし、問題はそれをどのように行うかです。リレーショナルデータベースなどの従来の手法やツールでは、このような大量の多彩なデータを処理するには不十分です。また、組織にとっては両刃の問題です。単にそれらを細断することは、貴重な情報があればそれを失うことを意味し、それらを保持することはリソースの浪費になるからです。そのため、問題に対処するためにいくつかのツールとテクニックが求められています。時には、その潜在的な価値が山積みになっていることを確信しており、情報の宝庫を手に入れることができますが、適切なツールがなければ、ビジネスプロセスがそれから利益を得るのは非常に負担になります。今日のデータは膨大で、近年のデータと同じように爆発的に増加しています。ちなみに、それを止めることはできないようです。

    情報爆発

    ビッグデータは、テクノロジー、メディア、小売、金融サービス、旅行、ソーシャルメディアなど、ほぼすべてのセクターで毎分大きくなっています。私たちが話しているデータ処理の量は気が遠くなるほどで​​す。ここにあなたにアイデアを与えるためのいくつかの統計情報があります:

    • 気象チャンネルは毎分18,055,555件の予報リクエストを受け取ります。
    • Netflixユーザーは毎分97,222時間のビデオをストリーミングします。
    • Skypeユーザーは毎分176,220回の通話を行います。
    • Instagramユーザーは毎分49,380枚の写真を投稿します。

    これらの数は毎年増加しており、インターネットを使用する人が増えています。 2017年、インターネットの使用量は世界人口の最大47%(38億人)に達しました。電子機器の数が増え続ける中、私たちのおおよその出力データは1日あたり2.5兆バイトと推定され、増え続けています。

    Google検索の統計では、1日あたり35億回の検索が示されています。これは、平均して1秒あたり40,000回を超える検索です。また、他の検索エンジンも検索を行っていることを見逃してはなりません。 Radicati Group、Inc.の2015-2019年の電子メール統計レポートは、2019年までに29億の電子メールユーザーを示しています。

    2017年に撮影される写真の数を見積もるには、2017年に世界に75億人がいて、約50億人が携帯電話を持っているとすると、それらの電話の80%にカメラが内蔵されていると推測されます。つまり、カメラを使用している人は約40億人です。 1日に10枚の写真を撮る場合、つまり1人あたり年間3,650枚の写真を撮ると、合計で年間約14兆枚の写真が撮られます。

    したがって、ビッグデータとは、本質的に、大きすぎて推測できないデータまたはレコードのセットを指します。それらは、検索エンジン、ビジネスインフォマティクス、ソーシャルネットワーク、ソーシャルメディア、ゲノミクス、気象学、天気予報、およびその他の多くのソースを通じて作成されます。これは明らかに、既存のデータベース管理ツールと手法を使用して操作することはできません。ビッグデータは、ストレージ、キャプチャ、管理、メンテナンス、分析、調査、それらを処理するための新しいツールなどの面で大きな課題の領域を開きます。

    ビッグデータの特徴

    すべての大きなものと同様に、それらを管理したい場合は、理解を整理するためにそれらを特徴付ける必要があります。したがって、ビッグデータは、3つの特性のうちの1つ以上、つまり3つのVによって定義できます。ボリューム 、高い多様性 、および高速 。これらの特性は、データを解読するのに役立つだけでなく、合理的な時間枠内で管理可能な速度で大量の異種データを処理する方法についての洞察を提供するいくつかの重要な質問を提起します。リアルタイムの分析、およびその後の応答を迅速に提供します。

    • ボリューム: ボリュームとは、コンピューティングの世界で絶えず爆発するデータの膨大なサイズを指します。データの量について疑問が生じます。
    • 速度: 速度とは、処理速度のことです。データがどの速度で処理されるかという問題が発生します。
    • バラエティ: 多様性とは、データの種類を指します。それは、データ形式がどれほど異なるかという問題を提起します。

    基本的な信条を単純化するためだけに、ビッグデータを3つのVに特徴付けることに注意してください。サイズが比較的小さいが、多彩で複雑すぎる場合もあれば、比較的単純であるが大量のデータである場合もあります。したがって、これら3つのVに加えて、別の Veracityを簡単に追加できます。 。正確性は、抽出したいビジネス価値に関連するデータの正確さを決定します。信憑性がなければ、組織がそのリソースを適用してデータの山を分析することは不可能です。データのコンテキストに関してより正確になると、貴重な情報を取得する可能性が高くなります。したがって、真実性はビッグデータのもう1つの特徴です。企業は、電子メール、ソーシャルメディア、テキストストリームなどからの構造化データ、半構造化データ、および非構造化データを活用します。ただし、分析の前に、ビジネスの成果に影響を与える可能性のあるデータの量と種類を考慮して特定することが重要です。

    ツールとテクニック

    人工知能(AI)、IoT、およびソーシャルメディアは、新しいフォームとソースを通じてデータの複雑さを推進しています。たとえば、センサー、デバイス、ネットワーク、トランザクションを介して送信されるビッグデータをリアルタイムでキャプチャ、管理、および処理することが、低レイテンシで重要です。ビッグデータを使用すると、アナリスト、研究者、およびビジネスユーザーは、他の方法では達成できなかった履歴データを使用して、より多くの情報に基づいた意思決定をより迅速に行うことができます。テキスト分析、機械学習、予測分析、データマイニング、自然言語処理を使用して、利用可能なデータの山から新しい洞察を抽出できます。

    このテクノロジーは、以前は高価でスーパーコンピューターの助けを借りなければならなかった大量のデータを管理するように進化しました。 Facebookのようなソーシャルメディア、Googleのような検索エンジン、Yahoo!の出現により、ビッグデータプロジェクトは今日のように勢いを増し、成長しました。 MapReduce、Hadoop、Big Tableなどの技術は、今日のニーズを満たすために開発されました。

    NoSQLリポジトリは、ビッグデータに関連して言及されています。リレーショナルデータベースとは対照的な代替データベースです。これらのデータベースは、従来のリレーショナルデータベースに見られるような行と列のテーブルにレコードを編成しません。コンテンツストア、ドキュメントストア、イベントストア、グラフ、キー値など、さまざまな種類のNoSQLデータベースがあります。クエリにSQLを使用せず、異なるアーキテクチャモデルに従います。それらは、ビッグデータ分析を有利な方法で促進することがわかっています。一般的な名前には、Hbase、MongoDB、CouchDB、Neo4jなどがあります。それらとは別に、他にもたくさんあります。

    結論

    ビッグデータは、データを収集し、そこから価値を引き出すための新しい機会を開きました。リレーショナルデータベースなどの従来のツールを使用してビッグデータをキャプチャ、管理、および処理することは不可能です。ビッグデータプラットフォームは、膨大で多様なデータの速度から洞察を抽出するためのツールとリソースを提供します。これらのデータの山には、組織のビジネスプロセスでさまざまな目的に使用できる手段と実行可能なコンテキストがあります。したがって、話しているデータの種類を正確に特定するには、そのデータとその特性を主要なステップとして理解する必要があります。


    1. psql内からpostgresqlデータベースをバックアップする方法は?

    2. H2postgresqlモードが機能していないようです

    3. PostgreSQLで2つの日付の間の労働時間を計算します

    4. SQLServerのXMLドキュメントでノードの順序を検索する