sql >> データベース >  >> RDS >> Database

非常に大規模なデータベースをアンロードする

    非常に大きなデータベース(VLDB)テーブルからビッグデータをアンロードする必要があるDBAの主な懸念事項の1つは、速度です。アンロードが高速になると、さまざまな目的やプラットフォームでさまざまな形式のデータにアクセスできるようになります。データの取得が速ければ速いほど、データの処理と配信も速くなります。最終的には、解決までの時間が短縮されるため、情報から収益を上げる企業の生産性と競争力が向上します。

    大きなファクトテーブルからデータを抽出するために現在使用されているツールとメソッドのほとんどは、単に遅すぎます。より高速であると主張するものは、複雑で独自のものであるか、高価なETLパッケージの購入を必要とします。 ELTまたはHadoopパラダイムへの移行には、主要なハードウェア(またはDBアプライアンス)の費用がかかり、現在変換中の基盤となるDBに負担がかかり、学習曲線とメンテナンスの負担が急増します。

    より速く、より簡単で、より手頃な価格のアンロードおよびダウンストリームプロセスの他のオプションはありませんか?

    VLDBテーブルをアンロードする理由

    そもそもこれらのテーブルからデータを一括アンロードする理由はたくさんあります:

    データベースの移行 :レガシーデータベースからデータを取得する速度が速いほど、データを新しいデータベースにマッピングして移動する速度が速くなります。バルクデータの移動は、データ量が大量である場合、オフラインの変換、保護、分析(IRI CoSortで一度に可能)にメリットがあり、事前に並べ替えられたバルクロードが満たす唯一の方法である場合に役立ちます。 SLAの期限。

    データベース再編成 :データベースを効率的に動作させ、テーブルを結合順序に保つことで一般的なクエリを最適化するために、アンロード、ソート、再ロードします。アンロードは、オフラインまたは外部の再編成で実行されます。オフラインとオンラインの再編成方法については、この比較を参照してください。

    データ統合 :大規模なDW抽出-変換-ロード(ETL)操作は、データステージング領域へのテーブルの抽出から始まります。テーブルからダンプされ、メインフレームデータセット、Webログ、およびその他のフラットファイルと混合されたデータは、ファイルシステムで最も効率的に統合および処理できます。を介した外部変換は、1回のI / Oパスで複数のアクションをステージングできるため、より効率的であるだけでなく、このすべての作業の計算オーバーヘッドがデータベースから削除されるためです(ETLとELTを参照)。

    データレプリケーション/アーカイブ :ファクトテーブルをオフロードすることにより、ゴールデンソースの運用データを複製してポータブル形式で保存できます。フラットファイルのデータは、IRI NextFormやCoSortなどのツールを使用してクエリ、操作、および再フォーマットでき、他のデータベースやアプリケーションにデータを入力するために使用できます。同様に、このデータのアクセス可能なリポジトリをオフラインで保存して、バックアップの復元と取得、または別の環境でデータへのアクセスを必要とする関係者への配布を行うこともできます。

    ビジネスインテリジェンス :テーブルとスプレッドシートまたはBIキューブの間を橋渡しするよりも、CSVやXMLなどのフラットファイル形式でExcelやその他のBIツールに運用データをすばやく簡単にインポートできます。したがって、テーブルをフラットファイルにオフロードすることは、データフランチャイズの最初の効率的なステップであり、BI操作用のデータの準備です。

    アンロードメソッドの概要

    VLDBの抽出方法は、パフォーマンスと機能が異なります。 Oracleやその他の主要なDBからビッグデータをアンロードするための優れたユーティリティは、効率的で使いやすく、プロセスを妨げない特定の再フォーマット機能をサポートする必要があります。

    SQL SPOOLコマンドはデータをフラットファイルにダンプできますが、通常はボリュームが遅くなります。 Oracleのエクスポートやデータポンプなどのネイティブユーティリティは高速ですが、同じデータベースにのみ再インポートでき、フラットファイルのように分析できない独自の抽出を生成します。

    大きなテーブルをポータブルフラットファイルにすばやくアンロードする必要がある場合は、Oracle、DB2、Sybase、MySQL、SQL Server、Altibase、TiberoなどのIRI FACT(高速抽出)を検討してください。FACTは並列処理とネイティブデータベース接続プロトコル(Oracle OCIなど)を使用します)抽出パフォーマンスを最適化する。 Eclipse™上に構築されたIRIWorkbenchの一部である無料のFACTGUI(ウィザード)は、SQLSELECT構文を抽出して使用するために使用可能なテーブルと列を提供します。

    FACTを使用するもう1つの利点は、フラットファイル抽出を変換、保護、ターゲティング、さらにはレポートするためのIRIVoracityのSortCLプログラムとのメタデータ統合です。 FACTは、大規模なETLまたは再編成操作で事前にCoSortedされたフラットファイルを使用して、同じテーブルの再作成を見越して、データベースの一括読み込みユーティリティ制御ファイルも作成します。


    1. 接続文字列でサービス名の代わりにSIDを使用すると、cx_Oracleが接続しません

    2. 会議を最大限に活用するための7つの戦略

    3. テーブルがSQLServer(T-SQL)でパーティション化されているかどうかを確認する

    4. PostgreSQLのクラウドバックアップオプション