sql >> データベース >  >> RDS >> Sqlserver

データベースの専門家にとって機械学習が意味すること

    機械学習データベースは今や成熟しつつあります。これは、この変更を利用するために進化できるデータベースの専門家に大きなチャンスをもたらします。

    現在、データベース管理者(DBA)やデータベース開発者などのデータベースの専門家は、IT組織で最も重要な役職の一部です。データベースの専門家は、データベースへの制御されたアクセスを作成、管理、および提供する責任があります。 DBAとして適切な人材を確保することで、企業は時間を節約し、アプリケーション開発時間を短縮できます。ただし、膨大な量のデータへのアクセスが増えるにつれ、データベースの専門家の責任は急速に進化しています。

    データを管理および探索するだけでなく、データに基づいて十分な情報に基づいた意思決定を行うために使用できるいくつかのテクノロジーが開発されています。機械学習は、過去10年間で大きな急増を遂げたテクノロジーの1つです。この記事では、機械学習がデータベースの専門家に与える影響と、機械学習をスキルセットとして持つことの利点について簡単に説明します。

    機械学習とは

    機械学習は、さまざまな統計アルゴリズムを使用して、データから有用なパターンを理解して抽出するプロセスです。機械学習はさらに、教師なし学習手法と教師なし学習手法に分けられます。機械学習は現在、ハムやスパムメールの分類、住宅価格の予測、詩の生成、画像の分類など、多くの複雑な問題を解決するために使用されています。

    機械学習はデータベースの専門職に取って代わりますか?

    機械学習に関する最も一般的な誤解の1つは、多くの仕事で人間に取って代わるというものです。これは一部の反復的なタスクには当てはまるかもしれませんが、AIと機械学習は基本的に人間の脳を補完し、それに取って代わるものではありません。データベースの専門家にとって、機械学習データベースはそれらに取って代わるものではなく、むしろそれらを大いに助けます。

    これにより、データベースの専門家は、インストール、構成、定期的なデータベースの更新など、より退屈で自律的なタスクを自動化できるため、計画と戦略的なタスクにさらに集中できます。したがって、データベースの専門家は、機械学習が仕事に与える影響を恐れるのではなく、それほど困難ではないタスクをより迅速かつ効率的に完了する方法としてそれを採用する必要があります。 。

    ビッグデータの処理は課題です

    過去20年間のワールドワイドウェブの台頭により、データはあらゆる形とサイズで利用可能です。実際、ビッグデータという用語は、大量で、高速で、さまざまなコンテンツを含むデータセットによく使用されます。

    このような非構造化データを大量に処理することは、DBAにとって課題となっています。機械学習データベースで実行されるアルゴリズムは、非構造化データでもうまく機能することがわかっています。膨大な量のデータは、機械学習技術を介して意味のある情報に簡単に分解できます。これは、データベースの専門家が機械学習スキルを習得する必要性を浮き彫りにします。

    機械学習データベースはここにあります

    MicrosoftやOracleなどの企業は、すでにさまざまな機械学習機能をデータベースに組み込み始めています。たとえば、Microsoft Azure SQL Databaseには、自動的に適用できるさまざまなパフォーマンス改善戦略を提案および推奨するモジュールがあります。同様に、SQL Serverクエリストアは、パフォーマンスのボトルネックを引き起こしているクエリを特定するための計画を提供します。 Oracle 18cデータベースには自己修復機能が含まれており、データベースの問題が発生するたびに自己パッチを適用してアップグレードできます。機械学習に関する十分な知識は、データベース開発者が機械学習データベースツールによって作成されたさまざまな推奨事項の背後にある理論的根拠を実際に理解するのに役立ちます。

    完全自律型データベースの出現

    現在の機械学習データベースの機能は限られています。現在の研究の焦点は、完全に自動化されたデータベースを開発することです。発生する問題を予測でき、事前に予防策を講じるのに十分な予防策を講じることができるデータベースがあれば素晴らしいと思いませんか?または、重要なトランザクションが発生するたびにデータベースが自動的にバックアップされると、データベースの専門家の生活がはるかに楽になりませんか?機械学習データベースが非常に役立つシナリオはたくさんあります。

    たとえば、既存のデータベースは特定の時間に自動バックアップを実行しますが、すべてのデータベーストランザクションをバックアップする価値があるわけではありません。この種のシナリオでは、機械学習データベースは、いつバックアップするか、いつバックアップしないかを知るのに十分なほど賢くなる可能性があります。

    さらに、多くのデータベースの問題が事前に予測できます。たとえば、複数のユーザーが異なるデータベースリソースにアクセスしているシナリオでは、デッドロックの可能性が何倍にもなります。これが発生した場合、マシン学習データベースは、リソースへの制御されたアクセスの提供に移行し、デッドロックを回避する可能性があります。

    完全に自律的なデータベースの開発を試みたいくつかの学術研究グループがあります。

    カーネギーメロンデータベース研究グループは、プロジェクト OtterTune を開発しました これは、機械学習技術と膨大な数の古いデータベースからのワークロードデータを使用して、新しいワークロードを自動的に調整できるモデルを作成します。 OtterTune機械学習データベースは、新しいデータベースアプリケーションのスループットを向上させ、レイテンシーを削減するための最適な設定も自動的に推奨します。

    MITは、 DBSeeと呼ばれるオープンソースのデータベース管理フレームワークも開発しました。 r これは、特定のデータベースリソースのセットのパフォーマンスを予測し、パフォーマンスのボトルネックも特定します。

    学習曲線

    機械学習は、多くの場合、コンピュータサイエンスと統計の共通部分として定義されます。コンピュータサイエンスの知識を持っている人なら誰でも、統計についての合理的な理解を身に付ければ、機械学習スキルを中級レベルまで比較的迅速に身に付けることができます。

    Google AI、IBM Watson、Amazon Sagemaker、Azure MLなどの多くのGUIツールとクラウドプラットフォームは、機械学習データベースにGUIベースのドラッグアンドドロップインターフェイスを提供することで、機械学習技術を実装するプロセスを簡素化しました。作業の大部分(データセットの追加、前処理手法の選択、モデルのトレーニング、最終的にモデルの評価)はマウスを数回クリックするだけで実行できるため、ユーザーはツールの使用方法を知っているだけで済みます。

    ただし、データベースの専門家が高度な機械学習でキャリアを築きたいのであれば、統計を完全に理解する必要があります。データベースの専門家のコンピュータサイエンスのバックグラウンドは、機械学習のCS関連の概念をすばやく理解するのに十分です。

    ただし、前述のように、データベースの専門家が機械学習を使用して反復的なタスクを自動化することにのみ関心がある場合は、GUIベースの機械学習ツールの知識で十分です。

    複数のキャリアパス

    機械学習と人工知能の成功により、組織は熟練した機械学習の専門家を含む専用のデータサイエンスチームを開発するようになりました。

    現在、機械学習の専門家とデータベースの専門家は異なるキャリアパスを持っていますが、ますます多くの組織が機械学習またはデータサイエンスの専門家にある程​​度のデータベースの専門知識があることを期待しています。

    これは現在流動的であるため、機械学習スキルの知識を持つデータベースプロフェッショナルが優先され、データベースプロフェッショナル、機械学習エキスパート、または両方の職務責任を持つ人物として採用される可能性が高くなります。

    最終評決

    ビッグデータと関連する機械学習技術の出現は、機械学習データベースがますます自分自身を管理するにつれて、時間の経過とともにデータベースからのデータに焦点が移るので、データベース専門家の職務に大きな変化をもたらす可能性があります。

    機械学習は、データベースの専門家が多くの手動で面倒なタスクを自動化し、機械学習スキルを取り入れて使用するために時間と労力を費やすために解放するのに役立ちます。

    データベースの専門家からより広範なデータベースや機械学習に発展するために必要な統計を学ぶことは簡単ではありませんが、キャリアの成長と機会の面で大きな利益をもたらします。


    1. SQLServer本番DBAに関する5つの便利なヒント

    2. MySQLプリペアドステートメント

    3. JetShowPlan:入門書

    4. MySQLエラー1064を修正する方法