GoogleBigQueryをIRIVoracityソフトウェアに接続する

BigQueryは、ペタバイト単位のデータをスケーラブルに分析できるように設計された、GoogleCloudの管理されたサーバーレスデータウェアハウスです。これは、ANSISQLクエリをサポートするリレーショナルデータベースのPlatformas a Service（PaaS）です。そのため、IRIソフトウェアで動作します。

Google BigQueryRDBをIRIWorkbenchとバックエンドのSortCL処理プログラムに接続するのは簡単で、互換性のあるIRI製品を介して構造化データを移動および操作できます。これは、IRI CoSort、FieldShield、NextForm、RowGen、またはそれらすべてを含むIRIVoracityプラットフォームを意味します。

接続性は、IRIがサポートする他のすべてのリレーショナルデータベースと同じパラダイムに従います。これは、ODBCおよびJDBCドライバーのダウンロードとインストール、構成（資格情報を使用した使用とテスト）、登録、および検証を意味します。

WorkbenchはEclipse上に構築されているため、BigQueryスキーマを表示してテーブルメタデータを解析するにはJDBC接続が必要です。また、BigQueryとSortCLデータ操作エンジンの間でデータを渡すには、ODBCドライバーも必要です。最終結果は次のようになります：

GoogleはMagnitudeSimbaと提携して、BigQueryに接続するためのODBCおよびJDBCドライバーを提供しています。ただし、この記事の執筆時点では、JDBCドライバーにWorkbenchが必要とする主要な機能がありません。これを回避するには、CDataのJDBCドライバーを使用します。

この記事では、IRIソフトウェアがBigQueryにアクセスするための手順を説明します。

BigQueryのサービスアカウント

BigQueryは、検証済みのIDに基づいてリソースへのアクセスを承認します。これには、サービスアカウントとキー/パスワードの形式のユーザーIDが必要です。確認済みのIDを作成するには、BigQueryにログインし、[IAMと管理]の下の[サービスアカウント]に移動して、アカウントを作成します。

最初のフィールドはサービスアカウントの名前を作成します。私の設定では、これをiri-simbaと呼びました。 2番目のフィールドには、選択した名前を使用してサービスアカウントの電子メールアドレスが自動的に入力されます。最後のフィールドはスキップできます。 [作成して続行]をクリックします。

サービスアカウントが作成されたので、このアカウントが持つことができる権限のタイプに進むことができます。 役割を選択をクリックしますデータベースに特定の役割を追加するBigQueryを探します。

各ロールにカーソルを合わせると、このロールがサービスアカウントに与えるアクセスの種類が簡単にわかります。ここでより詳細な説明を見つけてください。これにより、テーブルの表示、クエリの作成、管理者としての実行など、特定のユーザーに権限を付与する際の制御を強化できます。

このサービスアカウントがテーブルを表示および操作できるようにするBigQueryユーザーの役割を選択しました。「このサービスアカウントへのユーザーアクセスの許可」はスキップされます。完了をクリックしますアカウントを確認できるサービスアカウントのメインページに戻ります：

2番目の部分に移り、新しいサービスアカウントに関連付けられるキーを作成しましょう。 [アクション]フィールドで、[キーの管理]をクリックします独自のキーを追加するか、独自のキーを作成してもらうことにより、サービスアカウントのキーを作成します。

Googleにキーを作成させると、JSONまたはP12の2つのキータイプオプションが表示されます。このキーはJSON形式を使用するJDBCドライバーにも使用されるため、JSONタイプを選択します。

JSONキーが作成されると、コンピューターにダウンロードされます。好きな場所に配置できますが、パスはODBCおよびJDBCドライバーのセットアップで使用されるため、覚えておいてください。

サービスアカウントが作成され、パスワードとして機能するキーが設定されたので、次にODBC接続のダウンロードと設定に進みます。

ODBC –ダウンロードと構成

私はWindowsオペレーティングシステムを使用しており、CoSortV10.5SortCL実行可能ファイルとの互換性のために64ビットのWindowsバージョンを選択しています。指示に従い、Simbaインストーラーの使用許諾契約に同意したら、ODBCデータソースアドミニストレーター（64ビット）を開いて接続を構成します。

「SimbaODBCDriverforGoogleBigQuery」という名前のドライバーを追加して探すだけです。

ドライバを選択すると、セットアップページは次のようになります。

ここでは、データソースの名前から始めて、構成は非常に単純です。
Google BigQueryという名前を選択しましたが、ユースケースには任意の名前を選択できます。

認証のために、デフォルトオプションのサービスアカウントを維持し、電子メールに移動します。ここでは、この記事の前半で作成したサービスアカウントの電子メールをコピーして貼り付けることができます。

以下のフィールド（キーファイルパス）は、JSONキーファイルへのパスを入力として使用します。カタログ（プロジェクト）と表示されている下部で、ドロップダウンメニューをクリックします。すべてが正しく構成されている場合は、データセットとテーブルを含むプロジェクトとノードの名前が表示されます。

[データセット]オプションについても同じことができます。ドロップダウンメニューをクリックして特定のデータセットを選択するか、これを空のままにしてこのプロジェクトのすべてのデータセットを表示します。最後に、接続をテストして、すべてが正しく機能していることを確認します。

ODBCを設定すると、JDBCドライバーを構成できます。

JDBC –ダウンロードと構成

ここからCDataからJDBCドライバーをダウンロードします。インストールが完了すると、 GoogleBigQueryJDBCDriverというフォルダが作成されます。内部にsetup.jarがあります。

setup.jarは、JDBC接続が機能するために必要なすべてのファイルをインストールします。また、JDBCドライバーの接続URLの作成を支援する特別なjarも含まれています。

setup.jarのインストールが完了したら、Workbenchの構成を準備する必要があります。データソースエクスプローラー（Workbench内）で、新しい接続プロファイルをクリックして、新しい接続を追加します。。

ポップが表示され（下の図のように）、作成できる接続のタイプに関するいくつかのオプションが表示されます。 Generic JDBCを選択し、BigQueryなどの名前を付けます。これにより、データソースエクスプローラーで簡単に見つけることができます。

次のページでは、ドライバを設定し、接続の詳細を提供するように指示されます。 新しいドライバー定義をクリックします緑のプラス記号が付いたコンパスのように見えます。

次のページでは、必要に応じてドライバーに特定の名前を付けることができます。 [JARリスト]タブに移動すると、JDBCドライバーが機能するために必要なjarが追加されます。

JDBCドライバーのファイルをインストールするときにデフォルトの場所が使用された場合は、CDataという名前のProgramFilesフォルダーに配置する必要があります。 libフォルダー内には、 cdata.jdbc.googlebigquery.GoogleBigQueryDriverというJarファイルがあります。、そのjarをリストに追加し、[プロパティ]タブに進みます。

* jarファイルの検索で問題が発生した場合は、下の図にデフォルトのパスが表示されます*

[プロパティ]タブで、接続URLを作成し、データベースに名前を付けて、ドライバークラスを指定する必要があります。最初に接続URLの作成に焦点を当て、ファイルエクスプローラーで、追加したばかりのjarファイルを見つけて実行します。

これは、CDataが提案する形式で接続URLを作成するのに役立ちます。下の図に示すように、左側には接続URLを作成するために設定する必要のあるプロパティがあります。

CDataには、ユーザーが認証を選択した方法に応じて設定する必要のあるプロパティに関するドキュメントがあります。サービスアカウントで認証しているため、設定する必要のあるプロパティを以下に示します。

AuthScheme –OAuthJWTに設定
ProjectID –BigQueryのホームページにあります
InitialOAuth –GETANDREFRESHに設定
OAuthJWTCertType –GOOGLEJSONに設定
OAuthJWTCert –Googleが提供する.jsonファイルへのパス

すべてのプロパティを設定したら、接続をテストして、すべてが機能していることを確認します。成功した場合は、下部にある接続文字列をコピーします。接続URLをコピーせずに終了した場合は、プロパティを再設定する必要があります。

Workbenchに戻り、[接続URL]プロパティの横にURLを貼り付け、[データベース名]プロパティにデータベースの名前を追加します。 Driver Classプロパティの場合、空のフィールドに3つのドットが付いたボタンがあります。

それをクリックすると、ドライバークラスの名前を入力するか、JARリストでドライバーをスキャンするかを選択できます。すべてが完了すると、次のようになります。

[ OK]をクリックします「ドライバと接続の詳細を指定」ページに戻ります。すべての情報が接続URLに含まれているため、ユーザー名やパスワードを追加する必要はありません。最後にもう一度接続をテストし、[完了]をクリックします。

これで、接続プロファイルがデータソースエクスプローラーに表示され、プロファイルを右クリックして[接続]を選択すると、スキーマ/テーブルが表示されます。

最後のタスクは、DSNを作成したばかりの接続プロファイルにマップするデータ接続レジストリを作成することです。 IRIメニューに移動し、設定を選択して、下の図が示すようにデータ接続レジストリを見つけます。

左側はDSNで、右側は接続プロファイルです。上記のODBCセクションで作成されたDSNを見つけて、[編集...]をクリックします。 DSN、バージョン、および接続プロファイルを選択します。

DSNには接続URLに保存された資格情報があるため、ユーザー/パスワードで認証する必要はありません。 OKをクリックしますおよび適用して閉じる メニューを終了します。

これで、GoogleBigQueryのデータベース接続手順は完了です。サポートが必要な場合は、[email protected]に電子メールを送信してください。