ノート:

このチュートリアルではOracle Cloudへのアクセスが必要です。無料アカウントにサインアップするには、Oracle Cloud Infrastructure Free Tierの開始を参照してください。
Oracle Cloud Infrastructure資格証明、テナンシおよびコンパートメントの値の例を使用します。演習を完了する場合は、これらの値をクラウド環境に固有の値に置き換えてください。

ODBCおよびKerberosを使用したOracle Big Data Service HiveへのAlteryxの接続

イントロダクション

Oracle Big Data Serviceは、Hadoopクラスタ、Sparkクラスタおよびその他のビッグ・データ・サービスを作成して管理できる、Oracleが提供するクラウドベースのサービスです。デフォルトでは、Oracle Big Data Serviceクラスタは、ユーザー名とパスワードなどの単純な認証メカニズムを使用して、ユーザーおよびサービスを認証します。ただし、より高いレベルのセキュリティが必要な組織では、これは十分ではない可能性があります。

Kerberos認証は、分散コンピューティングシステムをセキュリティー保護するために広く使用されているメカニズムです。ユーザーとサービスを認証するためのセキュアな方法を提供し、ネットワーク経由で安全に通信できるようにします。Kerberosが有効な環境では、ユーザーおよびサービスは、識別情報の検証およびリソースへのアクセスの承認に使用される暗号化鍵を使用して発行されます。

Kerberos認証では、ノード間の強力な認証および暗号化を有効にすることで、Oracle Big Data Serviceクラスタに追加のセキュリティ・レイヤーを提供できます。

目的

カーバライズされたクラスタ内でAlteryxとOracle Big Data Service Hive間のシームレスな接続を確立するプロセスを確認します。Kerberos認証を実装することで、データの処理と分析のためのセキュアな環境を確保できます。

Oracle Big Data Serviceクラスタの構築方法
AlteryxをOracle Big Data Service Hiveに接続する方法を学習します

前提条件

必要なサービスが構成され、ポートが開いているOracle Cloud Infrastructure (OCI)で実行されているOracle Big Data Serviceクラスタ。

ノート:高可用性(HA)Oracle Big Data Serviceクラスタには、Kerberosがインストールされています。HAクラスタ以外を使用する場合は、次の前提条件のリストが必要です。

Kerberos Key Distribution Center (KDC)およびKerberos管理サーバー。KDCと管理サーバーを別のサーバーにインストールして構成することも、組織が提供するKDCと管理サーバーを使用することもできます。
Kerberos主体とキータブを作成および管理するために使用する kadminユーティリティー。
ユーザーまたはサービス主体の Kerberosチケット認可チケット(TGT)を取得するために使用される kinitユーティリティー。
ユーザーまたはサービス・プリンシパルの資格証明キャッシュ内のチケットをリストするために使用するklistユーティリティ。
Alteryxがインストールされている Windowsマシン。このチュートリアルの実装では、Alteryxの試用版を使用しました。
MIT Kerberos。
ご使用のマシンにインストールされているODBCドライバ。
Oracle Big Data Serviceクラスタに必要なKerberosプリンシパルおよびキータブ。詳細は次の項を参照してください。
マシン上のODBCデータ・ソース管理者ツールにアクセスします。

ノート:このチュートリアルでは、Oracle Big Data Service HAクラスタを使用しています。また、次の概念および用語の基本的な理解も必要です。

Kerberos主体: Kerberosシステムによって認証されるエンティティー。プリンシパルは、ユーザーまたはサービスです。
Keytabs: 主体の秘密鍵を含むファイル。Keytabは、サービスによってKDCへの認証に使用されます。
レルム: Kerberosレルムは、共通のKDCデータベースを共有する Kerberos主体の集まりです。
認証: ユーザーまたはサービス・プリンシパルのアイデンティティを検証するプロセス。
認可: ユーザーまたはサービス・プリンシパルがアクセスできるリソースを決定するプロセス。

タスク1: Oracle Big Data Serviceクラスタのケルベル化

SSHコマンドを使用するか、opcユーザー資格証明を使用してppkファイルでputtyを使用して、Oracle Big Data Serviceクラスタ・マスター・ノードにログインします。ログインしたら、rootユーザーに権限を高めます。このチュートリアルでは、ノードへのログインにputtyを使用しました。
Ambariを使用して、実行中のすべてのHadoopおよびSparkサービスを停止します。
次のステップに従って、bdsuser管理者Kerberosプリンシパルを作成します。
- コマンドKadmin.localを使用して、Kadminプロンプトを入力します。
- kadmin.localのコマンドライン・プロンプトで、addprincコマンドを実行して、bdsuserという新しいKerberosプリンシパルを作成します。プロンプトが表示されたら、プリファレンスのパスワードを選択して確認します。
- 元のプロンプトに戻るには、exitと入力します。デフォルトでは、ここで使用されるレルムはkrb5.confから選択されます。ただし、構成を更新してレルムをカスタマイズすることもできます。
コマンドdcli -C "groupadd bdsusergroupを実行して、グループbdsusergroupを作成します。
プロンプトでコマンドdcli -C "useradd -g bdsusergroup -G hdfs,hadoop,hive bdsuser"を入力して、bdsuser管理者ユーザーを作成し、クラスタ内の各ノードにリストされているグループに追加します。
linux idコマンドを使用して、bdsuserの作成を確認し、そのグループ・メンバーシップをリストします。
Ambariを使用してすべてのOracle Big Data Serviceサービスを開始します。
コマンドkinit bdsuserを使用してKerberosチケットを生成し、hadoop fs -ls /コマンドを使用してファイルをリストして、bdsuserをテストします。

タスク2: AlteryxからOracle Big Data Service Hiveへの接続

Oracle Big Data Serviceクラスタの事前統合を検討し、ODBCドライバを使用して、AlteryxとKerberized Oracle Big Data Service Hiveとの接続について検討しました。

Oracle Big Data Service Hiveデータの可能性を最大限に引き出すには、優先ツールとの接続を確立することが重要です。この項では、AlteryxをOracle Big Data Service Hiveに接続するプロセスについて説明します。これを実現するには、Kerberos認証を利用するODBC接続を構成します。

次のステップに従ってMIT Kerberosを構成します。
- krb5.confおよびkrb5.keytabファイルをクラスタ・マスター・ノードからC:\Program Files\MIT\Kerberosにコピーします。
- Windows互換性のため、ファイル拡張子を.confから.iniに変更します。
- 新しいフォルダC:/tempを作成します(フォルダとパスは任意に選択できます)。
- 次の環境変数を設定します。
- コマンド・プロンプトからコマンドKinit bdsuserを実行して、Kerberos設定を確認し、チケットを生成します。
ODBCドライバをWindowsマシンにインストールします。ドライバをインストールするプロンプトに従います。
次のステップに従って、ODBCドライバを構成します。
- マスターおよびユーティリティ・ノードのホスト・ファイルC:\Windows\System32\drivers\etcでDNSおよびIPエントリを作成します。
- pingコマンドを使用して、hostsファイルのエントリをテストします。
マシンでODBCデータ・ソース管理者ツールを開き、次のステップに従います。
- 「システムDSN」タブを選択します。Apache HiveのCloudera ODBCドライバの「追加して選択」をクリックし、「終了」をクリックします。
- Hive接続構成の次のスクリーンショットに従います。
- 「テスト」をクリックして接続を確認します。すべてが正しく設定されている場合は、テストが成功したことを示すメッセージが表示されます。「OK」をクリックして設定を保存します。
Alteryxを開き、次のステップに従います。
- 「ファイル」に移動して「接続の管理」を選択し、「データソースの追加」をクリックします。使用可能なテクノロジ・オプションから「Hive」を選択します。
- テクノロジ・オプションを選択すると、DSN名を指定する必要がある次の画面が表示されます。前のステップで作成したODBC DSNを選択し、「保存」をクリックします。
- 接続設定が完了しました。次に、Hiveからデータを読み取るためのサンプル・ワークフローを作成します。サンプル・ワークフローを作成するには、「新規ワークフロー」をクリックし、入力データ・タスクをドラッグ・アンド・ドロップします。
- 接続リストから「Hive ODBC」を選択します。
- データをフェッチするHive表を選択します。
- ワークフローを実行すると、AlteryxがOracle Big Data Service Hiveからデータを正常に取得できることがわかります。

次のステップ

Kerberos認証は、セキュアなHadoopクラスタの必須コンポーネントです。Oracle Big Data ServiceクラスタをKerberizingすると、機密データとアプリケーションを不正アクセスからより適切に保護できます。クラスタをカーバライズするプロセスは困難である可能性がありますが、実装を成功させるには、慎重に計画を立て、詳細に注意する必要があります。また、ODBC認証およびKerberos認証を使用してAlteryxをOracle Big Data Service Hiveに接続することは少し難しい場合がありますが、設定後は、Oracle Big Data Serviceデータを分析およびビジュアル化するためにAlteryxを使用できます。このチュートリアルで説明するステップに従うことで、接続を簡単に設定できるようになります。

問題が発生した場合は、トラブルシューティングできます。永続性によって、AlteryxをOracle Big Data Service Hiveに接続して、データの可能性を最大限に引き出すことができます。

謝辞

著者 - Pavan Upadhyay (一次クラウド・エンジニア)、Saket Bihari (一次クラウド・エンジニア)

その他の学習リソース

docs.oracle.com/learnで他のラボをご覧いただくか、Oracle Learning YouTubeチャネルでより無料のラーニング・コンテンツにアクセスしてください。また、education.oracle.com/learning-explorerにアクセスして、Oracle Learning Explorerになります。

製品ドキュメントについては、Oracle Help Centerを参照してください。

タイトルおよび著作権情報

Connect Alteryx to Oracle Big Data Service Hive Using ODBC and Kerberos

F85222-01

August 2023