はじめに

『Oracle Big Data SQLユーザーズ・ガイド』では、Oracle Big Data SQL製品の使用方法と管理方法について説明します。

対象読者

このガイドは、次に示すようにOracle Big Data SQLの管理者およびユーザーを対象としています。

  • アプリケーション開発者

  • データ・アナリスト

  • データ科学者

  • データベース管理者

  • システム管理者

このガイドでは、読者にOracle Databaseの単一ノード・システムとマルチノード・システム、Hadoopフレームワーク、Linuxオペレーティング・システム、およびネットワークの概念に関する基本的な知識があることを前提としています。

ドキュメントのアクセシビリティについて

Oracleのアクセシビリティについての詳細情報は、Oracle Accessibility ProgramのWeb サイト(http://www.oracle.com/pls/topic/lookup?ctx=acc&id=docacc)を参照してください。

Oracleサポートへのアクセス

サポートをご契約のお客様には、My Oracle Supportを通して電子支援サービスを提供しています。詳細情報はhttp://www.oracle.com/pls/topic/lookup?ctx=acc&id=infoか、聴覚に障害のあるお客様はhttp://www.oracle.com/pls/topic/lookup?ctx=acc&id=trsを参照してください。

関連ドキュメント

製品のインストール手順については、『Oracle Big Data SQLインストレーション・ガイド』を参照してください。

Oracle Big Data ApplianceでのOracle Big Data SQLの使用の詳細は、『Oracle Big Data Applianceオーナーズ・ガイド』を参照してください。

表記規則

このマニュアルでは次の表記規則を使用します。

表記規則 意味

太字

太字は、操作に関連するGraphical User Interface要素、または本文中で定義されている用語および用語集に記載されている用語を示します。

イタリック

イタリックは、ユーザーが特定の値を指定するプレースホルダ変数を示します。

固定幅フォント

固定幅フォントは、段落内のコマンド、URL、サンプル内のコード、画面に表示されるテキスト、または入力するテキストを示します。

#プロンプト

ナンバー記号(#)プロンプトは、Linux rootユーザーとして実行されるコマンドを示します。

バッカス・ナウア記法の構文

このリファレンスの構文は、次の記号と表記規則を使用するバッカスナウア記法(BNF)の単純なバリエーションで示されます。

記号または表記規則 説明

[ ]

大カッコは、オプション項目を囲みます。

{ }

中カッコは、選択項目を囲み、そのうち1つのみが必須です。

|

縦線は、大カッコまたは中カッコ内の代替項目を区切ります。

...

省略記号は、先行する構文要素を反復できることを示します。

デリミタ

大カッコ、中カッコおよび縦線以外のデリミタは、記載されているとおりに入力する必要があります。

太字

太字で示されている語は、キーワードです。それらは記載されているとおりに入力する必要があります。(キーワードは、一部のオペレーティング・システムでは大/小文字の区別があります。)太字ではない語は、名前または値に置換する必要があるプレースホルダです。

Oracle Big Data SQL 4.0での変更点

Oracle Big Data SQLリリース4.0の新機能と変更点は次のとおりです。

Oracle Database 18cのサポート、およびOracle Database 12.2および12.1の下位互換性

Oracle Big Data SQL 4.0の新機能を利用するには、Oracle Database 18c以上を使用する必要があります。ただし、Oracle Database 12.1および12.2の使用は完全にサポートされています(これらのデータベース・バージョンで4.0の新機能は利用できません)。この下位互換性により、Oracle Database 18cと12cの両方が混在する環境にリリース4.0をインストールして管理できます。

Big Data SQL問合せサーバー

Big Data SQL問合せサーバーは、軽量でゼロ・メンテナンスのOracle Databaseです。これにより、機能フル装備のOracle Databaseサービスがなくても、Hadoopのデータを簡単に問い合せることができます。このサービスは、Oracle SQL問合せエンジンのみで構成されています。セッション間で保持するのに便利なメタデータの特定のカテゴリを除いて、永続記憶域が提供されません。

  • 自動でインストールし、メンテナンスは不要

    Big Data SQL問合せサーバーは、標準のOracle Big Data SQLインストールの一部として含まれています。指定する必要があるのは、サービスをインストールするエッジ・ノードのアドレスのみです。インストール自体は完全に自動化されているため、インストール後の構成は必要ありません。

  • シングルユーザー・モードとマルチユーザー・モードを提供

    このサービスには、シングルユーザーとマルチユーザーの2つのモードがあります。シングルユーザー・モードでは、問合せサーバーへのアクセスにシングルユーザーを使用します。すべてのユーザーは、インストール中に指定されたパスワードを使用して、BDSQLユーザーとして問合せサーバーに接続します。マルチユーザー・モードでは、Hadoopクラスタ・ユーザーは、Kerberosプリンシパルを使用して問合せサーバーにログインします。

  • Kerberosと連携して自動的にKerberosプリンシパルをインポート

    Kerberosで保護されたクラスタは、シングルユーザー・モードとマルチユーザー・モードの両方をサポートできます。

    保護されたクラスタへのインストール中に、インストーラは自動的にKDCに問い合せてKerberosプリンシパルを識別し、このプリンシパルに基づいて外部で識別されたユーザーを設定します。インストール後、管理者は手動でプリンシパルを追加または削除できます。

  • 各問合せサーバーの再起動後に初期状態にリセット

    Big Data SQL問合せサーバーが再起動されるたびに、データベース・インスタンスは元の状態にリセットされます。これは、致命的なエラーが発生した場合にも行われます。このリセットにより、白紙の状態から再開できます。再起動では、外部表(ORACLE_HIVEタイプとHDFSタイプの両方)、関連する統計およびユーザー定義ビューが保持されます。再起動により、ユーザー・データが含まれている標準の表が削除されます

  • Hortonworks AmbariまたはCloudera Managerを介して管理可能

    Big Data SQL問合せサービスは、AmbariまたはCloudera Managerでサービスとして自動的に設定されます。これらの管理ツールを使用して、プロセスの監視と停止/開始、警告、エラーおよび情報メッセージの表示、いくつかのBig Data SQL問合せサービスの操作(統計収集やHiveメタデータのインポートなど)の実行を行うことができます。

問合せサーバーは、Oracle Big Data SQLインストレーション・ガイドOracle Big Data SQLのライセンスで説明されている制限付き使用ライセンスで提供されています。

オブジェクト・ストアにアクセスするための新規ORACLE_BIGDATAドライバ

リリース4.0には、ORACLE_HIVEおよびORACLE_HDFSに加えて、新しいORACLE_BIGDATAドライバも含まれています。このドライバを使用すると、クラウドのオブジェクト・ストア内のデータに対して外部表を作成できます。現時点では、Oracle Object StoreおよびAmazon S3がサポートされています。ORACLE_BIGDATAでは、これらの環境でParquet、Avroおよびテキスト・ファイルに対して外部表を作成できます。開発およびテストでは、これを使用してOracle Databaseディレクトリ・オブジェクトを介してローカル・データ・ファイルにアクセスすることもできます。ドライバはCで記述され、Javaコードは実行されません。

リリース4.0では、ORACLE_BIGDATAはParquetファイルのスカラー・フィールドの戻り値をサポートしています。現時点では、より複雑なデータ型やマルチパートParquetファイルはサポートされていません。リーダーがParquetファイルの複雑なデータ型をサポートしていないため、生成された列リストでは外部表定義の複雑な列が省略されます。Parquetファイルに格納されているほとんどの型は、Oracle表の列の型として直接サポートされていません。

新しい集計オフロード機能などOracle Big Data SQLのSmart Scanは、データをオブジェクト・ストアからOracle Big Data SQLがインストールされているHadoopクラスタの処理セルにオフロードして、オブジェクト・ストアを操作します。

オブジェクト・ストアに対する認証は、DBMS_CREDENTIALパッケージを使用して作成した資格証明オブジェクトを介して行われます。外部表作成の文のパラメータとして資格証明オブジェクトの名前および場所URIを含めます。

関連項目:

オブジェクト・ストア・アクセスのためのOracle外部表の作成を参照してください。作成文の例と、ParquetおよびAvroデータ型からOracleデータ型への変換表があります。

集計オフロード

Oracle Big Data SQLでは、Oracle In-Memoryテクノロジを利用して、集計をOracle Big Data SQLセルにオフロードできるようになりました。Oracle Big Data SQLでは、Hadoopクラスタの処理能力を利用して、クラスタ・ノード全体に集計を分散させます。オフロードしない集計と比べて、パフォーマンスが大きく向上します。特に、適度の数の要約グループ化があると顕著です。

Oracle Big Data SQLセルは、単一表と複数表の集計をサポートしています(ファクト表に結合するディメンション表など)。複数表集計の場合、Oracle Databaseは、キー・ベクターが集計プロセスのセルにプッシュされるキー・ベクター変換最適化を使用します。この変換タイプは、ビジネス問合せで一般的に使用される一般的な集計演算子(SUM、MIN、MAXおよびCOUNT)を使用するスター型結合SQL問合せに役立ちます。

関連項目:

集計オフロードについてを参照してください

Oracle Big Data SQLでのSentry認証

Oracle Big Data SQLでは、HDFSファイル・アクセスの認可のサポートに加えて、Hiveメタデータへのアクセスを認可するSentryポリシーもサポートしています。Sentryによって、列レベルまでのユーザー・アクセスをきめ細かく制御できます。

関連項目:

Oracle Big Data SQLインストレーション・ガイドBig Data SQLでのSentry認証を参照してください。

インストーラの改善

  • Jaguarインストーラを使用すると、オプションの問合せサーバーのデータベースを簡単にインストールできます。このコンポーネントのインストールのために、Jaguar構成ファイルにいくつかの新しいパラメータが追加されています。

  • Oracle Big Data SQLに、独自のJDKが追加されました。Oracle Technology Networkからダウンロードする必要はありません。他のバージョンのJDKが存在する可能性がありますが、Oracle Big Data SQLで使用するJDKパスを変更しないでください。

  • インストーラは、構成ファイルのKerberosセクションに入力されたプリンシパルを、対応するkeytabファイルと照合して検証し、一致しない場合はエラーにフラグを付けるようになりました。

  • クラスタ・エッジ・ノードは、要件の事前チェックから自動的に除外されます。

  • インストールの事前チェックでは、Oracle Big Data SQL処理セルがインストールされるノードでのみハードウェア要因(コアおよびメモリー)が検証されます。

  • データベース側では、インストールにより、サブネット(InfiniBand接続の場合)、LD_LIBRARY_PATHおよび接続の反対側のHadoopシステムのホスト名が検証されるようになりました。

  • データベース側のアンインストールでは、この操作により、すべてのOracle Big Data SQLアーティファクトがデータベース・サーバーから削除され、すべての変更がcellinit.*oraおよびデータベース・パラメータに戻されるようになりました。

  • このリリースでは、Jaguarのupdatenodes操作は非推奨です。かわりに、reconfigureを使用してクラスタ設定を変更し、データベース側のインストール・バンドルを作成し、構成を拡張または縮小します。

  • インストールの準備状況を事前に判断できる2つの新しいスクリプトが用意されています。

    Oracle Big Data SQLのHadoop側をインストールする前に、クラスタの各DataNodeでbds_node_check.shを実行して、ノードがインストールの前提条件を満たしているかどうかを確認できます。

    Oracle Databaseシステムにインストールする前に、bds-validate-grid-patches.shを実行して、Oracle Big Data SQLリリースに必要なパッチがOracle Gridに含まれていることを確認できます。

  • 各Hadoopノードで実行できるスクリプトbds_cluster_node_helper.shは、ノード上のOracle Big Data SQLインストールのステータスを提供したり、ログ・データおよびメンテナンスに役立つその他の情報を収集します。ログ・データ収集の範囲には、3つのオプションがあります。