この章では、Oracle Business Analytics Warehouseとデータ・ウェアハウス管理コンソール(DAC)の概要について説明します。この章の内容は次のとおりです。
Oracle Business Analytics Warehouseは、すべての顧客中心データに対応する統一されたデータ・リポジトリです。Oracle Business Analytics Warehouseの目的は、Oracle Business Intelligence Applicationsの分析要件をサポートすることです。
Oracle Business Analytics Warehouseには、次の機能が組み込まれています。
データ統合エンジン: これにより、複数のソース・システムのデータを組み合わせてデータ・ウェアハウスを構築します。
オープン・アーキテクチャ: これにより、Oracle Business Intelligence Serverを使用して、Oracle Business Analytics Warehouseに関連して組織がサード・パーティ製分析ツールを使用できます。
ビルトイン・データ抽出処理: これにより、外部アプリケーションのデータをOracle Business Analytics Warehouseに組み込みます。
ETL(Extract/Transform/Load)プロセスのセット: これにより、複数のソース・システムからデータを取得し、Oracle Business Analytics Warehouseのテーブルを作成します。
DAC: スキーマ管理用一元管理コンソールであり、Oracle Business Analytics Warehouseの構成、管理、ロードおよびモニターの作業にも対応します。
Oracle Business Analytics Warehouseで広く使用されているクエリーと同様に、高水準の分析クエリーでは、複雑な式を使用して大量のデータをスキャンして分析します。トランザクション・データベースに対してクエリーを実行する際、このプロセスの所要時間が長くなる場合があるため、システム全体のパフォーマンスが影響を受けます。
このため、Oracle Business Analytics Warehouseはディメンション・モデリング手法を使用して開発されました。この手法により、意思決定に必要な情報へのアクセスが高速にできます。Oracle Business Analytics Warehouseでは基幹業務アプリケーションからデータを取得し、Informaticaのデータ統合テクノロジを使用して、トランザクション・データベースからデータを抽出してから変換し、Oracle Business Analytics Warehouseにロードします。
図2-1に、Oracle Business Analytics WarehouseでOracle BI Applicationsの他のコンポーネントと対話的に処理を行う方法を示します。
Oracle Business Analytics Warehouseアーキテクチャは、次のコンポーネントで構成されています。
DACクライアント: データ・ウェアハウス用のコマンドと制御インタフェースで、スキーマ管理だけでなく、データ・ウェアハウスのプロセスの構成、管理およびモニターの作業もできます。またこれによって、サブジェクトエリアを設計して実行プランを構築することもできます。
DACサーバー: DACクライアントからの命令を実行します。DACサーバーでは、ETLのロードや実行プランのスケジュールなど、データ・ウェアハウスのプロセスを管理します。DACリポジトリにある情報に基づいてアクションが動的に調整されます。ビジネスのニーズに応じて、毎日1回、週に1回、月に1回またはそれ以外の同様なスケジュールでOracle Business Analytics Warehouseの増分更新を行うこともできます。
DACリポジトリ: データ・ウェアハウスのプロセスを表すメタデータ(Oracle Business Analytics Warehouseのセマンティクス)を格納します。
Informatica Server: Oracle Business Analytics Warehouseのロードと更新を行います。
Informatica Repository Server: Informaticaリポジトリを管理します。
Informatica Repository: Informaticaワークフローに関連したメタデータを格納します。
Informaticaクライアント・ユーティリティ: Informaticaリポジトリの作成と管理ができるツールです。
DACは、データ・ウェアハウス実装におけるライフ・サイクル全体のフレームワークとなります。これにより、パフォーマンスの高いパラレル環境において、モジュール化されたデータ・ウェアハウス・アプリケーションの作成、構成、実行およびモニターができます。DACプロセスのライフ・サイクルの詳細は、「DACプロセスのライフ・サイクルについて」を参照してください。
DACによりInformatica ETLプラットフォームが補完されます。アプリケーション固有の機能が用意されていますが、これはETLプラットフォームにはビルトインされていません。たとえば、ETLプラットフォームでは、データ・ウェアハウスにポピュレートされているサブジェクトエリアのセマンティクスにも、それらをポピュレートする方法にも対応していません。DACでは、ETL実行プラットフォームの上にある抽象化レイヤーにおいて次のアプリケーション機能が用意されています。
サブジェクトエリアと実行プランを動的に生成する機能
パラレル処理とロードバランシングを動的に設定する機能
ユーザー定義スコアと算出スコアに基づいたインテリジェント型タスク・キュー・エンジン
完全モードと増分モードへの自動対応
ETLとクエリーのパフォーマンスのインデックス管理
埋め込み型でパフォーマンスが高いSiebel OLTPチェンジ・キャプチャ手法
どの障害発生時点においても処理を再開できる機能
ETLのボトルネックを特定するフェーズベース型分析ツール
重要なDAC機能により、次のことを実行できます。
インストール、設定および構成の所要時間の短縮
データ・ウェアハウスにおける物理データモデルの作成
言語や通貨などの設定
サブジェクトエリアの設計と実行プランの構築
メタデータ・ドリブンの依存性と関係の管理
カスタムETL実行プランの生成
Siebelトランザクション・データベースでのチェンジ・キャプチャの自動化
削除されたレコードのキャプチャ
インデックス管理の支援
実行プランの予行演習とテストの実行
レポート処理とモニターによるボトルネックの特定
エラーのモニターと電子メールによる警告の実行
構造化されたETL分析とレポート処理の実行
パフォーマンス実行手法の利用
完全モードと増分モードによる最適化ルールの自動化
Informaticaセッションの同時実行レベルの設定
複数のInformaticaサーバー間でのロードバランシング
障害発生時点からの処理の再開
パフォーマンス用の実行タスクのキューへの格納(図2-2を参照)
DACでは、メタデータ・ドリブンの優先順位と実行時に算出されたスコアに基づいてタスク実行キューが管理されます。この組合せにより、柔軟で最適化された実行が可能になります。依存の数、ソースの数および平均期間に基づいて、優先順位がタスクに動的に割り当てられます。
ソース・システム・コンテナには、特定のソース・システムに対応するリポジトリオブジェクトが格納されます。リポジトリオブジェクトの種類の詳細は、「DACリポジトリオブジェクトについて」を参照してください。
事前に構成済のソース・システム・コンテナを使用して、独自のソース・システム・コンテナを作成できます。事前に構成済のソース・システム・コンテナにあるオブジェクトは変更できません。変更するには、事前に構成済のコンテナをコピーする必要があります。
新しいソース・システム・コンテナを作成する手順や既存のコンテナをコピーする手順については、「ソース・システム・コンテナの作成またはコピー」を参照してください。
すべてのDACリポジトリオブジェクトは、ソース・システム・コンテナに関連付けられています。ソース・システム・コンテナの詳細は、「ソース・システム・コンテナについて」と「DACでのオブジェクト所有権について」を参照してください。
DACリポジトリでは、データ・ウェアハウス・アプリケーションを定義する階層フレームワークにアプリケーション・オブジェクトが格納されます。DACでは、指定したソース・システム・コンテナに基づいて、リポジトリのアプリケーション・オブジェクトを表示できます。ソース・システム・コンテナでは、作業しているソース・システムに対応するメタデータが格納されます。
データ・ウェアハウス・アプリケーションは、次のリポジトリオブジェクトで構成されています。
サブジェクトエリア: 特定のサブジェクトやアプリケーションのコンテキストに関連したテーブルを論理的にグループ化したものです。テーブルに関連付けられたタスクも同様です。サブジェクトエリアは実行プランに割り当てられますが、完全ロードや増分ロード用にスケジュールすることができます。また、サブジェクトエリアには、サブジェクトエリアのテーブルのロードに必要なタスクも含まれます。
テーブル: データベース・スキーマに定義されている物理データベース・テーブルです。トランザクション・データベースのテーブルとデータ・ウェアハウスのテーブルがあります。テーブルのタイプは、ファクト、次元、階層、集計などにできます。また、フラット・ファイルはソースにもターゲットにもできます。
タスク: 1つ以上のテーブルをロードするために行う作業の単位です。タスクは、ソースやターゲットのテーブル、フェーズ、実行タイプ、切捨てプロパティ、完全ロードや増分ロード用のコマンドで構成されます。サブジェクトエリアをアセンブルすると、DACでは自動的にタスクが割り当てられます。DACによってサブジェクトエリアに自動的に割り当てられたタスクは、「Subject Areas」タブの「Tasks」サブタブに「Autogenerated」フラグで示されます。
タスク・グループ: 特定の順序で実行するために定義したタスクのグループです。タスク・グループは、特別なタスクとみなされます。
実行プラン: サブジェクトエリアに定義されたデータ変換プランで、所定の頻度で変換が必要です。データ・ウェアハウスのロードが必要になるタイミングに関するビジネス要件に基づいて、実行プランは定義されます。実行プランは、実行する順序が設定されたタスク、インデックス、タグ、パラメータ、ソース・システム・フォルダおよびフェーズで構成されます。
スケジュール: スケジュールにより、実行プランの実行頻度を指定します。複数のスケジュールを定義することで、実行プランを様々な頻度で実行したり繰り返して実行するようにスケジュールできます。
様々なユーザー・グループがDACを使用して、実行プランの設計、実行、モニターおよび診断を行います。図2-3に示すように、これらのフェーズにより、DACプロセスのライフ・サイクルが構成されます。
プロセスとアクションのフェーズは、次のものに関連付けられています。
設定
データベース接続の設定
ETLプロセス(Informatica)の設定
電子メールの受取人の設定
設計
アプリケーション・オブジェクトの定義
実行プランの設計
実行
スケジュール・パラメータの定義による実行プランの実行
ランタイム・コントロールのアクセスによる実行中スケジュールの再開や停止
モニター
データ・ウェアハウス・アプリケーションのランタイム実行のモニター
ユーザー、DACリポジトリおよびアプリケーションのメンテナンス・ジョブのモニター