ETL
Extraction(抽出)、Transformation(変換)およびLoading(ロード)の略。ソース・データにアクセスして操作を行い、データ・ウェアハウスへロードする方法を意味する。これらの処理の実行順序は様々である。
ETLのかわりに、ETT(extraction, transformation, transportation)やETM(extraction, transformation, move)が使用される場合もある。
SQLアクセス・アドバイザ(SQL Access Advisor)
ユーザーが目標とするパフォーマンスを実現できるように、特定のワークロードに適切なマテリアライズド・ビューのセット、マテリアライズド・ビュー・ログ、パーティション、索引を推奨する。Oracle Enterprise ManagerのGUIであり、DBMS_ADVISOR
パッケージと同様の機能を持つ。
オンライン・トランザクション処理(OLTP)(online transaction processing: OLTP)
オンライン・トランザクション処理。OLTPシステムは、高速で信頼性の高いトランザクション処理用に最適化されている。データ・ウェアハウス・システムに比べると、ほとんどのOLTPシステムには、比較的少数の行と多数の表のグループが含まれる。
階層(hierarchy)
データを編成する手段として順序付けされたレベルを使用する論理構造。データ集計を定義するために使用できる。たとえば、時間ディメンションでは、階層を使用して月レベルから四半期レベル、年レベルへとデータを集計できる。階層は、Oracleでディメンション・オブジェクトの一部として定義できる。また、ドリル操作のナビゲーション・パスの定義にも使用できるが、この場合、階層内のレベルは必ずしも集計された合計を示している必要はない。
加算的(additive)
加算することでサマリーできるファクト(またはメジャー)を示す。加算ファクトは、最も一般的なタイプのファクトである。ファクト/メジャーの例には、販売価格、原価および収益がある。「非加算的」および「準加算的」と対比。
カーディナリティ(cardinality)
OLTPの観点では、表内の行数を指す。データ・ウェアハウスの観点では、一般に、列内の個別値の数を指す。データ・ウェアハウスのほとんどのDBAにとっては、カーディナリティ度のほうがより重要な問題点である。
カーディナリティ度(degree of cardinality)
表内の列の個別値の数を表内の行の合計数で割ったもの。これは、作成する索引を決定する際に特に重要である。通常、カーディナリティ度の低い列にはビットマップ索引、カーディナリティ度の高い列にはBツリー索引を使用する。原則として、カーディナリティ度が1%未満の場合にビットマップ索引を使用する。
クロス積(cross product)
複数セットの要素群を組み合せる方法。たとえば、2つの列がある場合、最初の列の各要素は2番目の列の各要素と組み合せられる。単純例を次に示す。
Col1 Col2 Cross Product ---- ---- ------------- a c ac b d ad bc bd
クロス積は、グルーピング・セットの連結時に行われる。第20章「データ・ウェアハウスにおける集計のためのSQL」を参照。
子(child)
階層内で、特定の値の直下のレベルにある値のこと。たとえば、Timeディメンションでは、値Jan-99は値Q1-99の子である。子値が複数の階層に属している場合は、1つの値が複数の親の子になることもある。
コモン・ウェアハウス・メタデータ(Common Warehouse Metadata: CWM)
Oracleデータ・ウェアハウスおよび意思決定支援で使用される標準リポジトリ。CWMリポジトリ・スキーマは他の製品が共有できるスタンドアロン製品で、それぞれ、その製品が作成するCWMリポジトリ内のオブジェクトのみを所有する。
サブジェクト領域(subject area)
組織の役割、知識領域を表現したり、識別するための分類方法。通常、1つのデータ・マートは、販売、マーケティングまたは地域などの1つのサブジェクト領域をサポートするために開発される。
サブスクリプション(subscription)
単一チェンジ・セット内の1つ以上の対象ソース・テーブルの変更データに対するアクセスを制御するチェンジ・データ・キャプチャ・サブスクライバのメカニズム。1つ以上のサブスクライバ・ビューが含まれる。
サブスクリプション・ウィンドウ(subscription window)
サブスクライバが現在サブスクライバ・ビューで参照できるチェンジ・データ・キャプチャ・パブリケーションの行範囲を定義するメカニズム。
集計操作(aggregation)
複数のデータ値を1つの値に集約する処理。たとえば、1日単位で集めた販売データを週レベルに集計したり、週のデータを月レベルに集計するなどの処理がこれに該当する。その後、データは集計データとして参照できる。集計という用語はサマリーと同義であり、集計データはサマリー・データと同義である。
準加算的(semi-additive)
全ディメンションについてではなく、一部のディメンションによって加算することでサマリーできるファクト(またはメジャー)を示す。準加算の例には、人数や手持在庫がある。「加算的」および「非加算的」と対比。
スキーマ(schema)
関連するデータベース・オブジェクトの集まり。リレーショナル・スキーマは、データベース・ユーザーIDでグルーピングされ、表やビューなどのオブジェクトを含む。このマニュアルでは、sh
というサンプル・スキーマを使用している。特殊なタイプのスキーマとして、スノーフレーク・スキーマおよびスター・スキーマの2つがある。
スター・クエリー(star query)
ファクト表および多数のディメンション表を結合するもの。各ディメンション表は、主キーから外部キーへの結合を使用してファクト表に結合される。ただし、ディメンション表同士は結合されない。
スター・スキーマ(star schema)
多次元データ・モデルを表現するように設計されたリレーショナル・スキーマ。1つ以上のファクト表と、外部キーを介して関連付けられている1つ以上のディメンション表で構成される。
スライスおよびダイス(slice and dice)
データの取得および操作を指す非公式用語。データ・ウェアハウスは、それぞれの軸がディメンションを表したデータのキューブ(立方体)と見ることができる。データをスライスするとは、ディメンションの一部または全部のメジャーと値を指定してキューブのピース(スライス)を取得することである。データ・スライスの取得時に、スライスを細切れ(ダイス)したように多数の小さなピースにし、データ列と行を移動したり並べ替えることもできる。適切にスライスおよびダイスされたシステムでは、大量のデータのナビゲーションが容易になる。
正規化(normalize)
リレーショナル・データベースにおいて、データを複数の表に分離することによりデータの冗長性を取り除くプロセス。「非正規化」と対比。
データを複数の表に分割し、データの冗長性を排除する処理。
属性(attribute)
1つ以上のレベルの特徴を説明した特性。たとえば、衣料品製造業の製品ディメンションには品目と呼ばれるレベルが含まれ、その中に色という属性がある。属性は、エンド・ユーザーが類似の特性に基づいてデータを選択できる論理グループを表す。
リレーショナル・モデルにおける属性は、エンティティの特性として定義される。Oracle Database 10gの場合、属性は単一レベルの各要素を特徴付けるディメンションの列である。
第3正規形スキーマ(third normal form schema)
OLTPシステムで一般的に使用されているものと同じ種類の正規化を使用するスキーマ。大規模なデータ・ウェアハウス、特に、データのロード要求が多く、データ・マートへのデータの入力および長時間実行問合せの実行に使用される環境用として選択されることがある。「スノーフレーク・スキーマ」および「スター・スキーマ」と比較。
チェンジ・テーブル(change table)
単一のソース・テーブルの変更データを含むリレーショナル表。チェンジ・データ・キャプチャのサブスクライバに対して、チェンジ・テーブルはパブリケーションとして知られる。
ディメンション(dimension)
一般に、2通りの方法で使用される。
データセットのメンバーを指定するために使用される特性を示す一般的な用語。売上指向のデータ・ウェアハウスにおける最も一般的なディメンションは、時間、地理および製品の3つである。ほとんどのディメンションが階層を持つ。
問合せがディメンションをナビゲートできるようにデータベース内に定義されたオブジェクト。Oracle Database 10gの場合、ディメンションは、1組の列セット間の階層(親/子)関係を定義するデータベース・オブジェクトである。Oracle Expressの場合、ディメンションは値リストで構成されるデータベース・オブジェクトである。
ディメンション値(dimension value)
ディメンションを構成するリストの一要素。たとえば、コンピュータ会社では、製品ディメンションにLAPPCやDESKPCなどのディメンション値を持つ。地理ディメンションには、BostonやParisなどの値が含まれ、時間ディメンションの値には、MAY96やJAN97などがある。
データ・ウェアハウス(data warehouse)
トランザクション処理用ではなく、問合せおよび分析用に設計されたリレーショナル・データベース。データ・ウェアハウスには、通常、トランザクション・データから導出された履歴データが含まれるが、別のソースからのデータを含めることもできる。データ・ウェアハウスにより、分析ワークロードとトランザクション・ワークロードを分離できる。また企業は、複数のソースのデータを統合できるようになる。
データ・ウェアハウス環境は、リレーショナル・データベースに加え、ETLソリューション、分析SQLエンジン、クライアント分析ツール、およびデータ収集とビジネス・ユーザーへのデータ配信の処理を管理するその他のアプリケーションで構成されることが多い。
データ・マート(data mart)
販売、マーケティング、金融など、特定のビジネス分野に対して設計されたデータ・ウェアハウス。依存型のデータ・マートの場合、データは企業全体のデータ・ウェアハウスから導出される。非依存型のデータ・マートの場合、データはソースから直接収集される。
導出ファクト(またはメジャー)(derived fact(or measure))
算術演算またはデータ変換を使用して既存のデータから生成されたファクト(またはメジャー)。例としては、平均、合計、割合、差などがある。
ドリル(drill)
1つの項目から一連の関連項目にナビゲートすること。ドリル操作は通常、ある階層内のレベル内(またはレベル間)での上下へのナビゲートを伴う。データを選択する際、階層内でドリルダウンすれば階層が開き、ドリルアップすれば階層が閉じる。
パブリケーション(publication)
単一のソース・テーブルの変更データを含むリレーショナル表。チェンジ・データ・キャプチャのパブリッシャは、チェンジ・テーブルとしてパブリケーションを参照する。
パラレル化(parallelism)
いくつかのプロセスが作業の一部を処理できるようにタスクを分解すること。複数のCPUがそれぞれの部分を同時に実行すると、パフォーマンスを大きく向上させることができる。
パラレル実行(parallel execution)
いくつかのプロセスが作業の一部を処理できるようにタスクを分解すること。複数のCPUがそれぞれの部分を同時に実行すると、パフォーマンスを大きく向上させることができる。
ピボット(pivoting)
入力ストリーム内の各レコードが、データ・ウェアハウスの適切な表にある多数のレコードに変換される変換処理。これは、リレーショナルでないデータベースからデータを取り出す際に特に重要である。
ファクト(fact)
調査や分析の対象となるデータで、通常は数値データや加算的データ。ファクトの例には、販売価格、原価および収益がある。ファクトとメジャーは同じ意味で、ファクトは主にリレーショナル環境で使用され、メジャーは主に多次元環境で使用される。導出ファクト(またはメジャー)は、算術演算やデータ変換を使用して既存のデータから生成される。
ファクト表(fact table)
ファクトを格納する、スター・スキーマ内の表。多くの場合、ファクト表には、ファクトを格納する列と、ディメンション表の外部キーとなる列の2種類の列がある。通常、ファクト表の主キーは、その表のすべての外部キーで構成されるコンポジット・キーである。
ファクト表には、詳細レベルのファクトまたは集計されたファクト(集計されたファクトを含むファクト表は、サマリー表と呼ばれることが多い)のいずれかが含まれている。通常、ファクト表には同じ集計操作レベルのファクトが含まれている。
メタデータ(metadata)
データおよびその他の構造(オブジェクト、ビジネス・ルール、ビジネス・プロセスなど)を記述するデータ。たとえば、データ・ウェアハウスのスキーマ設計は、通常、メタデータとしてリポジトリに格納され、データ・ウェアハウスの作成と移入に使用するスクリプトを生成するために使用される。メタデータはリポジトリに含まれる。
データの例: ソースからターゲットへの変換に関する定義、データ・ウェアハウスの作成と移入に使用される。情報の例: 表、列、関連項目の定義、関連するモデル・ツール内に格納される。ビジネス・ルールの例: 1,000個を販売した後10パーセントの値引を行う。