データベース分析関数

データベース分析関数を使用すると、異常の検出、データのクラスタリング、データのサンプリング、アフィニティ分析など、高度な分析およびデータ・マイニング分析を実行できます。Oracle DatabaseまたはOracle Autonomous Data Warehouseに接続したときにアナリティクス関数を使用できます。

データ・フロー・エディタで「データベース・アナリティクス」ステップを表示するには、Oracle DatabaseまたはOracle Autonomous Data Warehouseに接続する必要があります。

関数タイプ 説明
動的異常検出 モデルが事前に定義されていない入力データの異常を検出します。たとえば、普段は発生しない金融取引を強調表示できます。

この関数を大規模なデータセットとともにデプロイする場合は、パフォーマンスを最大化するために、パーティション列を構成します。

動的クラスタリング モデルが事前に定義されていない入力データをクラスタ化します。たとえば、マーケティングを目的として、顧客セグメントの特徴付けや検出を行えます。

この関数を大規模なデータセットとともにデプロイする場合は、パフォーマンスを最大化するために、パーティション列を構成します。

高頻度アイテム・セット 一緒に表示されることが多いアイテムのセットを特定して、データ内の関係を見つけます。このデータ・マイニング手法は、アソシエーション・ルール学習、アフィニティ分析、または小売業界ではマーケット・バスケット分析としても知られています。高頻度アイテム・セットをマーケット・バスケット分析ツールとして使用すると、シャンプーを購入する顧客はヘア・コンディショナも購入することがわかる場合があります。

この操作はリソースを大量に消費し、そのパフォーマンスは、入力データセットの量、トランザクションIDのカーディナリティ、アイテム値列のカーディナリティなど、いくつかの要因に依存します。データベースの潜在的なパフォーマンス低下を回避するには、出力に多くのアイテム・セットが含まれるよう、最小サポート・パーセントの値を高くして(デフォルトは0.25)、徐々に減らしてください。

データのサンプリング 表からサンプルのデータを一定の割合でランダムに選択します。サンプリングするデータの割合を指定します。たとえば、データの10%をランダムにサンプリングできます。
テキストのトークン化 テキスト・データを個別の単語に分解し、各単語の出現回数を数えることで分析します。データ・フローを実行すると、Oracle AnalyticsによってデータベースにDR$IndexName$Iという名前の表が作成され、トークン・テキストとトークン・カウント関連の詳細が含まれます。DR$IndexName$I表を使用してデータセットを作成します。
  • 「出力」で、各フィールドの横にある「作成」オプションを使用して索引を作成する列を選択します。

  • 「パラメータ」「テキスト列」で、「列の選択」をクリックし、個別の単語に分解するフィールドを選択します。参照列<number>オプションを使用して、出力データセットに1つ以上の列を含めます。

データ・フローに使用するデータベース接続には、特別なデータベース権限が必要です。次のことを管理者に確認してください:

  • データベース・アカウントにgrant EXECUTE on CTXSYS.CTX_DDL to schema nameがあります。
  • ソース表が存在するスキーマと同じユーザー名でOracle Analytics接続を使用しています。これは、データ・フローの実行時のアクセス権限の問題を回避するためのベスト・プラクティスです。
  • 分析しているデータベース表の列に、既存のCONTEXT索引はありません。分析しているデータベース表に既存のCONTEXT索引がある場合、テキスト・トークン化データ・フローを実行する前にその索引を削除します。
データのアンピボット 列に格納されているデータを行形式に入れ替えます。たとえば、各年の収益メトリック値が表示されている複数の列を、年ディメンションの値行が複数ある単一の収益列に入れ替えられます。入れ替えるメトリック列を選択して、新しい列の名前を指定します。これで、データセットの列が減り、行が増えます。

ノート: アナリティクス関数を使用するには、管理者がアナリティクス関数を有効にしていることを確認します(「コンソール」、「システム」、パフォーマンスと互換性、「データ・フロー」のデータベース・アナリティクス・ノードの有効化を使用)。