データベース・アナリティクス関数

データベース・アナリティクス関数では、異常の検出、データのクラスタリング、データのサンプリング、アフィニティ分析などの高度な分析とデータ・マイニング分析を実行できます。Oracle DatabaseまたはOracle Autonomous Data Warehouseに接続したときにアナリティクス関数を使用できます。

チュートリアル・アイコン LiveLabsスプリント

データ・フロー・エディタで「データベース・アナリティクス」ステップを表示するには、Oracle DatabaseまたはOracle Autonomous Data Warehouseに接続する必要があります。

関数タイプ 説明

動的異常検出

モデルが事前に定義されていない入力データの異常を検出します。たとえば、普段は発生しない金融取引を強調表示できます。

この関数を大規模なデータセットとともにデプロイする場合は、パフォーマンスを最大化するために、パーティション列を構成します。

動的クラスタリング

モデルが事前に定義されていない入力データをクラスタ化します。たとえば、マーケティングを目的として、顧客セグメントの特徴付けや検出を行えます。

この関数を大規模なデータセットとともにデプロイする場合は、パフォーマンスを最大化するために、パーティション列を構成します。

高頻度アイテム・セット

一緒に表示されることが多いアイテムのセットを特定して、データ内の関係を見つけます。このデータ・マイニング手法は、アソシエーション・ルール学習、アフィニティ分析、または小売業界ではマーケット・バスケット分析としても知られています。高頻度アイテム・セットをマーケット・バスケット分析ツールとして使用すると、シャンプーを購入する顧客はヘア・コンディショナも購入することがわかる場合があります。

この操作はリソースを大量に消費し、そのパフォーマンスは、入力データセットの量、トランザクションIDのカーディナリティ、アイテム値列のカーディナリティなど、いくつかの要因に依存します。データベースの潜在的なパフォーマンス低下を回避するには、出力に多くのアイテム・セットが含まれるよう、最小サポート・パーセントの値を高くして(デフォルトは0.25)、徐々に減らしてください。

データのサンプリング

表からサンプルのデータを一定の割合でランダムに選択します。サンプリングするデータの割合を指定します。たとえば、データの10%をランダムにサンプリングできます。

テキストのトークン化

テキスト・データを個別の単語に分解し、各単語の出現回数を数えることで分析します。データ・フローを実行すると、Oracle AnalyticsによってデータベースにDR$IndexName$Iという名前の表が作成され、トークン・テキストとトークン・カウント関連の詳細が含まれます。DR$IndexName$I表を使用してデータセットを作成します。

  • 「出力」で、各フィールドの横にある「作成」オプションを使用して索引を作成する列を選択します。

  • 「パラメータ」テキスト列で、「列の選択」をクリックし、個別の単語に分解するフィールドを選択します。参照列<number>オプションを使用して、出力データセットに1つ以上の列を含めます。特殊言語レクサーの使用オプションを使用して、特殊なレクサーに中国語、デンマーク語、オランダ語、英語、フィンランド語、ドイツ語、ノルウェー語、日本語、韓国語、スウェーデン語などの特定の言語を選択できます。サポートされる言語の詳細は、Oracleデータベースのドキュメントを参照してください。

データ・フローに使用するデータベース接続には、特別なデータベース権限が必要です。次のことを管理者に確認してください:
  • データベース・アカウントにgrant EXECUTE on CTXSYS.CTX_DDL to schema nameがあります。
  • ソース表が存在するスキーマと同じユーザー名でOracle Analytics接続を使用しています。これは、データ・フローの実行時のアクセス権限の問題を回避するためのベスト・プラクティスです。
  • 分析しているデータベース表の列に、既存のCONTEXT索引はありません。分析しているデータベース表に既存のCONTEXT索引がある場合、テキスト・トークン化データ・フローを実行する前にその索引を削除します。

時系列

時系列は、ターゲット値の既知の履歴に基づいてターゲット値を予測するデータ・マイニング手法です。時系列分析への入力は、ターゲット値のシーケンスです。これにより、時間ウィンドウ(履歴データから先の最大30期間を含めることができる)の各期間のターゲット値が見積もられます。

このモデルでは、履歴データに対する適合度を測定する様々な統計も計算されます。これらの統計は、パラメータ設定を介した追加出力データセットとして使用可能です。

注意: 時系列アルゴリズムは、Oracle Databaseバージョン18c以降で使用可能です。

データのアンピボット

列に格納されているデータを行形式に入れ替えます。たとえば、各年の収益メトリック値が表示されている複数の列を、年ディメンションの値行が複数ある単一の収益列に入れ替えられます。入れ替えるメトリック列を選択して、新しい列の名前を指定します。これで、データセットの列が減り、行が増えます。

ノート: アナリティクス関数を使用するには、管理者がアナリティクス関数を有効にしていることを確認します(「コンソール」→「詳細システム設定」→「パフォーマンスおよび互換性」→「データ・フローでのデータベース・アナリティクス・ノードの有効化」を参照)。