- Oracle Analytics Desktopユーザーズ・ガイド
- データ・フローを使用したデータのキュレート
- ステップの使用
- データ・フローへのデータベース・アナリティクスの追加
データ・フローへのデータベース・アナリティクスの追加
データベース・アナリティクスでは、異常の検出、データのクラスタリング、データのサンプリング、アフィニティ分析などの高度な分析とデータ・マイニング分析を実行できます。データベース・アナリティクスはOracle Analyticsではなく、データベースで実行されるため、OracleデータベースまたはOracle Autonomous Data Warehouseに接続している必要があります。
- データ・フロー・エディタで、「ステップの追加(+)」をクリックし、「データベース・アナリティクス」を選択します。OracleデータベースまたはOracle Autonomous Data Warehouseに接続していない場合、「データベース・アナリティクス」オプションは表示されません。
- 「データベース・アナリティクスの選択」ページで、使用するアナリティクス操作を選択し、「OK」をクリックします。
- 「アナリティクス操作」ペインで、操作を構成します。
- 「入力」または「出力」領域を使用して、分析するデータ列を指定します。
- 「パラメータ」領域で、操作のオプションを構成します。
操作の構成に役立つ、各パラメータに表示される画面上のガイダンスを使用してください。
関数タイプ 説明 動的異常検出 モデルが事前に定義されていない入力データの異常を検出します。たとえば、普段は発生しない金融取引を強調表示できます。 この関数を大規模なデータ・セットとともにデプロイする場合は、パフォーマンスを最大化するために、パーティション列を構成します。
動的クラスタリング モデルが事前に定義されていない入力データをクラスタ化します。たとえば、マーケティングを目的として、顧客セグメントの特徴付けや検出を行えます。 この関数を大規模なデータ・セットとともにデプロイする場合は、パフォーマンスを最大化するために、パーティション列を構成します。
高頻度アイテム・セット 一緒に表示されることが多いアイテムのセットを特定して、データ内の関係を見つけます。このデータ・マイニング手法は、アソシエーション・ルール学習、アフィニティ分析、または小売業界ではマーケット・バスケット分析としても知られています。高頻度アイテム・セットをマーケット・バスケット分析ツールとして使用すると、シャンプーを購入する顧客はヘア・コンディショナも購入することがわかる場合があります。 この操作はリソースを大量に消費し、そのパフォーマンスは、入力データセットの量、トランザクションIDのカーディナリティ、アイテム値列のカーディナリティなど、いくつかの要因に依存します。データベースの潜在的なパフォーマンス低下を回避するには、出力に多くのアイテム・セットが含まれるよう、最小サポート・パーセントの値を高くして(デフォルトは0.25)、徐々に減らしてください。
データのサンプリング 表からサンプルのデータを一定の割合でランダムに選択します。サンプリングするデータの割合を指定します。たとえば、データの10%をランダムにサンプリングできます。 テキストのトークン化 テキスト・データを個別の単語に分解し、各単語の出現回数を数えることで分析します。データ・フローを実行すると、Oracle AnalyticsによってデータベースにDR$IndexName$Iという名前の表が作成され、トークン・テキストとトークン・カウント関連の詳細が含まれます。DR$IndexName$I表を使用してデータ・セットを作成します。 -
「出力」で、各フィールドの横にある「作成」オプションを使用して索引を作成する列を選択します。
-
「パラメータ」の「テキスト列」で、「列の選択」をクリックし、個別の単語に分解するフィールドを選択します。参照列<number>オプションを使用して、出力データ・セットに1つ以上の列を含めます。
データ・フローに使用するデータベース接続には、特別なデータベース権限が必要です。次のことを管理者に確認してください:
- データベース・アカウントに
grant EXECUTE on CTXSYS.CTX_DDL to schema name
があります。 - ソース表が存在するスキーマと同じユーザー名でOracle Analytics接続を使用しています。これは、データ・フローの実行時のアクセス権限の問題を回避するためのベスト・プラクティスです。
- 分析しているデータベース表の列に、既存のCONTEXT索引はありません。分析しているデータベース表に既存のCONTEXT索引がある場合、テキスト・トークン化データ・フローを実行する前にその索引を削除します。
データのアンピボット 列に格納されているデータを行形式に入れ替えます。たとえば、各年の収益メトリック値が表示されている複数の列を、年ディメンションの値行が複数ある単一の収益列に入れ替えられます。入れ替えるメトリック列を選択して、新しい列の名前を指定します。これで、データセットの列が減り、行が増えます。