データへの類似度分析モデルの適用

データ・フローを使用して類似度分析をデータに適用することで、特定のレコードに類似したレコードを識別できます。

開始する前に、このタイプの分析を実行するための前提条件を満たしていることを確認してください。Oracle Analyticsで類似度分析を実行するための前提条件を参照してください。

ホーム・ページで、「作成」、「データ・フロー」の順にクリックします。
「データの追加」で、データセットを選択し、「追加」をクリックします。

Oracle DatabaseまたはOracle Autonomous AI Lakehouse V23ai以降を使用する必要があります。
列のリストで、分析しない列の選択を解除します(これらはすべてデフォルトで選択されています)。一意のIDを持つ列を含める必要があります。10列から15列の間で選択することをお薦めします。15を超える列を選択すると、パフォーマンスに悪影響を及ぼす可能性があります。

.pngの説明
データセット・ノードにカーソルを合せて「ステップの追加」を選択し、「類似度分析」をクリックします。

.pngの説明
使用するモデルを選択し、「OK」をクリックします。

.pngの説明
「出力」セクションを展開し、Profile_expressionを選択します。
これにより、選択したすべてのデータの連結された出力列が追加されます。
「パラメータ」セクションを展開します。

.pngの説明
パラメータを構成します。
- ソース - 「値の選択」をクリックし、データ列および値を選択して、データセット内の他のレコードと比較するレコードを一意に識別します。たとえば、IDを指定して、IDが"100002"の患者を選択できます。
- 最上位(最も近い)または最下位(最も離れた) - 最も類似したレコードを検索する場合は「最上位」を選択し、最も類似していないレコードを検索する場合は「最下位」を選択します。
- 結果数 - 返す一致レコードの数を指定します。たとえば、「100」を選択すると、ターゲット・レコードに最も近い一致レコードの上位100件を検索します。
- (オプション)参照列1、2および3 - 「ソース」の値を比較するレコードを一意に識別する列または列の組合せを指定します。たとえば、医療患者の場合は、「ID」、「年齢」および「薬剤」を選択できます。参照列での選択は必須ではありません。
- プロファイリングに参照列を含める - 「参照列1、2および3」で指定された参照列をプロファイリングから除外する場合は「いいえ」、プロファイリングに含める場合は「はい」を選択します。
ダイアグラムの「類似度分析」ノードの横にある「+」をクリックし、「ステップの追加」をクリックして、「データの保存」を選択します。
「データの保存」ステップを構成します。

.pngの説明
- データセット - デフォルト値をよりわかりやすい名前に変更します。たとえば、「類似度分析上位10」です。
- 表 - デフォルト値を変更しないでください。Oracle Analyticsでは、指定されたデータセット名に基づいてデータ・フローが実行されると、新しい値が作成されます。
- (オプション)デフォルト集計 - デフォルトの集計を変更します。たとえば、これを「平均」に変更できます。
「モデルの保存」をクリックし、生成された予測モデルの名前を指定します。
「保存」をクリックし、データ・フローの名前を指定します。
「実行」をクリックして、データを分析し、予測モデルを生成します。

Oracle Analyticsによって生成されるデータセットは、「データ」ページの「データセット」タブで確認できます。類似度分析モデルの結果の解釈を参照してください。