将相似性分析模型应用于数据

可使用数据流对数据应用相似性分析,这样,您便可以识别与给定记录相似的记录。

开始之前,请确保满足执行此类型分析的先决条件。请参见在 Oracle Analytics 中执行相似性分析的先决条件
  1. 在主页上,依次单击创建数据流
  2. 添加数据中,选择一个数据集,然后单击添加

    您必须使用 Oracle Database V23ai 或 Oracle Autonomous AI Lakehouse V23ai 或更高版本。

  3. 在列的列表中,取消选择您不希望分析的列(默认情况下,它们都处于选中状态)。必须包括具有唯一 ID 的列。我们建议选择 10 到 15 列。选择 15 个以上的列可能会对性能产生不利影响。

  4. 将光标悬停在数据集节点上,选择添加步骤,然后单击相似性分析

  5. 选择要使用的模型,然后单击确定

  6. 展开输出区域,然后选择 Profile_expression
    这将添加包含所有选定数据的连接输出列。
  7. 展开参数区域。

  8. 配置参数:
    • — 单击选择值,然后选择数据列和值以唯一标识要与数据集中的其他记录进行比较的记录。例如,可以指定 ID 并选择 ID 为 "100002" 的患者。
    • 前(最近)或后(最远) — 选择“前”查找最相似的记录,或选择“后”查找最不相似的记录。
    • 结果数 — 指定要返回的匹配记录数。例如,选择 "100" 可查找最接近目标记录的前 100 个匹配记录。
    • (可选)参考列 1、2 和 3 — 指定唯一标识要与值进行比较的记录的一列或列组合。例如,对于医疗患者,可以选择 "ID"、"Age" 和 "Medication"。您不需要在参考列中进行选择。
    • 在概要分析中包括参考列 — 选择“否”以从概要分析中排除在参考列 1、2 和 3 中指定的参考列,或选择“是”以将其包括在概要分析中。
  9. 在图表中单击相似性分析节点旁边的 +,然后单击添加步骤,并选择保存数据
  10. 配置“保存数据”步骤:

    • 数据集 — 将默认值更改为更有意义的名称。例如“相似性分析前 10 个”。
    • — 不要更改默认值。当数据流基于指定的数据集名称运行时,Oracle Analytics 将创建新值。
    • (可选)默认聚合 — 更改默认聚合。例如,您可以将其更改为“平均值”。
  11. 单击保存模型,并指定生成的预测模型的名称。
  12. 单击保存,并指定数据流的名称。
  13. 单击运行以分析数据并生成预测模型。
您可以在数据页的数据集选项卡上查找 Oracle Analytics 生成的数据集。请参见解释来自相似性分析模型的结果