使用“解释”分析数据

“解释”使用机器学习来发现有关数据的有用洞察。

什么是“解释”?

“解释”在所选列的数据集上下文中分析所选列,并生成有关它所发现的洞察的文本说明。例如,对于任何列,您将从中找出可解释列的基本事实、关键驱动因素、细分以及非正常值。

“解释”使用 Oracle 的机器学习生成数据的准确、快速且功能强大的相关信息,并创建可添加到工作簿画布中的相应可视化。

“解释”适用于以下情况的数据分析师:可能不知道查找什么数据趋势,不希望花时间进行试验(将列拖放到画布中,或使用数据流训练并应用预测模型)。

此外,“解释”还可作为供数据分析师使用的有用起点,以便其确认在其数据中查找的趋势,然后使用相应信息创建并优化预测模型以应用于其他数据集。

什么是“洞察”?

“洞察”是用来在所选列的数据集的上下文中描述所选列的类别。

“教程”图标 LiveLabs Sprint

“解释”提供的洞察基于您选择的列类型或聚合,而且将根据为所选度量设置的聚合规则而变化。“解释”仅生成对于所选列类型有意义的洞察。

洞察类型 说明
基本事实 显示列值的基本分布。列数据根据数据集的每个度量进行细分。
此洞察适用于所有列类型。
  • 对于选定的度量,此洞察显示每个属性列的每个成员的聚合度量值分布。
  • 对于选定的属性,此洞察显示数据集中每个度量在该属性的成员值中的值。
关键驱动因素 显示数据集中与选定的列结果相关度最高的列。图表中显示了选定值在各个相关属性值之间的分布。

仅在解释属性列时或解释具有平均聚合规则的度量列时才会显示此选项卡。

分段 显示列值中的关键分段(或组)。“解释”对数据运行分类算法以确定数据值交集,并确定所有维中达到属性的某个给定结果概率最高的值范围。

例如,某个特定年龄范围、来自特定的一组位置、受教育年数在某个特定范围内的一组个人构成的分段购买某个给定产品的概率非常高。

仅在解释属性列时才会显示此选项卡。

非正常值 标识一系列值,其中一个(聚合)值显著偏离回归算法预期结果。

使用“解释”来发现数据洞察

选择一列并选择“解释”功能后,Oracle Analytics 将使用机器学习在数据集上下文中分析该列。例如,“解释”在所选数据中搜索关键驱动因素和非正常值。

“解释”以文本说明和可视化形式向您显示其查找结果,您可以将其添加到工作簿的画布。
如果在某列上执行解释且结果包含太多相关且排名较高的列(例如,邮政编码与城市和省/自治区/直辖市),则从数据集中排除一些列,以便“解释”可以标识更有意义的驱动因素。请参见隐藏或删除列

在本地 Oracle Analytics Desktop 目录中安装机器学习之后,会提供“解释”。请参见如何安装 Machine Learning for Desktop?

  1. 主页中,依次单击创建工作簿以创建新工作簿。
  2. 单击可视化以打开可视化页。
  3. 数据面板中,右键单击某列并选择解释 <Data Element>

    为了让“解释”成功分析属性,属性必须具有 3 到 99 个相异值。
    “解释”对话框显示有关所选列的基本事实、非正常值及其他信息。
  4. 通过单击选项卡来查看其他类别中建议的洞察。例如,关于 <attribute> 的基本事实或 <attribute> 的非正常值。
  5. 对于要包含在工作簿画布中的每个洞察,将光标悬停在其上方,然后单击为画布选择
    您将在选定项旁边看到一个绿色对勾 (绿色对勾)。

    您可以从任一选项卡中选择多个洞察。
  6. 单击添加所选项以在任一选项卡上添加标有绿色对勾的洞察。
    您可以像管理画布上手动创建的任何其他可视化一样,管理“解释”洞察。
要微调洞察,请单击设置以更改要分析的列并配置该类别的选项,例如,选择段的最小大小。