数据概要分析和语义建议

当您创建数据集时,Oracle Analytics 将执行列级概要分析以生成一组语义建议,供您修复或扩充数据。当您创建工作簿时,您还可以通过从数据面板添加知识库扩充来将其包含在可视化中。

注:

默认情况下通常启用知识库扩充,但工作簿编辑人员可以对自己拥有或具有编辑权限的数据集启用或禁用知识库扩充。Oracle Analytics 不会自动为从数据流生成的数据集提供扩充建议。在这种情况下,数据集所有者或管理员必须首先为数据集启用知识库扩充选项。请参见为数据集启用知识库扩充

这些建议基于系统在分析步骤中自动检测到的特定语义类型。例如,对于基于本地主题区域的数据集,使用简单的“前 N 个”示例进行分析。

有多种类别的语义类型,例如,由城市名称标识的地理位置、可识别模式(信用卡、电子邮件地址和社会安全号中的模式)、日期和重复模式。您还可以创建自己的定制语义类型。

语义类型类别

概要分析将应用于各种语义类型。

将分析语义类型类别来识别:

  • 地理位置,例如城市名称。
  • 模式,例如可从信用卡号或电子邮件地址中找到的模式。
  • 重复模式,例如带连字符的短语数据。

语义类型建议

用于修复、改进或扩充数据集的建议由数据类型确定。

语义类型建议示例:

  • 扩充 — 向您的数据添加与检测到的特定类型(例如,地理位置)对应的新列。例如,为城市添加人口数据。
  • 列连接 — 在数据集中检测到两个列时,如果一个列包含名字,另一个列包含姓氏,则系统会建议将它们连接成一个列。例如,first_name_last_name 列。
  • 语义提取 — 语义类型包含子类型(例如,包含区号的 us_phone 号码)时,系统会建议将子类型提取到单独的列中。
  • 部分提取 — 在数据中检测到通用模式分隔符时,系统会建议提取该模式的各个部分。例如,如果系统在数据中检测到重复出现的连字符,则会建议将各个部分提取到单独的列中,从而使数据对分析更有用。
  • 日期提取 — 检测到日期时,系统会建议提取日期中可能有助于数据分析的部分。例如,可以从发票或购买日期中提取星期几。
  • 完全和部分混淆/遮蔽/删除 — 检测到敏感字段(例如信用卡号)时,系统会建议对该列进行完全或部分遮蔽,甚至删除。

可识别的基于模式的语义类型

根据在数据中找到的模式识别语义类型。

为以下语义类型提供了建议:

  • 日期(超过 30 种格式)
  • 美国社会安全号 (Social Security Number, SSN)
  • 信用卡号
  • 信用卡属性(CVV 和到期日期)
  • 电子邮件地址
  • 北美编码方案电话号码
  • 美国地址

基于引用的语义类型

语义类型的识别由随服务提供的加载引用知识确定。

为以下语义类型提供了基于引用的建议:

  • 国家/地区名称
  • 国家/地区代码
  • 省/自治区/直辖市名称
  • 省/自治区/直辖市代码
  • 县名(管辖区)
  • 城市名称(本地化名称)
  • 邮政编码

建议的扩充

建议的扩充基于语义类型。

扩充是基于地理位置层次结构确定的:

  • 国家/地区
  • 省/自治区/直辖市
  • 管辖区(县)
  • 经度
  • 纬度
  • 人口
  • 海拔(米)
  • 时区
  • ISO 国家/地区代码
  • 联邦信息处理标准 (Federal Information Processing Standards, FIPS)
  • 国家/地区名称
  • 首都
  • 大洲
  • GeoNames ID
  • 所用语言
  • 电话的国家/地区代码
  • 邮政编码格式
  • 邮政编码模式
  • 电话的国家/地区代码
  • 货币名称
  • 币种缩写
  • 地理顶级域 (GeoLTD)
  • 平方公里

需要达到的阈值

概要分析过程使用特定阈值来做出有关特定语义类型的决策。

通常来说,列中 85% 的数据值必须满足单个语义类型的标准,系统才能做出分类决定。如果某个列 70% 的数据为名字而 30% 的数据为“其他”,则该列不满足阈值要求,因而不会提出建议。

定制知识库建议

利用定制知识库建议来扩充 Oracle Analytics 系统知识库。定制知识库可以让 Oracle Analytics 语义分析器找到更多业务特定的语义类型,并提出更相关、更可控的扩充建议。例如,您可以添加一条定制知识库参考,将处方药分类为“镇痛药”或“阿片类”USP 药物类别。

“教程”图标 教程

让您的管理员将定制知识库文件上载到 Oracle Analytics。当您扩充数据集时,Oracle Analytics 会基于此语义数据提供扩充建议。当您创建工作簿时,您还可以通过从数据面板添加知识库扩充来将其包含在可视化中。

创建自己的定制知识库文件

创建语义文件时,请遵循以下准则:

  • 创建一个 CSV 或 Microsoft Excel (XLSX) 格式的数据文件。您可以上载的最大文件大小为 250 MB。
  • 使用关键字填充第一列,Oracle Analytics 将使用这些关键字分析数据。例如,关键字可以是粒度为天的日期,以便能够按财政年度分析数据。
  • 使用扩充值填充其他列。

让您的管理员将定制知识库文件上载到 Oracle Analytics。

示例 — 将业务时间范围集成到数据中

此示例说明如何将业务时间范围添加到销售数据中,并在原始数据集不包含财政数据时能够按财政年度分析销售。

该示例可视化按季度显示 2019 年、2020 年、2021 年、2022 年和 2023 年的销售额,其中每年以不同的颜色表示。您的源销售数据中没有财政数据,因此您可以部署其他定制知识库以将财政数据添加到您的数据集中。

首先,在 Fiscal Calendar.xlsx 文件中准备财政数据。该文件中包含日期 (mm-dd-yyyy)、财政年度、财政月和财政周。例如,源文件的日期列中可以包含 01-23-2025,财政年度列中可以包含 2025,其余列中包含相关属性。

让管理员将 Fiscal Calendar.xlsx 上载到控制台中的定制知识库区域。

然后,创建一个包含 Sales 和 ORDER_DATE 的数据集,并在数据集编辑器中选择扩充建议中的 使用 Fiscal Year 扩充 ORDER_DATE使用 Fiscal Month 扩充 ORDER_DATE。Oracle Analytics 会将这两个扩充添加到数据集中。

最后,创建工作簿,并将 Fiscal YearFiscal Qtr(在 ORDER_DATE 下)以及 Sales 添加到可视化。:可以直接添加 Fiscal YearFiscal Qtr,无需添加原始的 ORDER_DATE 列。