数据库分析函数

通过数据库分析函数,您可以执行高级分析和数据挖掘分析,例如,检测异常、对数据进行聚类、对数据进行采样和执行关联性分析。当您连接到 Oracle 数据库或 Oracle Autonomous Data Warehouse 时即可使用分析函数。

“教程”图标 LiveLabs Sprint

要在数据流编辑器中显示数据库分析步骤,必须连接到 Oracle 数据库或 Oracle Autonomous Data Warehouse。

函数类型 说明

动态异常检测

在不使用预定义模型的情况下检测输入数据中的异常。例如,您可能希望突出显示异常的财务事务处理。

在针对大型数据集部署此函数时,请配置分区列以尽可能提高性能。

动态聚类

在不使用预定义模型的情况下对输入数据进行聚类。例如,为了进行营销,您可能希望描述和发现客户细分市场。

在针对大型数据集部署此函数时,请配置分区列以尽可能提高性能。

常用项集

通过标识经常一起出现的项集来发现数据中的关系。此数据挖掘技术也称为关联规则学习、关联性分析,或者在零售行业称为购物篮分析。如果使用常用项集作为购物篮分析工具,您可能会发现购买洗发水的客户也会购买护发素。

此操作是资源密集型操作,其性能取决于多个因素,例如输入数据集的数量、事务处理 ID 的基数和项值列的基数。要避免可能的数据库性能下降,请尝试使用较高的最小支持百分比值(默认值为 0.25),并逐渐降低该值,以便在输出中容纳更多项集。

采样数据

从表中选择随机百分比的数据样本。您只需指定要采样的数据所占的百分比。例如,您可能希望随机采样百分之十的数据。

文本标记化

通过将文本数据分解为不同的单词并计算每个单词的出现次数来分析文本数据。运行数据流时,Oracle Analytics 在数据库中创建名为 DR$IndexName$I 的表,其中包含与标记文本和标记计数相关的详细信息。使用 DR$IndexName$I 表创建数据集。

  • 输出下,使用每个字段旁边的创建选项选择要创建索引的列。

  • 参数文本列下,单击选择列来选择要分解为单独单词的字段。使用引用列<number> 选项在输出数据集中包括一个或多个列。使用使用特殊语言词法分析器选项为特殊词法分析器选择特定语言,例如中文、丹麦语、荷兰语、英语、芬兰语、德语、挪威语、日语、韩语和瑞典语。有关支持的语言的更多详细信息,请参见 Oracle 数据库文档

用于数据流的数据库连接需要特殊的数据库权限。请与管理员核实:
  • 您的数据库账户已向方案名称授予对 CTXSYS.CTX_DDL 的 EXECUTE 权限 (grant EXECUTE on CTXSYS.CTX_DDL to schema name)。
  • 您通过与源表所在方案相同的用户名来使用 Oracle Analytics 连接。这是在数据流运行时避免访问权限问题的最佳实践。
  • 您正在分析的数据库表列没有现有 CONTEXT 索引。如果您正在分析的数据库表上有一个现有 CONTEXT 索引,请在运行文本标记化数据流之前先删除该索引。

时间序列

时间序列是一项数据挖掘技术,它根据已知的目标值历史记录预测目标值。时间序列分析的输入是一系列目标值。此技术可提供某个时间窗口内每个期间的估计目标值,该时间窗口最多可以包含 30 个不含历史数据的期间。

此外,模型还计算各种统计信息,以衡量模型对历史数据的拟合优度。可以通过参数设置在另外的输出数据集中获取这些统计信息。

:仅从 Oracle 数据库版本 18c 开始提供时间序列算法。

对数据进行逆透视化

将列中存储的数据转置为行格式。例如,您可能希望将针对每个年份显示一个收入度量值的多个列转置为针对“年”维显示多个值行的单个收入列。您只需选择要转置的度量列并为新列指定名称。您将获得一个具有更少列和更多行的新数据集。

:要使用分析函数,请确保管理员已启用分析函数(请参见“控制台”>“高级系统设置”>“性能和兼容性”>“在数据流中启用数据库分析节点”)。