内部来源

Oracle AI Data Platform Workbench 支持使用内置摄取连接器从内部 Oracle 源摄取数据。这些连接器使用户能够使用基于 Spark 的记事本无缝提取数据,并将其集成到其工作流和数据管道中。

摄取连接器抽象了连接设置的复杂性,为批量和近乎实时的 Oracle 本机服务摄取提供了优化的访问模式。

AI Data Platform Workbench 在 Oracle AI Data Platform Workbench Samples Git 资料档案库中提供示例代码模板,支持在记事本中使用 Spark 从多个内部源摄取数据。

表 14-1 内部来源

访问类型 集成方法 说明 外部目录支持 可用示例代码
Fusion 仅提取 预配置的 Spark 模板 通过 BICC 将 Fusion SaaS 应用中的数据提取到 AI 数据平台工作台表或卷中。
REST 端点 只读 JDBC 通过 Spark 记事本 从 API 读取数据,以摄取 JSON 等半结构化数据。
MySQL HeatWave 只读 JDBC 通过 Spark 记事本 使用 JDBC 在 AI Data Platform Workbench 和 MySQL HeatWave 之间移动数据。
Oracle Autonomous AI Lakehouse 读取/写入 + 零复制 JDBC 或外部目录 Oracle Autonomous AI Lakehouse 中摄取或注册为外部目录,以便直接查询数据而无需重复。
Oracle Autonomous AI Transaction Processing 读取/写入 + 零复制 JDBC 或外部目录 从外部目录摄取或注册为外部目录,以便直接查询数据而无需重复。
Oracle 数据库 读/写 JDBC 或外部目录 支持从本地或 OCI 数据库摄取数据。
Exadata 读/写 JDBC 或外部目录 访问 Exadata 系统,以使用 JDBC 进行高性能读取和写入。

表 14-2 Spark SQL 到、Oracle Autonomous AI Database 和 Exadata 数据类型映射

Spark SQL 类型 Oracle AI DatabaseOracle Autonomous AI Database 、Exadata Data Type
字节类型 数字 (38,10)
短类型 数字 (38,10)
整数类型 (INT) 数字 (38,10)
长类型 数字 (38,10)
浮点类型 FLOAT(126)
双类型 数字 (38,10)
DecimalType(p,s) NUMBER(p,s)
字符串类型 VARCHAR2(4000 个字符)
二进制类型 BLOB
布尔类型 VARCHAR2(4000 个字符)
日期类型 DATE
时间戳类型 TIMESTAMP(6)
数组类型 VARCHAR2(4000 个字符)
映射类型 不支持
结构类型 VARCHAR2(4000 个字符)
日历间隔类型 如果转换为 String/VARCHAR2,则支持