内部来源
Oracle AI Data Platform Workbench 支持使用内置摄取连接器从内部 Oracle 源摄取数据。这些连接器使用户能够使用基于 Spark 的记事本无缝提取数据,并将其集成到其工作流和数据管道中。
摄取连接器抽象了连接设置的复杂性,为批量和近乎实时的 Oracle 本机服务摄取提供了优化的访问模式。
AI Data Platform Workbench 在 Oracle AI Data Platform Workbench Samples Git 资料档案库中提供示例代码模板,支持在记事本中使用 Spark 从多个内部源摄取数据。
表 14-1 内部来源
| 源 | 访问类型 | 集成方法 | 说明 | 外部目录支持 | 可用示例代码 |
|---|---|---|---|---|---|
| Fusion | 仅提取 | 预配置的 Spark 模板 | 通过 BICC 将 Fusion SaaS 应用中的数据提取到 AI 数据平台工作台表或卷中。 | 无 | 是 |
| REST 端点 | 只读 | JDBC 通过 Spark 记事本 | 从 API 读取数据,以摄取 JSON 等半结构化数据。 | 无 | 是 |
| MySQL HeatWave | 只读 | JDBC 通过 Spark 记事本 | 使用 JDBC 在 AI Data Platform Workbench 和 MySQL HeatWave 之间移动数据。 | 无 | 是 |
| Oracle Autonomous AI Lakehouse | 读取/写入 + 零复制 | JDBC 或外部目录 | 从 Oracle Autonomous AI Lakehouse 中摄取或注册为外部目录,以便直接查询数据而无需重复。 | 是 | 是 |
| Oracle Autonomous AI Transaction Processing | 读取/写入 + 零复制 | JDBC 或外部目录 | 从外部目录摄取或注册为外部目录,以便直接查询数据而无需重复。 | 是 | 是 |
| Oracle 数据库 | 读/写 | JDBC 或外部目录 | 支持从本地或 OCI 数据库摄取数据。 | 是 | 是 |
| Exadata | 读/写 | JDBC 或外部目录 | 访问 Exadata 系统,以使用 JDBC 进行高性能读取和写入。 | 无 | 是 |
表 14-2 Spark SQL 到、Oracle Autonomous AI Database 和 Exadata 数据类型映射
| Spark SQL 类型 | Oracle AI Database 、Oracle Autonomous AI Database 、Exadata Data Type |
|---|---|
| 字节类型 | 数字 (38,10) |
| 短类型 | 数字 (38,10) |
| 整数类型 (INT) | 数字 (38,10) |
| 长类型 | 数字 (38,10) |
| 浮点类型 | FLOAT(126) |
| 双类型 | 数字 (38,10) |
| DecimalType(p,s) | NUMBER(p,s) |
| 字符串类型 | VARCHAR2(4000 个字符) |
| 二进制类型 | BLOB |
| 布尔类型 | VARCHAR2(4000 个字符) |
| 日期类型 | DATE |
| 时间戳类型 | TIMESTAMP(6) |
| 数组类型 | VARCHAR2(4000 个字符) |
| 映射类型 | 不支持 |
| 结构类型 | VARCHAR2(4000 个字符) |
| 日历间隔类型 | 如果转换为 String/VARCHAR2,则支持 |