实施多云数据湖集成架构
此参考架构展示了组织如何将多个来源的数据集成到 Oracle Cloud Infrastructure (OCI) 数据湖中。
此参考架构是大规模企业组织的用例,其业务战略包括收购新的组织作为其长期增长计划的一部分。该组织正在使用分析平台构建数据湖,成本分析是范围内的模块之一。
该组织已为存储发票数据的财务实施了 Oracle Fusion Cloud Applications 。
该组织最近收购了一个新组织,并正在使用 Amazon Web Services (AWS) 来托管发票处理应用程序。需要将发票数据从 AWS 传送到实施数据湖的 Oracle Cloud Infrastructure (OCI),并在加载到数据湖之前使用成本中心/供应商信息扩充大量发票数据。成本中心数据源自 Oracle Fusion Cloud Applications ,供应商数据源自内部部署 MySQL 数据库。
体系结构
此参考架构介绍了如何将来自不同云提供商和内部部署数据源的数据引入 OCI 中托管的数据池。此架构包括批量集成、数据集成、实时集成和基于事件的集成方案。
下图说明了此参考体系结构的数据流。
图 oci_multicloud_datalake_flow.png 的说明
oci-multicloud-datalake-flow-oracle.zip
- 从以下项连接和提取数据:
- 通过原生适配器提供 AWS 服务和 Azure 服务。
- 通过专用连接 (FastConnect/VPN) 在内部部署数据源。
- 通过 BICC 连接器运行 Oracle SaaS 应用。
- 对提取的数据执行转换。
- 通过适配器(ADB/对象存储)将数据加载到 OCI 数据湖中。
- 通过本地适配器从各种源系统(例如 Oracle SaaS 应用/IOT/流处理服务/社交媒体/内部部署系统/其他云提供商)接收实时数据。
- 执行转换/编排逻辑。
- 通过适配器(ADB/对象存储)将数据加载到 OCI 数据湖中。
下图说明了此参考体系结构。
oci-multicloud-datalake-oracle.zip
- 通过捕获多个异构源系统中的数据并将其集成到单个持久性存储中来整合数据。这通常使用提取、转换和加载 (ETL) 例程完成。
- 从托管在专用/公共网络(客户内部部署、第三方云网络(Azure VNet、AWS VPC))中托管的源系统(HDFS、Oracle 自治数据库、MySQL、Oracle Database、Azure Synapse、AWS Redshift、对象存储、S3、Microsoft SQL、PostgreSQL 等)中提取大量数据,然后加载到 OCI 数据湖中。
- 通过 BICC/BI Publisher 连接器从 Oracle Fusion Cloud Applications 提取数据,然后加载到 OCI 数据湖中。
- 使用编排模式从多个源中提取大量数据。
- 实施调度(每日、每月、每周、每月、cron 表达式等)ETL 作业。
Oracle Integration Cloud (OIC) 用于以下方案:
- 实时接收来自 Oracle Cloud 应用、CRM、电子商务和内部部署/第三方云应用的数据,然后加载到数据湖中。
- 将数据从数据源生成的文件(较少卷)加载到数据池中。
- 向 Webhook 平台公开 Oracle Integration 云 REST API,实时接收数据并加载到数据湖中。
- 某些 IOT 平台(Geotab、CheckSafe 等)具有 Webhook 拍卖功能,并且针对新事件将数据发送到任何 https API,以便它们可以直接连接到 API 网关。
- 从社交媒体平台(Facebook、LinkedIn、Twitter、Slack 等)接收数据并加载到 OCI 数据湖中。
- 使用可以从网络中访问的专用端点发布 OIC API 和应用 API,或者根据需要向公共互联网公开。端点支持 API 验证、请求和响应转换、CORS、验证和授权以及请求限制。
- 解耦 API 开发中的安全和业务逻辑。
- 通过安全控制将数据提供给下游数据湖,向受限来源公开 API。
该体系结构具有以下组成部分:
- 区域
Oracle Cloud Infrastructure 区域是一个局部地理区域,包含一个或多个称为可用性域的数据中心。区域独立于其他区域,广阔的距离可以将其分开(跨国家甚至大陆)。
- 可用性域
可用性域是区域中的独立独立数据中心。每个可用性域中的物理资源与提供容错能力的其他可用性域中的资源隔离。可用性域不共享基础设施(例如电源或冷却设备)或内部可用性域网络。因此,一个可用性域出现故障不会影响区域中的其他可用性域。
- 虚拟云网络 (VCN) 和子网
VCN 是您在 Oracle Cloud Infrastructure 区域中设置的可定制软件定义网络。与传统数据中心网络一样,VCN 允许您完全控制您的网络环境。一个 VCN 可以具有多个不重叠的 CIDR 块,您可以在创建 VCN 后对其进行更改。您可以将 VCN 细分为多个子网,这些子网可以限定到区域或可用性域。每个子网包含一系列不与 VCN 中的其他子网重叠的连续地址。创建后可以更改子网的大小。子网可以是公共子网,也可以是专用子网。
- 集成
Oracle Integration 是一项完全托管的服务,可用于集成应用、自动执行流程、深入洞察业务流程以及创建可视化应用。
- Oracle Data Integration
Oracle Cloud Infrastructure Data Integration 是完全托管的无服务器云原生服务,用于将各种数据源中的数据提取、加载、转换、清理和重新配置为目标 Oracle Cloud Infrastructure 服务,例如 Autonomous Data Warehouse 和 Oracle Cloud Infrastructure Object Storage 。ETL(提取转换负载)利用 Spark 上的完全托管的横向扩展处理,ELT(提取负载转换)利用 Autonomous Data Warehouse 的完整 SQL 下推功能来最大程度地减少数据移动并缩短新摄取数据的价值实现时间。用户使用直观的无代码用户界面设计数据集成流程,优化集成流以生成高效的引擎和编排,自动分配和扩展执行环境。Oracle Cloud Infrastructure Data Integration 提供交互式研究和数据准备,并通过定义规则来处理模式更改来帮助数据工程师防范模式偏差。
- Oracle Business Intelligence 云连接器
Oracle BI Cloud Connector (BICC) 是从 Fusion 提取数据并将其存储在 Oracle Universal Content Management (UCM) Server 或 CSV 格式的云存储等共享资源中的有用工具。
- OIC 连接代理
通过 OIC 连接代理,您可以创建混合集成并在专用或内部部署网络中的应用程序与 Oracle Integration Cloud 之间交换消息。
- 数据湖
数据湖是一个可扩展的集中式存储库,可以存储原始数据并使企业能够将其所有数据存储在经济高效的弹性环境中。数据池提供了用于存储原始数据的灵活存储机制。
- 对象存储
通过对象存储,可以快速访问任意内容类型的大量结构化和非结构化数据,包括数据库备份、分析数据以及丰富的内容(例如图像和视频)。您可以安全可靠地存储数据,然后直接从互联网或云平台检索数据。您可以无缝扩展存储,而不会降低性能或服务可靠性。将标准存储用于“热”存储,您需要快速、立即和频繁地访问这些存储。将归档存储用于保留很长时间、很少或很少访问的“冷”存储。
- Autonomous Database
Oracle Cloud Infrastructure Autonomous Database 是一个完全托管的预配置数据库环境,可用于事务处理和数据仓库负载。您不需要配置或管理任何硬件,或安装任何软件。Oracle Cloud Infrastructure 可处理数据库创建以及备份、打补丁、升级和调优数据库。
- 分析
Oracle Analytics Cloud 是一个可扩展且安全的公有云服务,它为业务分析人员提供了现代化的 AI 驱动的自助分析功能,可用于数据准备、可视化、企业报告、增强分析以及自然语言处理和生成。借助 Oracle Analytics Cloud ,您还可以获得灵活的服务管理功能,包括快速设置、轻松扩展和打补丁以及自动化生命周期管理。
- 数据目录
Oracle Cloud Infrastructure Data Catalog 是适用于企业数据的完全托管的自助数据发现和治理解决方案。它为数据工程师、数据科学家、数据管理员和首席数据官提供单一的协作环境来管理组织的技术、业务和运营元数据。
建议
- 安全性
所有连接都通过专用网络建立,并且所有 ETL 事务处理都通过 Fastconnect 进行内部部署、Colt for AWS、Azure Interconnect for Azure 路由。还建议在源和目标上使用加密和解密。这将确保过境的安全。
考虑事项
部署此引用体系结构时,请考虑以下几点。
- 安全性使用 OCI 身份和访问管理 (Identity and Access Management,IAM) 策略可以控制谁可以访问云资源以及可以执行哪些操作。要保护数据库密码或其他密钥,请考虑使用 OCI Vault 服务。
- 将 IAM 用户和组的最小特权访问权限分配给
dis-family中的资源类型。 - 为了最大程度地减少授权用户无意删除或恶意删除导致的数据丢失,Oracle 建议将
DIS_WORKSPACE_DELETE权限分配给尽可能少的一组 IAM 用户和组。仅将DIS_WORKSPACE_DELETE权限分配给租户和区间管理员。 - 为了保护您的数据源免受任何安全漏洞的侵害,请仅向只读账户提供凭证。数据集成只需要从数据资产中提取数据的读取访问权限。
- 将 IAM 用户和组的最小特权访问权限分配给
- 成本
- 如果频繁跨云边界传输大规模数据,则数据流的方向至关重要。云提供商通常不收取数据入站费用,但所有提供商都会收取数据出站费用。云提供商的数据出站速率各不相同。将出站成本纳入多云设计注意事项至关重要。此外,移动数据时必须考虑数据驻留。
- OCI FastConnect:在所有 OCI 区域中,FastConnect 的成本是相同的。
- Microsoft Azure ExpressRoute:Microsoft Azure ExpressRoute 成本因区域而异。Azure 具有多个可用于快速路线的 SKU。Oracle 建议使用本地设置,因为它没有单独的入站或出站费用,并且从最小带宽 1 Gbps 开始。标准和高级配置提供较低的带宽,但在计量设置中产生单独的出站费用。
- 使用低成本归档存储服务可以存储很少访问但必须保留更长时间的数据。定义生命周期管理策略,以便在指定持续时间后自动将数据移动到归档存储或删除数据。
- 高可用性
每个互连线路(ExpressRoute 和 FastConnect)在同一 POP 上附带一个冗余线路,但物理路由器不同,可提供高可用性。
