数据平台 - 适用于业务部门 (LOB) 的部门数据仓库

使用 Oracle Autonomous Data WarehouseOracle Analytics CloudOracle E-Business Suite 、电子表格、第三方和其他来源的数据加载并优化到集中式数据仓库中,以便部门可以分析数据并获得具体可行的洞察。

此参考体系结构将技术解决方案定位在总体业务环境中:



业务部门通常无法及时或高效地访问数据和信息。分析师手动收集数据,单独处理数据,然后通过电子邮件或文件服务器共享文件副本。数据不集中,因此难以确保数据的准确性和安全性。分析可能需要很长时间,结果不容易重复。

部门数据仓库是一种简单的数据仓库形式,侧重于单个主题或职能领域(例如销售、营销或财务),通常由组织中的一个部门构建和控制。鉴于其单一主题,部门级数据仓库通常仅从几个来源提取数据。这些来源可能包括内部系统、中央数据仓库或外部数据。

监管的企业和部门数据仓库可以向业务用户提供丰富的信息,更有效地提供组织的关键绩效指标,而无需大量依赖 IT 资源和可用性。

体系结构

此体系结构使用 Oracle Autonomous Data Warehouse 将多个财务系统、电子表格和其他数据源中的数据加载和优化到集中的数据仓库,然后使用 Oracle Analytics Cloud 分析数据以提供可操作的洞察。

此体系结构支持多个用例。最直接的路径提供了一种使用 Oracle Autonomous Data Warehouse (ADW) 中嵌入的工具来获取、转换数据并将其加载到数据仓库的简单方法。其他路径支持使用数据湖的方案或具有更复杂的提取、转换和加载 (ETL) 要求的方案。


下面是数据平台 ebs.png 的说明
插图数据平台的说明 -ebs.png

数据平台 -ebs-oracle.zip

该体系结构侧重于以下逻辑分部:

  • 摄取、转换、连接

    摄取并细化要在体系结构的每个数据层中使用的数据。

  • 持久、轮廓、创建

    便于访问和导航数据以显示当前业务视图。对于关系技术,数据可以采用简单的关系、纵向、维或 OLAP 形式逻辑或物理结构。对于非关系数据,此层包含一个或多个数据池(从分析流程输出或针对特定分析任务优化的数据)。

  • 分析、学习、预测

    抽象使用者数据的逻辑业务视图。这种抽象有助于对发展、迁移到目标架构以及从多个联合来源提供单个报告层采取敏捷的方法。

下图显示了在 Oracle Cloud Infrastructure 上提供的具有基本安全性的体系结构与服务的映射。



oci-adb-oac-arch-public-oracle.zip

该体系结构具有以下组件:

  • Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse 是一种自主驱动、自我保护和自我修复的数据库服务,针对数据仓库工作负载进行了优化。您无需配置或管理任何硬件,或安装任何软件。Oracle Cloud Infrastructure 处理创建数据库以及备份、打补丁、升级和优化数据库。

  • 分析

    Oracle Analytics Cloud 是一种可扩展和安全的公共云服务,它提供了一整套功能,用于为您、工作组和企业浏览和执行协作分析。

    借助 Oracle Analytics Cloud,您还可以获得灵活的服务管理功能,包括快速设置、轻松扩展和打补丁以及自动化生命周期管理。

  • 数据集成

    Oracle Autonomous Data Warehouse 包含用于获取、加载和转换许多部门方案的数据的工具。

    对于高级用例,您可以使用 Oracle Cloud Infrastructure 数据集成,这是一个完全托管的、无服务器的本机云服务,可帮助您执行常见的提取、加载和转换 (ETL) 任务,例如从不同源提取数据、清理、转换和重构该数据,然后有效地将其加载到 Oracle Cloud Infrastructure 上的目标数据源。

该体系结构还包括以下组件:
  • 区域

    Oracle Cloud Infrastructure 区域是一个局部地理区域,包含一个或多个称为可用性域的数据中心。区域独立于其他区域,广阔的距离可以将其分开(跨国家甚至大陆)。

  • 区间

    区间是 Oracle Cloud Infrastructure 租户中的跨区域逻辑分区。使用区间在 Oracle Cloud 中组织资源、控制对资源的访问以及设置使用限额。要控制对给定区间中资源的访问,您可以定义策略来指定哪些人可以访问资源以及他们可以执行的操作。

  • 身份和访问管理 (IAM)

    Oracle Cloud Infrastructure Identity and Access Management (IAM) 是 Oracle Cloud Infrastructure (OCI) 和 Oracle Cloud Applications 的访问控制层。通过 IAM API 和用户界面,您可以管理身份域和身份域中的资源。每个 OCI IAM 身份域代表一个独立的身份和访问管理解决方案或不同的用户群体。

  • 策略

    Oracle Cloud Infrastructure Identity and Access Management 策略指定谁可以访问哪些资源以及如何访问。在组和区间级别授予访问权限,这意味着您可以编写策略来向组授予特定区间或租户中特定类型的访问权限。

  • 可用性域

    可用性域是区域中的独立独立数据中心。每个可用性域中的物理资源与提供容错能力的其他可用性域中的资源隔离。可用性域不共享基础设施(例如电源或冷却设备)或内部可用性域网络。因此,一个可用性域出现故障不会影响区域中的其他可用性域。

  • 虚拟云网络 (VCN) 和子网

    VCN 是您在 Oracle Cloud Infrastructure 区域中设置的可定制软件定义网络。与传统数据中心网络一样,VCN 允许您完全控制您的网络环境。一个 VCN 可以具有多个不重叠的 CIDR 块,您可以在创建 VCN 后对其进行更改。您可以将 VCN 细分为多个子网,这些子网可以限定到区域或可用性域。每个子网包含一系列不与 VCN 中的其他子网重叠的连续地址。创建后可以更改子网的大小。子网可以是公共子网,也可以是专用子网。

  • 安全列表

    对于每个子网,您可以创建安全规则来指定必须允许进出子网的流量源、目标和类型。

  • 路由表

    虚拟路由表包含将流量从子网路由到 VCN 外部的目标(通常通过网关)的规则。

  • Internet 网关

    互联网网关允许 VCN 中的公共子网与公共互联网之间的通信。

  • 站点到站点 VPN

    站点到站点 VPN 可以在内部部署网络与 Oracle Cloud Infrastructure 中的 VCN 之间建立 IPSec VPN 连接。IPSec 协议套件在将数据包从源传输到目标之前加密 IP 通信,并在到达时解密通信。

  • 动态路由网关 (DRG)

    DRG 是虚拟路由器,用于为同一区域中的 VCN 之间、VCN 与区域外的网络(例如另一个 Oracle Cloud Infrastructure 区域中的 VCN、内部部署网络或其他云提供商中的网络)的专用网络流量提供路径。

  • 网络地址转换 (NAT) 网关

    通过 NAT 网关,VCN 中的专用资源可以访问互联网上的主机,而不向传入的互联网连接公开这些资源。

  • 服务网关

    通过服务网关,可以从 VCN 访问其他服务,例如 Oracle Cloud Infrastructure Object Storage 。从 VCN 到 Oracle 服务的流量会通过 Oracle 网络网状结构网络传输,并且从不通过互联网传输。

  • 网络安全组 (NSG)

    网络安全组 (NSG) 用作云资源的虚拟防火墙。使用 Oracle Cloud Infrastructure 的零信任安全模型,所有流量将被拒绝,您可以控制 VCN 中的网络流量。NSG 由一组入站和出站安全规则组成,这些规则仅应用于单个 VCN 中一组指定的 VNIC。

  • 对象存储

    通过对象存储,可以快速访问任意内容类型的大量结构化和非结构化数据,包括数据库备份、分析数据以及丰富的内容(例如图像和视频)。您可以安全可靠地存储数据,然后直接从互联网或云平台检索数据。您可以无缝扩展存储,而不会降低性能或服务可靠性。将标准存储用于“热”存储,您需要快速、立即和频繁地访问这些存储。将归档存储用于保留很长时间、很少或很少访问的“冷”存储。

建议

使用以下建议案作为起点,将多个平面文件源中的数据加载和优化到集中的数据仓库位置进行分析。

您的要求可能不同于此处介绍的体系结构。

  • Data Refinery

    Autonomous Database Tools 嵌入 Oracle Autonomous Data Warehouse ,支持加载、转换、编目、获取洞察,甚至能够以简单直观的方式开发业务模型。可以在“Database Actions(数据库操作)”菜单下找到这些工具。

  • Oracle Analytics Cloud

    Oracle Analytics Cloud 连接到 Oracle Autonomous Data Warehouse 之前,请数据库管理员将 Oracle Analytics Cloud 实例的 IP 地址(或地址范围)添加到允许的地址列表中。数据库管理员必须添加安全规则,以允许从 Oracle Analytics Cloud 到数据库进行 TCP/IP 通信。

考虑事项

将多个平面文件源中的数据加载和优化到集中的数据仓库位置进行分析时,请考虑以下实施选项。

指导 Data Refinery 数据持久性平台 访问和解释
推荐 Oracle Autonomous Database 工具(数据库操作) Oracle Autonomous Data Warehouse Oracle Analytics Cloud
其他选项 Oracle Cloud Infrastructure 数据集成 Oracle Exadata Database Service  
原理 Oracle Autonomous Data Warehouse 是一个简单易用、完全自治的数据库,提供对各种数据源(例如 CSV 文件和关系数据源)的直接访问和摄取。 Oracle Autonomous Data Warehouse 是一个易于使用、完全自治的数据库,可弹性扩展、提供快速的查询性能,无需数据库管理。它还可以通过外部表直接访问对象存储中的数据。 Oracle Analytics Cloud 是完全托管且与精选数据层 (Oracle Autonomous Data Warehouse) 紧密集成的平台。

部署

GitHub 中提供了此引用体系结构的 Terraform 代码。单击一次即可将代码拉入 Oracle Cloud Infrastructure Resource Manager,创建堆栈并部署该堆栈。或者,您可以使用 Terraform 命令行界面 (command line interface, CLI) 将代码从 GitHub 下载到计算机,定制代码并部署体系结构。

  • 使用 Oracle Cloud Infrastructure Resource Manager 进行部署:
    1. 单击 部署到 Oracle Cloud

      如果您尚未登录,请输入租户和用户身份证明。

    2. 查看并接受条款和条件。
    3. 选择要部署堆栈的区域。
    4. 按照屏幕上的提示和说明创建堆栈。
    5. 创建堆栈后,单击 Terraform 操作,然后选择规划
    6. 等待作业完成,然后复查计划。

      要进行任何更改,请返回堆栈详细信息页,单击编辑堆栈,然后进行所需的更改。然后,再次运行计划操作。

    7. 如果不需要进一步更改,请返回堆栈详细信息页,单击 Terraform 操作,然后选择应用
  • 在 GitHub 中使用 Terraform 代码进行部署:
    1. 转到 GitHub
    2. 将资料档案库克隆或下载到本地计算机。
    3. 按照 README 文档中的说明操作。

更改日志

此日志仅列出重大更改: