为零售库存分析设计数据湖

超市及百货业客户将脱销商品列为导致购物体验不佳的关键原因。除了产品可用性,消费者预计门店营业时间更短且高效。如今,零售商比以往任何时候都更加需要提供无缝的购物体验,而关键要素则是数据。

零售商希望收集大量数据并转向基于云的大数据解决方案,以便汇总和管理数据,从而获得实时库存可见性。集成在 Oracle Cloud Infrastructure (OCI) 中的数据湖可以捕获、管理并获取从销售点、库存、客户和运营系统生成的数据洞察,从而了解实时库存管理。

此参考架构引入了平台拓扑、组件概述,并为在 OCI 中实施成功的数据湖提供建议的最佳实践。

适用于零售业务的数据仓库架构方案涉及以下人员:
  • 客户与在线商家(web 或移动设备)进行交互,包括提货或送货,还是在店铺进行物理交互,无论是通过与门店员工交互,还是通过自助机器。
  • 商店经理,他们希望了解产品和产品类别如何销售,从而获得诸如库存消耗等预测性洞察,并推动自动采购等。
  • 上级管理,它通过可视化、报告和 AI 功能对高级实时分析感兴趣。
  • 数据科学家需要快速处理并灵活地轻松部署模型,而处理大数据,且数据量和数据源数量不断增加。
  • 低代码开发人员可处理现有和新数据驱动的应用,专注于简单性和更短的时间来管理安全性和运营。

体系结构

零售业务的主要复杂性之一是系统和数据模型与类型的多样性,以及不断增长的数据量。这种挑战需要简化和整合,而 OCI 数据湖中心架构有助于实现简化。

下图介绍了概念型零售业务湖屋参考架构。

后面是 retail-lakehouse-arch.png 的说明
插图 retail-lakehouse-arch.png 的说明

retail-lakehouse-arch.zip

Autonomous Data Warehouse (ADW) 是 OCI 数据湖中心架构的核心部分之一。它自动执行数据仓库的预配、配置、保护、优化、扩展和备份。它包括用于自助数据加载、数据转换、业务模型、自动洞察和内置的融合数据库功能的工具,支持跨多种数据类型和机器学习分析进行简单查询。在 ADW 上进行机器学习的好处是可以在数据所在位置使用算法来实现卓越的性能。ADW 与 OCI 对象存储紧密集成,此存储充当数据湖,可为非结构化数据提供无限且成本低的存储。

通过 Oracle Spatial 和图形提供必要的位置支持,数据科学和机器学习计划可以产生结果,例如基于季节的智能销售预测、营销活动的发生、客户群体(例如年龄组)和位置的特征。此类计划可由 ADW 的 OML 笔记本(基于 Apache Zeppelin)提供支持,并且可以使用数据科学 (JupyterLab/Python-centric) 访问 OAC;Oracle APEX 将其视为低代码定制应用的黄金标准。

客户通过各种渠道与商家交互,如上图所示,通常依赖量身定制的应用程序。Oracle Container Engine for Kubernetes 是一个强大的平台,可以提供对微服务和应用的可扩展性和额外控制。

数字助手是现代企业 AI 使用示例。在此用例中,AI 驱动的数字助手基于湖中数据,用于为应用和售货亭提供可付诸行动的建议的会话接口。

OCI 语言是此情景中高度相关的 AI 服务之一,可帮助企业改善客户体验,同时减少分析文本数据的时间和精力。服务有多个用例,包括:
  • 营销:分析社交媒体、评论和新闻,了解客户和行业专家对您的产品有什么评价。了解他们喜欢和不喜欢什么,想要什么新功能,以及您将如何与竞争对手进行比较。
  • 客户支持:按产品和部门对支持票进行分类,以便更快地将票券提供给相应的团队。通过情感分析来确定紧急痛点并优先处理门票。
  • 人力资源:通过使用实体识别来识别关键技能和教育水平,自动执行简历筛选。使用情感分析和实体识别对员工反馈进行分类,以确定员工中最常见的痛点和最合适的下一步骤。
灵活的湖中心架构支持基于 Oracle 数据科学和 AI 服务构建多个场景,将 Autonomous Data Warehouse 和数据湖功能整合到其他 OCI 服务中。此外,此体系结构还使用数据目录和 Oracle Analytics Cloud 等服务。此湖中心架构具有多种用途,包括将重要数据存储在安全可靠的快速检索存储中,作为机器学习模块的源泉,并为内部和外部使用提供高级报告功能。

借助数据湖中心,您可以利用来自任何位置的数据、即时可用的规范化数据、在 Exadata 扩展中运行嵌入式 AI/ML、随时自动扩展 / 收缩 (ADW) 并利用高级安全控制来显著降低风险。

在上面的说明中,我们可以找到以下集成:
  • Oracle ERP、CRM、POS 和外部平台可在 Oracle GoldenGate 和 Oracle Data Integration 的帮助下,实时或通过批处理向数据湖中心发送数据和事件。
  • Oracle Integration Cloud 在此示例中,扮演了将数据从数据湖中心发送到 Oracle Procurement 的附加角色,通过该角色可以向供应商通知自动下达的采购订单。
  • ADW 使用查询加速器快速无缝地查询对象存储数据湖。
  • 可扩展的 API 网关将数据大规模公开到应用
  • Oracle Analytics Cloud 和 Oracle 数据科学无缝集成了数据湖中心的服务。
此体系结构包含以下 OCI 组件:
  • Autonomous Data Warehouse

    完全托管的 Oracle 和自动缩放自治数据库,包括 Oracle Machine Learning。数据科学家可以使用数据库内 Oracle Machine Learning 功能以及相关的记事本界面构建、评估、评分和部署机器学习模型。

  • 对象存储

    OCI 对象存储是互联网规模的高性能存储平台,可提供经济高效的数据持久性。对象存储可以存储任意内容类型的非结构化数据,这些数据包括分析数据。您可以安全可靠地存储数据或者直接从互联网或云平台检索数据。利用多个管理接口,您可以轻松地启动小规模且无缝扩展,而不会导致性能或服务可靠性降低。

    对象存储还可以用作数据仓库的冷存储层,方法是存储很少使用的数据,然后通过在 Oracle Autonomous Data Warehouse 中使用混合表将其与最新数据无缝联接。

  • 数据目录

    OCI 数据目录是适用于企业数据的完全托管的自助数据发现和治理解决方案。数据目录提供了一个协作式环境来管理技术、业务和运营元数据。

  • Oracle Analytics Cloud

    Oracle Analytics Cloud 是一项可扩展、安全的公有云服务,它为业务分析师提供基于 AI 的现代自助分析功能,以支持数据准备、可视化、企业报告、增强分析以及自然语言处理和生成。借助 Oracle Analytics Cloud,您还可以获得灵活的服务管理功能,包括快速设置、轻松扩展和打补丁以及自动化生命周期管理。

    Oracle Analytics Cloud 与 Oracle Machine Learning 集成。此集成允许分析人员列出可用的数据库内模型,并在 Oracle Analytics Cloud 分析和仪表盘中使用这些模型。OAC 数据可视化让用户可以在可视化数据时应用预构建的机器学习模型或自己的训练模型。

  • 数据科学 100Matched

    OCI 数据科学是一个完全托管的无服务器平台,它支持数据科学团队使用 OCI 构建、训练和管理机器学习 (ML) 模型。它可以轻松地与其他 OCI 服务(例如 Autonomous Data Warehouse、对象存储)集成,等等。您可以构建和评估高质量的机器学习模型,通过让企业可信的数据快速工作来提高业务灵活性,并通过易于部署的机器学习模型来支持数据驱动的业务目标。

    数据科学与 OCI 堆栈的其余部分集成,包括函数、数据流、Autonomous Data Warehouse 和对象存储。Oracle 加速数据科学 (ADS) 软件开发工具包 (SDK) 是一个 Python 库,包含在 OCI 数据科学服务中,该库具有许多自动或简化数据科学工作流步骤的功能和对象,包括连接到数据、浏览和可视化数据、使用 AutoML 培训模型、评估模型以及说明模型。ADS 还提供了访问数据科学服务模型目录和其他 OCI 服务(包括对象存储)的简单界面。

  • Oracle Data Integration

    使用 OCI 数据集成在系统之间实现最佳数据流。它支持声明性、无代码或低代码 ETL 以及数据管道开发。

  • GoldenGate

    Oracle Cloud Infrastructure GoldenGate 是一项托管服务,它提供了一个实时数据网格平台,该平台使用复制来保持数据的高可用性,并支持实时分析。客户可以设计、执行和监视其数据复制和流数据处理解决方案,而无需分配或管理计算环境。

  • API 网关

    通过 API 网关服务,您可以发布具有可通过网络访问的专用端点的 API,并且可以在需要时公开到公共互联网。端点支持 API 验证、请求和响应转换、CORS、验证和授权以及请求限制。

  • 虚拟云网络

    OCI 中的第一步是为云资源设置虚拟云网络 (VCN)。VCN 是在 OCI 区域中设置的软件定义网络。VCN 可以划分到子网中,子网可以特定于区域或可用性域。特定于区域的子网和特定于可用性域的子网可以在同一 VCN 中共存。子网可以是公共的,也可以是专用的。

  • Container Engine for Kubernetes

    OCI Container Engine for Kubernetes 是一个完全托管、可扩展、高度可用的服务,可用于将容器化应用部署到云中。您可以指定应用所需的计算资源,Container Engine for Kubernetes 将它们预配到现有租户中的 Oracle Cloud Infrastructure。Container Engine for Kubernetes 使用 Kubernetes 在主机集群之间自动部署、扩展和管理容器化应用。

  • 注册表

    OCI 注册表是 Oracle 管理的注册表,可帮助您简化从开发到生产的工作流。通过注册,您可以轻松存储、共享和管理开发对象,例如 Docker 映像。Oracle Cloud Infrastructure 的高可用性和可扩展架构可确保您能够可靠地部署和管理应用。

建议

将以下建议作为设计 OCI 的数据湖中心的起点。 您的要求可能与此处介绍的体系结构有所不同。
  • VCN

    创建 VCN 时,请根据您计划附加到 VCN 中的子网的资源数量确定所需的 CIDR 块数和每个块的大小。使用标准专用 IP 地址空间内的 CIDR 块。

    选择与要设置专用连接的任何其他网络(在 Oracle Cloud Infrastructure、内部部署数据中心或其他云提供商中)不重叠的 CIDR 块。

    创建 VCN 后,可以更改、添加和删除其 CIDR 块。

    设计子网时,请考虑您的流量和安全性要求。将特定层或角色中的所有资源连接到可充当安全边界的同一子网。

  • 安全性

    使用策略限制可以访问您公司拥有的 OCI 资源的人员及其访问方式。

    使用 Oracle Cloud Guard 可主动监视和维护 OCI 中的资源安全性。Cloud Guard 使用检测器配方,您可以定义这些配方来检查资源是否存在安全漏洞,并监视操作员和用户是否有风险活动。检测到任何错误配置或不安全活动时,Cloud Guard 会根据可以定义的响应方配方建议采取纠正措施并帮助执行操作。对于需要最大安全性的资源,Oracle 建议您使用安全区域。安全区域是与基于优秀实践的 Oracle 定义的安全策略配方关联的区间。例如,安全区域中的资源不能从公共互联网访问,必须使用客户管理的密钥进行加密。在安全区域中创建和更新资源时,OCI 将根据安全区域配方中的策略验证操作,并拒绝违反任何策略的操作。

  • Autonomous Data Warehouse

    对象存储具有可靠、经济高效的数据持久性,可快速访问任意内容类型的大量结构化和非结构化数据,包括数据库数据、分析数据、图像、视频等。我们建议使用标准存储从外部源提取数据,并将其用于进一步处理,因为它可以快速且频繁地访问。您可以构建生命周期策略,以便在不再频繁需要数据时将数据从标准存储移至冷存储。

  • 数据目录

    数据目录要全面地查看平台上存储和流动的数据,不仅要考虑支持数据持久性层的数据存储,还要考虑源数据存储。通过将此收集的技术元数据映射到业务词汇表并使用自定义属性进行扩充,您可以映射业务概念并记录和管理安全性和访问定义。

    为了便于创建虚拟化 Oracle Cloud Infrastructure Object Storage 上存储数据的 Oracle Autonomous Data Warehouse 外部表,请利用 Oracle Cloud Infrastructure 数据目录以前收集的元数据。这简化了外部表的创建,增强了数据存储中元数据的一致性,减少了出现人为错误的可能性。

浏览更多

了解有关使用数据湖中心设计保留库存分析解决方案的更多信息。

查看以下其他资源: