在 OCI 中为生成式 AI 和 LLM 启用安全、可扩展的自助服务平台

使数据科学家、开发人员和 IT 团队能够独立构建、测试和部署高级 AI 模型,同时确保企业级治理和基础设施优化。

该解决方案提供支持生成式人工智能 (AI) 和大型语言模型 (LLM) 计划所需的核心功能,可结合 Oracle Cloud Infrastructure (OCI) 的安全访问、可扩展基础设施和企业级治理。

使用场景和支持的服务:

  • 自带大型语言模型 (BYOLLM)/代码安全验证

    第三方模型(例如,Hugging Face)部署在隔离的“操场”环境中,采用 GPU 加速,并进行自动安全验证。OCI FunctionsOracle Identity Cloud Service (IDCS) 和 OCI Identity and Access Management (IAM) 策略用于检验、访问控制和安全执行。

  • 数据科学游乐场

    数据科学操场是一个灵活且可扩展的环境,专为数据科学实验而设计。它由高级 GPU 基础设施提供支持,可与 Oracle Database 23ai 无缝集成,并针对文档管理和嵌入进行了优化的向量和对象存储,非常适合快速构建原型并高效扩展 AI 项目。

  • 多模态 AI

    OCI 通过集成文本、语音和图像输入来支持多模式模型。这些模型托管在高性能 GPU 实例上。

  • 语音转文本

    OCI Speech 是 Oracle 的语音转文本服务,可以准确地将音频转换为文本。集成到 OCI 中,支持多种语言、实时和批量转录,并提供高级功能,例如扬声器诊断、词级置信度和攻击性语言筛选。它还与其他 OCI 服务无缝连接,以实现可扩展的实时处理。

  • 检索增强生成

    OCI 通过将 Oracle Database 23ai 和 OCI Object Storage 与生成式 AI 服务集成,提供全面的检索增强生成 (RAG) 解决方案。数据将转换为向量嵌入,并存储在 Oracle Autonomous Database 中,以实现高效的语义搜索。生成的响应使用相关的最新信息进行扩充。RAG 工作流通过 OCI Connector Hub 编排,支持事件驱动的执行、自动数据摄取和实时可扩展性。

    RAG 工作流通过 OCI Connector Hub 进行编排,并支持事件驱动的执行以及与数据摄取管道的集成。

  • 向量数据库

    Oracle Database 23ai 通过 VECTOR 数据类型提供本机向量数据库功能,支持使用标准 SQL 存储嵌入和语义搜索。它支持向量索引、基于 ONNX 或外部嵌入生成以及相似性查询的精确控制。它针对 Exadata 进行了优化,无需在统一的 Oracle 环境中单独存储向量存储,从而支持 RAG、推荐和生成式 AI 等用例。

  • OCI Generative AI 代理

    这些代理由在 OCI 裸金属 GPU 基础设施上运行的 OCI Generative AI 服务或第三方模型提供支持。

  • OCI 速度

    为了确保高吞吐量和性能,裸金属实例(例如 A100、H200、B200 和 GB200)用于训练和推断大型模型,并支持快速实验和生产级负载。

体系结构

此架构展示了 Oracle Cloud Infrastructure (OCI) 如何跨开发、集成和用户交互支持端到端生成式 AI 工作流。

流 A:集成

  1. 客户应用
  2. Oracle Integration
  3. OCI 对象存储(桶)
  4. OCI 事件检测
  5. OCI StreamingOCI Connector Hub
  6. OCI 函数(逻辑执行)
  7. Oracle Process Cloud Service (按 GPU 推断)
  8. 数据层(Oracle Database 23ai 和存储桶)

流 B:用户交互

  1. 最终用户界面 (Apex)
  2. 应用程序( OCI GenAI AgentOCI SpeechOracle Digital Assistant
  3. Oracle Process Cloud Service (按 GPU 推断)
  4. 数据层(Oracle Database 23ai 和存储桶)

流程 C:开发和沙盒

  1. 外部模型源
  2. 代码安全验证
  3. 开发与测试
  4. 自动化管道到生产

下图说明了此参考体系结构。



ai-llm-workflow-architecture-oracle.zip

按功能域列出的体系结构概览

  • 开发和培训(自助工作区)

    该体系结构位于用于 LLM 操作的集中区间下:

    • 数据科学提供了用于模型开发、Jupyter 记事本和预构建机器学习框架的集成工作区。包括用于模型部署和作业执行的快速操作工具。
    • 模型部署托管用于模型测试和部署的虚拟机 (Virtual Machine,VM)。用户可以在将模型移至生产环境之前在此处验证模型。
    • Playground 是一个 GPU 加速环境(Flex VM、A10、A100、LS40),可为定制模型和第三方模型(例如拥抱面)提供隔离的高性能计算资源。它用作自带 LLM (BYOLLM) 工作流的实验区域。
  • 应用和功能层
    • OCI Speech 和语言 API 可为转录、NLU 和实体提取提供即用型服务。
    • OCI Functions 用于实时转录、NLP 和无服务器执行 AI 管道。
    • APEX 前端和监视工具提供用于用户交互、分析和治理的界面。
    • OCI GenAI AgentsDigital Assistant 可使用企业数据和集成的 LLM 实现对话式体验。
  • 加工(生产层)
    • OCI Kubernetes Engine (OKE) 支持容器化部署生产模型和推断服务。
    • OCI Generative AI 支持对 Oracle 托管或定制、微调的 LLM 进行基于 API 的访问,支持安全、可扩展的企业用例。
  • GPU 基础设施(H100 和 RDMA 支持)
    • 裸金属 GPU 实例(带有 RDMA 的 H100)支持通过高吞吐量、低延迟的通信进行多节点分布式训练和推断,非常适合大型 LLM 负载。
    • 此设置针对 Kubernetes 和 NVIDIA 多实例 GPU (Multi-Instance GPU,MIG) 技术进行了优化,支持 GPU 编排和动态资源共享,可跨团队进行部分 GPU 分配和多用户调度。
  • 数据和知识层
    • Oracle Database 23ai 支持向量和语义搜索,可作为检索增强生成 (Retrieval-Augmented Generation,RAID) 工作流的检索层。
    • OCI Object Storage 存储桶可存储非结构化数据、嵌入、文档和模型对象。
  • MLOps(生产模型管道)
    • 该架构包括一个 CI/CD 管道,用于将模型从操场环境提升到生产环境。目前, OCI DevOps 是 OCI 的原生、全托管、持续集成和连续交付 (CI/CD) 服务,可帮助企业自动部署从实验到生产的机器学习模型。
    • 使用 Git 集成构建管道。
    • 自动部署到 VM 或容器。
    • OCI Artifacts RegistryOCI FunctionsOCI API Gateway 进行原生集成。
  • 集成和安全层
    • OCI Object Storage 存储桶可作为模型、训练数据、推断输出和嵌入的中央存储。
    • OCI EventsOCI StreamingOCI Connector Hub 可跨环境实现事件驱动的编排和服务集成。
    • Oracle Identity Cloud Service 、IAM 策略、 OCI Logging 和安全列表为所有 OCI 服务提供了强大的监管、身份验证、访问控制和合规性功能。
    • Oracle Integration 是一个预构建的中间件平台,可实现本地系统与云服务之间的安全无缝集成,支持跨异构应用的实时数据同步、API 编排和流程自动化。

该体系结构包含以下组件:

  • 可用性域

    可用性域是区域中独立的数据中心。每个可用性域中的物理资源与其他可用性域中的资源隔离,从而提供容错能力。可用性域不共用基础设施(例如电源或冷却设备)或内部可用性域网络。因此,一个可用性域出现故障不会影响该区域中的其他可用性域。

  • 裸金属

    Oracle 裸金属服务器使用专用计算实例提供隔离、可见性和控制力。这些服务器支持需要大量核心、大量内存和高带宽的应用。它们可以扩展至 192 个核心、2.3 TB RAM 以及高达 1 PB 的块存储。客户可以在 Oracle 裸金属服务器上构建云环境,与其他公有云和内部部署数据中心具有很大的性能提升。

  • 区间

    区间是 OCI 租户中的跨区域逻辑分区。使用区间来组织、控制访问并为 Oracle Cloud 资源设置使用限额。在给定的区间中,您可以定义策略来控制对资源的访问和设置权限。

  • 连接器中心

    Oracle Cloud Infrastructure Connector Hub 是一个消息总线平台,用于在 OCI 上的服务之间协调数据移动。可以使用连接器将数据从源服务移动到目标服务。连接器还允许您在将数据传送到目标服务之前指定要对数据执行的任务(例如函数)。

    您可以使用 OCI Connector Hub 为安全信息和事件管理 (SIEM) 系统快速构建日志记录聚合框架。

  • 动态路由网关 (DRG)

    DRG 是一个虚拟路由器,用于为同一区域中的 VCN、VCN 与该区域之外的网络(例如另一个 OCI 区域中的 VCN、内部部署网络或其他云提供商中的网络)之间的专用网络流量提供路径。

  • FastConnect

    Oracle Cloud Infrastructure FastConnect 可在您的数据中心与 OCI 之间创建专用连接。与基于互联网的连接相比,FastConnect 提供了更高的带宽选项和更可靠、更稳定的网络体验。

  • 高性能的计算

    高性能计算专为需要集群网络和高速处理器核心来处理大规模并行工作负载的工作负载而设计。

  • Internet 网关

    互联网网关允许 VCN 中的公共子网与公共互联网之间的流量。

  • 内部部署网络

    这是您的组织使用的本地网络。

  • 区域

    OCI 区域是一个本地化的地理区域,其中包含一个或多个托管可用性域的数据中心。区域独立于其他区域,并且很远的距离可以将它们分开(跨越国家甚至大洲)。

  • 路由表

    虚拟路由表包含用于将流量从子网路由到 VCN 之外目标(通常通过网关)的规则。

  • 安全列表

    您可以为每个子网创建安全规则,以指定允许进出子网的通信的源、目标和类型。

  • 服务网关

    通过服务网关,您可以从 VCN 访问其他服务,例如 Oracle Cloud Infrastructure Object Storage 。从 VCN 到 Oracle 服务的流量将通过 Oracle 网络结构传输,不会通过互联网。

  • Tenancy

    租户是 Oracle 在您注册 OCI 时在 Oracle Cloud 中设置的安全隔离分区。您可以在租户的 OCI 上创建、组织和管理资源。租户是公司或组织的同义词。通常,公司将具有单个租户,并反映其在该租户中的组织结构。单个租户通常与单个订阅关联,而单个订阅通常只有一个租户。

  • 虚拟云技术网络 (VCN) 和子网

    VCN 是您可以在 OCI 区域中设置的可定制软件定义网络。与传统数据中心网络一样,VCN 允许您控制网络环境。一个 VCN 可以具有多个不重叠的无类域间路由 (classless inter-domain routing,CIDR) 块,在创建 VCN 后可以更改这些块。您可以将 VCN 细分为多个子网,这些子网可以限定为某个区域或某个可用性域。每个子网由一系列不与 VCN 中的其他子网重叠的连续地址组成。您可以在创建子网后更改子网的大小。子网可以是公共子网,也可以是专用子网。

  • Oracle Database 23ai

    Oracle Database 23ai 发行版专注于 AI 和开发人员的工作效率。将 AI Vector Search 添加到 Oracle 融合数据库,从而将 AI 引入您的数据。这种功能与新的统一开发范例和任务关键型功能相结合,使开发人员和数据专业人员可以轻松地使用 AI 为应用、应用开发和任务关键型工作负载提供支持。

  • 事件

    OCI 上的服务会发出事件,这些事件是描述资源更改的结构化消息。将发出事件,用于创建、读取、更新或删除 (CRUD) 操作、资源生命周期状态更改以及影响云资源的系统事件。

  • 日志记录
    Oracle Cloud Infrastructure Logging 是一项高度可扩展且完全托管的服务,支持您从云端资源访问以下类型的日志:
    • 审计日志:与 OCI Audit 生成的事件相关的日志。
    • 服务日志:各个服务(例如 OCI API GatewayOCI EventsOCI FunctionsOCI Load BalancingOCI Object Storage 和 VCN 流日志)发布的日志。
    • 定制日志:包含来自定制应用程序、其他云提供商或内部部署环境的诊断信息的日志。
  • 监视

    Oracle Cloud Infrastructure Monitoring 主动和被动地监视您的云资源,并使用预警在指标满足指定触发器时通知您。

  • OCI 注册表

    Oracle Cloud Infrastructure Registry 是一项由 Oracle 管理的服务,可帮助您简化从开发到生产的工作流。通过注册表,您可以轻松存储、共享和管理开发对象,例如 Docker 映像。

  • 语音

    Oracle Cloud Infrastructure Speech 利用口语的强大功能,您可以轻松地将包含人工语音的媒体文件转换为高度准确的文本转录。您可以使用控制台、REST API、CLI 和 SDK 进行访问。

  • 工作流

    Oracle Cloud Infrastructure Workflow 是一个无服务器工作流引擎,它为开发人员和架构师提供了图形流设计器。它可加快 OCI 服务(例如 OCI Functions 或 AI/ML)的创建、运行和编排。

  • APEX 服务

    Oracle APEX Application Development 是一个低代码开发平台,支持您构建可扩展、功能丰富、安全的企业应用,并将其部署在 Oracle Database 的任何位置。您无需成为众多技术的专家,即可提供复杂的解决方案。APEX 服务包括用户界面主题、导航控制、表单处理程序和灵活报告等内置功能,可加快应用程序开发进程。

  • API 门户

    借助 Oracle Cloud Infrastructure API Gateway ,您可以发布具有专用端点的 API,这些端点可从您的网络访问,并且您可以根据需要向公共互联网公开。这些端点支持 API 验证、请求和响应转换、CORS、验证和授权以及请求限制。

  • OCI 块存储卷

    借助 Oracle Cloud Infrastructure Block Volumes ,您可以创建、附加、连接和移动存储卷,并更改卷性能,以满足存储、性能和应用需求。连接卷并将其连接到实例后,您可以像常规硬盘驱动器那样使用该卷。您还可以断开卷的连接并将其附加到另一个实例,而不会丢失数据。

  • 计算服务

    借助 Oracle Cloud Infrastructure Compute ,您可以在云中预配和管理计算主机。您可以启动具有配置的计算实例,以满足您在 CPU、内存、网络带宽和存储方面的资源需求。创建计算实例后,您可以安全地访问它,重新启动它,附加和分离卷,并在不再需要时终止它。

  • 数据科学

    Oracle Cloud Infrastructure Data Science 是一个完全托管的无服务器平台,数据科学团队可以使用该平台在 OCI 上构建、训练和管理机器学习 (ML) 模型。它可以与其他 OCI 服务(例如 Oracle Autonomous Data WarehouseOracle Cloud Infrastructure Object Storage 等)轻松集成。您可以构建和评估高质量的机器学习模型,通过使企业可信的数据快速工作来提高业务灵活性,并且可以通过更轻松地部署机器学习模型来支持数据驱动的业务目标。借助数据科学,数据科学家和机器学习工程师可以免费使用 Anaconda Repository 中的程序包。

    借助数据科学作业功能,数据科学家可以在完全托管的基础设施上定义和运行可重复的机器学习任务。

    借助数据科学模型部署功能,数据科学家可以将训练的模型部署为完全托管的 HTTP 端点,从而实时提供预测,将智能注入到流程和应用中,并允许企业在发生相关事件时对事件做出响应。

  • 开发运营

    Oracle Cloud Infrastructure DevOps (开发人员运营)是一个完整的连续集成/连续交付 (CI/CD) 平台,可帮助开发人员简化和自动化软件开发生命周期。借助 OCI DevOps ,开发人员和运营商可以协作开发、构建、测试和部署软件。开发人员和操作员可通过构建、测试和部署阶段的源提交历史记录了解整个开发生命周期。

  • 函数

    Oracle Cloud Infrastructure Functions 是一个完全托管、多租户、高度可扩展、按需提供的函数即服务 (FaaS) 平台。它由 Fn Project 开源引擎提供支持。使用 OCI Functions ,您可以部署代码,直接调用代码或触发代码以响应事件。OCI Functions 使用 Oracle Cloud Infrastructure Registry 中托管的 Docker 容器。

  • 身份和访问管理

    Oracle Cloud Infrastructure Identity and Access Management (IAM) 为 OCI 和 Oracle Cloud Applications 提供用户访问控制。借助 IAM API 和用户界面,您可以管理身份域及其中的资源。每个 OCI IAM 身份域都代表一个独立的身份和访问管理解决方案或不同的用户群体。

  • 集成

    Oracle Integration 是一个完全托管的预配置环境,允许您集成云和内部部署应用、自动执行业务流程以及开发可视化应用。它使用符合 SFTP 的文件服务器来存储和检索文件,并允许您使用数百个适配器和配方组合与 Oracle 和第三方应用程序连接,以与企业对企业贸易合作伙伴交换文档。

  • Kubernetes 集群

    Kubernetes 集群是一组运行容器化应用的计算机。Kubernetes 提供了一个可移植、可扩展的开源平台,用于管理这些节点中的容器化工作负载和服务。Kubernetes 集群由 worker 节点和控制层节点组成。

  • Kubernetes 控制层

    Kubernetes 控制层管理 Kubernetes 集群中 worker 节点和 pod 的资源。控制层组件检测和响应事件、执行调度和移动群集资源。

    以下是控制平面组件:
    • kube-apiserver:运行 Kubernetes API 服务器。
    • etcd:所有集群数据的分布式键值存储。
    • kube-scheduler:确定将在哪个节点上运行新的未分配 pod。
    • kube-controller-manager:运行控制器进程。
    • cloud-controller-manager:将集群与特定于云的 API 链接。
  • OCI Kubernetes 引擎

    Oracle Cloud Infrastructure Kubernetes EngineOCI Kubernetes EngineOKE )是一项完全托管、可扩展且高度可用的服务,可用于将容器化应用部署到云端。您可以指定应用所需的计算资源, OKE 可在现有租户的 OCI 上预配这些资源。OKE 使用 Kubernetes 跨主机集群自动部署、扩展和管理容器化应用。

  • Kubernetes worker 节点

    Kubernetes Worker 节点是在 Kubernetes 集群中运行容器化应用的 Worker 计算机。每个集群至少有一个 worker 节点。

  • 对象存储

    OCI Object Storage 可访问任意内容类型的大量结构化和非结构化数据,包括数据库备份、分析数据以及图像和视频等丰富内容。您可以直接从互联网或云平台安全地存储数据。您可以扩展存储,而不会出现性能或服务可靠性下降的情况。

    将标准存储用于您需要快速、立即和频繁访问的“热”存储。将归档存储用于长期保留且很少或很少访问的“冷”存储。

  • Oracle Cloud Infrastructure Streaming 提供了一个完全托管、可扩展且持久性的存储解决方案,可以摄取连续的大量数据流以供您实时访问和处理。您可以使用 OCI Streaming 摄取大量数据,例如应用日志、运营遥测、Web 点击流量数据;或者在发布 - 订阅信息传递模型中连续生成和处理数据的其它用例。

  • 审计

    Oracle Cloud Infrastructure Audit 服务会自动将对所有支持的 OCI 公共应用编程接口 (API) 端点的调用记录为日志事件。所有 OCI 服务都支持 Oracle Cloud Infrastructure Audit 日志记录。

  • 生成式 AI

    Oracle Cloud Infrastructure Generative AI 是一个完全托管的 OCI 服务,提供一组先进的、可定制的大语言模型 (LLM),涵盖文本生成、汇总、语义搜索等各种用例。使用操场来试用现成可用的预训练模型,或者基于您自己的数据在专用 AI 集群上创建和托管您自己的微调定制模型。

  • 负载平衡器

    Oracle Cloud Infrastructure Load Balancing 提供从单个入口点到多个服务器的自动流量分配。

  • 网络地址翻译 (Network address translation,NAT) 网关

    NAT 网关使 VCN 中的专用资源能够访问互联网上的主机,同时不会向传入的互联网连接公开这些资源。

  • 生成式 AI

    Oracle Cloud Infrastructure Generative AI 是一个完全托管的 OCI 服务,提供一组先进的、可定制的大语言模型 (LLM),涵盖文本生成、汇总、语义搜索等各种用例。使用操场来试用现成可用的预训练模型,或者基于您自己的数据在专用 AI 集群上创建和托管您自己的微调定制模型。

  • 数字助手

    Oracle Digital Assistant 是一个平台,可用于为用户创建和部署数字助手。借助 Oracle Digital Assistant ,您可以通过文本、聊天和语音界面为业务应用创建 AI 驱动的界面(或聊天机器人)。每个数字助手都具有一个或多个专业技能的集合,以帮助用户完成自然语言对话中的各种任务。例如,个人数字助手可能具有专注于特定类型任务(例如跟踪库存、提交工时记录卡和创建费用报告)的技能。

  • 策略

    Oracle Cloud Infrastructure Identity and Access Management 策略指定谁可以访问哪些资源以及如何访问。在组和区间级别授予访问权限,这意味着您可以编写策略来为组授予特定区间或租户中特定类型的访问权限。

  • 安全区

    安全区域通过对整个区间实施策略(例如加密数据和阻止公共访问网络)来实施关键 Oracle 安全优秀实践。安全区域与同名的区间关联,并包括应用于区间及其子区间的安全区域策略(配方)。无法将标准区间添加到安全区域区间或将其移动到安全区域区间。

推荐

确保基于 OCI 的企业 AI 平台的成功、可扩展性和可持续性,重点关注自助式 LLM 开发、MLOps、GPU 优化和企业级集成。

  • 平台和战略治理
    • 为 AI 创建一个专用的跨职能卓越中心,以治理:
      • LLM 培训和部署的最佳实践
      • 资源分配和配额管理
      • 安全、合规和道德 AI 使用
    • 在 OCI 中启用配额和标记策略,确保跨部门和团队的可跟踪性和成本问责,从而避免不受控制的资源无序增长。
  • GPU 资源效率和调度
    • 结合使用 NVIDIA MIG 来优化 GPU 使用。为每个作业或用户分配小数 GPU,以提高利用率并降低成本。
    • GPU 分解解决方案:
      • 多实例 GPU (MIG) 是 NVIDIA A100 和 H100 GPU 上提供的功能,可用于将单个物理 GPU 分区到多个硬件隔离实例(或分片),即 GPU 实例。

        每个实例都充当一个独立的 GPU,并具有自己的:

        • 专用内存
        • 计算核心
        • 高速缓存和内存带宽

        这允许团队在具有可预测性能和硬件级隔离的单个 GPU 上同时运行多个 AI 工作负载。

        OCI Kubernetes 引擎 (OKE) 配置为支持 MIG 感知调度,允许:

        • 每个 pod 请求特定的 MIG 实例(例如,A100 的 1/7)。
        • Kubernetes 调度程序可根据请求智能地分配可用的 GPU 分片。
        • 要通过 NVIDIA 设备插件和节点功能搜索公开的 MIG 实例,确保它们可由 OKE 发现并调度。
        • 支持 MIG 的 GPU(例如 A100 或 H100)部署在 OCI 裸金属实例上或作为 OKE worker 节点。
        • OKE 通过 MIG 感知调度来处理容器化 AI 工作负载。
    • MIG 配置文件 分片分数 专用内存 适合 ...
      1g.5gb 1/7 5 GB 轻量化推理、测试
      2g.10gb 2/7 10 GB 微调较小的型号
      3g.20gb 3/7 20 GB 中型模型
      7g.40gb 完整 GPU 40 GB 全方位培训
    • 使用 OCI Monitoring 可避免高需求阶段(例如模型训练冲刺)出现瓶颈。
  • 模型生命周期和自动化
    • 通过与 Git 和容器注册表集成的 OCI DevOps 管道部署模型,实现 CI/CD 标准化,从而实现自动化:
      • 模型包装
      • 测试和验证
      • 部署到 OKE 或函数
    • 通过合并 A/B 测试、金丝雀部署和回退逻辑来包括回退和验证步骤,以避免模型行为出现退化。
  • 数据体系结构
    • 部署 Oracle Database 23ai,通过 Oracle AI Vector Search 存储嵌入并启用语义搜索。将其与以下项组合:
      • 文档的 OCI 对象存储
      • 用于检索编排的 OCI 函数
    • 在源文档发生变化时定期重新计算和更新嵌入,确保 RAG 输出准确性,从而保持向量新鲜度。
  • 安全性、合规性和可观察性
    • 使用 OCI IAM 策略、区间和组来定义开发、测试和生产环境之间的明确界限,从而实施基于 IAM 的细分。
    • 通过为所有关键组件(OKE、Functions、Storage 和 GPU 节点)启用 OCI 日志OCI 监视OCI 审计日志,记录和审计每个关键操作。
  • 多云和混合集成
    • 使用 OCI FastConnect 、服务网关和专用端点,确保与内部部署和第三方 AI 服务(例如 Azure OpenAI、AWS Bedrock)进行高速、安全的集成。
    • 避免敏感工作负载的公共互联网暴露。尽可能使用专用子网、NAT 网关和服务到服务验证。
  • 面向开发人员的自助功能
    • 通过为新用户提供一组 OCI FunctionsOCI DevOps 管道和记事本模板,快速安全地将新用户引入自助服务环境,提供精心策划的入门模板和 API。
    • 通过为用户赋能,同时通过策略、配额和共享负责任的模型开发优秀实践来保持控制,从而平衡自治与保障措施。

注意事项

部署此参考体系结构时,请考虑以下几点。

  • 性能
    • 部署 A100、H100、H200、B200 和 GB200 等高性能 GPU 实例,以适应特定负载需求,包括培训、推断和大规模分布式 AI。
    • 利用支持 RDMA 的 GPU 集群处理高带宽、低延迟的分布式工作负载。
    • 持续监视资源使用情况,主动缓解争用。
  • 安全
    • 实施隔离和专用子网,以隔离不同的运营环境。
    • 使用 OCI IAM 和 IDCS 实施严格的访问控制。
    • 为所有重要操作维护全面的日志记录和审计跟踪。
  • 可用性
    • 在多个容错域之间分配关键资源以确保容错。
    • 利用具有自动扩展功能的 OCI Kubernetes Engine (OKE) 来保持弹性。
    • 验证备份、恢复和数据复制策略,以实现业务连续性目标。
  • 成本
    • 通过 NVIDIA MIG 分数计算提高 GPU 利用效率。
    • 利用 OCI Object Storage 生命周期策略实施分层存储策略。
    • 使用项目级标记和预算配额来维护财务问责制。
  • 集成和部署
    • 使用 OCI DevOps 实现 CI/CD 工作流标准化,从而简化和自动化模型生命周期。
    • 使用 OCI FastConnect 和动态路由网关 (Dynamic Routing Gateway,DRG) 实现安全的数据流,确保一致的多云集成实践。
  • 数据管理系统
    • 定期管理和刷新 Oracle Database 23ai 中的语义嵌入,以实现准确检索。
    • 按数据使用模式(标准与归档)对存储进行适当分类。
  • 用户采用和管理
    • 提供结构化的入职资源,加快自助采用。
    • 持续评估自助服务环境并调整策略,以平衡用户自由和运营治理。

了解更多

详细了解 OCI 如何为可扩展、安全和企业就绪的生成式 AI 解决方案提供支持。

查看以下其他资源:

确认

  • 作者Diego Mariano, Diogo Santiago
  • 贡献者Douglas Silva, John Sulyok