為 OCI 內的生成式 AI 和 LLM 提供安全且可擴展的自助服務平台

讓資料科學家、開發人員和 IT 團隊獨立建置、測試和部署進階 AI 模型,同時確保企業層級治理和基礎架構最佳化。

此解決方案在自助服務模型中提供支援生成式人工智慧 (AI) 和大型語言模型 (LLM) 計畫所需的核心功能,結合 Oracle Cloud Infrastructure (OCI) 上的安全存取、可擴展基礎架構和企業級治理。

使用案例和支援的服務:

  • 自備大型語言模型 (BYOLLM) / 程式碼安全性驗證

    第三方模型 (例如 Hugging Face) 使用 GPU 加速部署在隔離的「遊樂場」環境中,並進行自動化安全性驗證。OCI FunctionsOracle Identity Cloud Service (IDCS) 和 OCI Identity and Access Management (IAM) 原則用於檢查、存取控制和安全執行。

  • 資料科學遊樂場

    資料科學操場是專為資料科學實驗所設計的彈性與可擴充環境。在進階 GPU 基礎架構的支援下,該公司與 Oracle Database 23ai 緊密整合,並針對文件管理和內嵌提供最佳化的向量和物件儲存,適合用於快速原型設計和高效率調整 AI 專案。

  • 多模式 AI

    OCI 透過整合文字、語音和影像輸入來支援多重模型模型。這些模型是由高效能 GPU 執行處理所代管。

  • 文字語音轉換

    OCI Speech 是 Oracle 的語音轉文字服務,可將音訊轉換成高準確度的文字。它整合至 OCI,支援多種語言、即時和批次轉錄,並提供多種進階功能,例如演講者日記、文書級信心和冒犯性語言篩選。它也與其他 OCI 服務緊密連接,以進行可擴展的即時處理。

  • 擷取增強生成

    OCI 透過將 Oracle Database 23ai 和 OCI Object Storage 與生成式 AI 服務整合,提供全面的檢索增強生成 (RAG) 解決方案。資料會轉換為向量內嵌內容,並儲存在 Oracle Autonomous Database 中,以有效率地進行語意搜尋。產生的回應會以最新的相關資訊強化。RAG 工作流程透過 OCI Connector Hub 協調,支援事件導向執行、自動化資料擷取和即時擴展性。

    RAG 工作流程透過 OCI Connector Hub 協調,支援事件導向執行和與資料擷取管線整合。

  • 向量資料庫

    Oracle Database 23ai 透過 VECTOR 資料類型提供原生向量資料庫功能,使用標準 SQL 儲存內嵌和語意搜尋。它支援向量索引、ONNX 型或外部內嵌產生,以及相似性查詢的精確度控制。針對 Exadata 進行最佳化,無需使用獨立的向量儲存,在統一的 Oracle 環境中支援 RAG、建議和生成式 AI 等使用案例。

  • OCI Generative AI 代理

    這些代理程式由 OCI Generative AI 服務或 OCI 裸機 GPU 基礎架構上執行的第三方模型提供支援。

  • OCI 速度

    為了確保高輸送量和效能,裸機執行個體 (例如 A100、H200、B200 和 GB200) 用於訓練和推論大型模型,支援快速實驗和生產級工作負載。

架構

此架構說明 Oracle Cloud Infrastructure (OCI) 如何支援跨開發、整合和使用者互動的端對端生成式 AI 工作流程。

流程 A:整合

  1. 客戶應用程式
  2. Oracle Integration
  3. OCI 物件儲存 (貯體)
  4. OCI 事件偵測
  5. OCI StreamingOCI Connector Hub
  6. OCI Functions (邏輯執行)
  7. Oracle Process Cloud Service (依 GPU 推論)
  8. 資料層 (Oracle Database 23ai 和儲存桶)

流程 B:使用者互動

  1. 一般使用者介面 (Apex)
  2. 應用程式 ( OCI GenAI AgentsOCI SpeechOracle Digital Assistant)
  3. Oracle Process Cloud Service (依 GPU 推論)
  4. 資料層 (Oracle Database 23ai 和儲存桶)

流程 C:開發與封閉測試環境

  1. 外部模型來源
  2. 代碼安全性驗證
  3. 開發與測試
  4. 將管線自動化至生產

下圖說明此參照架構。



ai-llm-workflow- 架構 -oracle.zip

依功能網域區分的架構概要

  • 開發與訓練 (自助服務工作區)

    此架構的結構位於 LLM 作業的集中區間底下:

    • Data Science 為模型開發、Jupyter 筆記型電腦和預先建置的 ML 架構提供整合的工作區。包括用於模型部署和工作執行的快速操作工具。
    • 模型部署代管虛擬機器 (VM) 以進行模型測試和部署。使用者可以在這裡驗證模型,然後再將其移至生產環境。
    • 遊樂場是 GPU 加速的環境 (彈性 VM、A10、A100、LS40),為自訂和第三方模型 (例如 Hugging Face) 提供隔離的高效能運算資源。它可作為自備 LLM (BYOLLM) 工作流程的實驗區域。
  • 應用與功能層
    • OCI Speech 和語言 API 提供立即可用的轉錄、NLU 和實體擷取服務。
    • OCI Functions 用於 AI 管線的即時轉錄、NLP 和無伺服器執行。
    • APEX 前端和監控工具提供使用者互動、分析和治理的介面。
    • OCI GenAI AgentsDigital Assistant 可使用企業資料和整合 LLM 來實現對話體驗。
  • 處理 (生產層)
    • OCI Kubernetes Engine (OKE) 支援生產模型和推論服務的容器化部署。
    • OCI Generative AI 提供以 API 為基礎的存取,以存取 Oracle 代管或自訂的微調 LLM,以支援安全且可擴展的企業使用案例。
  • GPU 基礎架構 (支援 H100 和 RDMA)
    • 裸機 GPU 執行個體 (H100 與 RDMA) 可透過高傳輸量、低延遲通訊進行多節點分散式訓練和推論,適用於大量 LLM 工作負載。
    • 此設定針對 Kubernetes 和 NVIDIA Multi-Instance GPU (MIG) 技術最佳化,可啟用 GPU 協調和動態資源共用,讓各個團隊都能進行部分的 GPU 配置和多使用者排程。
  • 資料與知識層
    • Oracle Database 23ai 透過對向量和語意搜尋的支援來增強,可作為檢索增強生成 (RAG) 工作流程的檢索層。
    • OCI Object Storage 貯體儲存非結構化資料、嵌入、文件和模型構件。
  • MLOps (生產模型管線)
    • 此架構包含 CI/CD 管線,可將模型從遊樂場環境升級至生產環境。目前由 OCI DevOps 表示為 OCI 的原生、完全受管理、持續整合及持續交付 (CI/CD) 服務,可讓組織將機器學習模型從實驗到生產的部署自動化。
    • 與 Git 整合的組建管線。
    • 自動部署至 VM 或容器。
    • OCI 使用者自建物件登錄OCI 函數OCI API 閘道的原生整合。
  • 整合與安全層
    • OCI Object Storage 貯體可作為模型、訓練資料、推論輸出和嵌入的中央儲存空間。
    • OCI EventsOCI StreamingOCI Connector Hub 可實現整個環境的事件導向協調和服務整合。
    • Oracle Identity Cloud Service 、IAM 原則、 OCI 日誌記錄及安全清單在所有 OCI 服務中提供強大的治理、認證、存取控制及規範功能。
    • Oracle Integration 是預先建立的中介軟體平台,可實現內部部署系統與雲端服務之間的安全無縫整合,支援跨異質應用程式的即時資料同步、API 協調和流程自動化。

此架構具有下列元件:

  • 可用性網域

    可用性網域是區域內獨立的資料中心。每個可用性網域中的實體資源會與其他可用性網域中的資源隔離,以提供容錯能力。可用性網域不會共用基礎架構,例如電源或冷卻系統,或內部可用性網域網路。因此,一個可用性網域發生故障不應影響該區域中的其他可用性網域。

  • 裸機

    Oracle 的裸機伺服器使用專屬運算執行處理,提供隔離環境、能見度及控管能力。這些伺服器支援需要高核心數目、大量記憶體及高頻寬的應用程式。它們可以擴展至 192 個核心、2.3 TB RAM 和高達 1 PB 的區塊儲存。與其他公有雲和內部部署資料中心相比,客戶可以在 Oracle 裸機伺服器上建置雲端環境,並大幅改善效能。

  • 區間

    區間是 OCI 租用戶內的跨區域邏輯分割區。使用區間組織、控制存取,以及設定 Oracle Cloud 資源的使用配額。在指定的區間中,您可以定義控制資源存取和設定權限的原則。

  • 連線器中心

    Oracle Cloud Infrastructure Connector Hub 是一個訊息匯流排平台,可協調 OCI 上服務之間的資料移動。您可以使用連線器將資料從來源服務移至目標服務。連線器也可讓您選擇性地指定要對資料執行的工作 (例如函數),再將它傳遞至目標服務。

    您可以使用 OCI Connector Hub 快速建立安全資訊和事件管理 (SIEM) 系統的記錄日誌聚總架構。

  • 動態路由閘道 (DRG)

    DRG 是一個虛擬路由器,提供相同區域 VCN 之間、VCN 與區域外部網路 (例如另一個 OCI 區域中的 VCN、內部部署網路,或其他雲端提供者中的網路) 的專用網路流量路徑。

  • FastConnect

    Oracle Cloud Infrastructure FastConnect 會在您的資料中心與 OCI 之間建立專用的專用連線。與基於網際網路的連線相比,FastConnect 提供更高的頻寬選項以及更可靠的網路體驗。

  • 高效能計算

    高效能運算是專為需要叢集網路和高速處理器核心,以處理大量平行工作負載的工作負載而設計。

  • 網際網路閘道

    網際網路閘道允許 VCN 中公用子網路與公用網際網路之間的流量。

  • 內部部署網路

    這是貴組織使用的區域網路。

  • 地區

    OCI 區域是本地化的地理區域,包含一或多個代管可用性網域的資料中心。區域獨立於其他地區,且遠距離能夠分離它們 (跨國家,甚至是大陸)。

  • 路由表

    虛擬路由表包含將流量從子網路遞送至 VCN 外部目的地 (通常是透過閘道) 的規則。

  • 安全清單

    您可以為每個子網路建立安全規則,指定允許進出子網路的來源、目的地和流量類型。

  • 服務閘道

    服務閘道可讓您從 VCN 存取其他服務,例如 Oracle Cloud Infrastructure Object Storage 。從 VCN 到 Oracle 服務的流量會透過 Oracle 網路結構傳送,而不會周遊網際網路。

  • Tenancy

    租用戶是一個安全且隔離的分割區,當您在註冊 OCI 時,Oracle 會在 Oracle Cloud 內建立此分割區。您可以在租用戶內的 OCI 上建立、組織及管理您的資源。租用戶與公司或組織同義字。通常,公司會有單一租用戶,並反映其在該租用戶內的組織結構。單一租用戶通常與單一訂閱關聯,而單一訂閱通常只有一個租用戶。

  • 虛擬雲端網絡 (VCN) 與子網路

    VCN 是您在 OCI 區域中設定的可自訂軟體定義網路。與傳統資料中心網路一樣,VCN 可讓您控制網路環境。VCN 可以有多個非重疊的無類別網域間路由 (CIDR) 區塊,您可以在建立 VCN 之後變更這些區塊。您可以將 VCN 分隔到子網路中,而子網路的作用領域可以調整到某個區域或可用性網域。每個子網路都是由連續的位址範圍所組成,這些位址不會與 VCN 中的其他子網路重疊。您可以在建立子網路後變更其大小。子網路可以是公用網路或專用網路。

  • Oracle Database 23ai

    Oracle Database 23ai 版本著重於 AI 和開發人員生產力。在 Oracle 的融合式資料庫中加入 AI Vector Search 功能,為資料注入 AI 技術。此功能結合新的統一開發範例和關鍵任務功能,可讓開發人員和資料專業人員輕鬆運用 AI 支援應用程式、應用程式開發及關鍵任務工作負載。

  • 事件

    OCI 發出事件上的服務,是描述資源變更的結構化訊息。系統會發出事件來執行建立、讀取、更新或刪除 (CRUD) 作業、資源生命週期狀態變更以及影響雲端資源的系統事件。

  • 記錄日誌
    Oracle Cloud Infrastructure Logging 是可高度擴展且完全受管理的服務,可讓您從雲端資源存取下列類型的日誌:
    • 稽核日誌:與 OCI Audit 產生之事件相關的日誌。
    • 服務日誌:由個別服務 (例如 OCI API GatewayOCI EventsOCI FunctionsOCI Load BalancingOCI Object Storage 和 VCN 流量日誌) 發布的日誌。
    • 自訂日誌:包含自訂應用程式、其他雲端提供者或內部部署環境之診斷資訊的日誌。
  • 監督

    Oracle Cloud Infrastructure Monitoring 主動並被動監控您的雲端資源,並使用警訊在指標符合指定的觸發器時通知您。

  • OCI 登錄

    Oracle Cloud Infrastructure Registry 是 Oracle 管理的服務,可讓您簡化從開發到生產的工作流程。登錄可讓您輕鬆儲存、共用及管理開發使用者自建物件,例如 Docker 映像檔。

  • 語音

    Oracle Cloud Infrastructure Speech 駕馭了口語的強大功能,可讓您輕鬆將包含人類語音的媒體檔案轉換為高度準確的文字轉錄。您可以使用主控台、REST API、CLI 及 SDK 存取。

  • Workflow

    Oracle Cloud Infrastructure Workflow 是無伺服器工作流程引擎,具備適用於開發人員和架構師的圖形化流程設計工具。它可加速建立、執行及協調 OCI 服務,例如 OCI Functions 或 AI/ML。

  • APEX 服務

    Oracle APEX Application Development 是一個低程式碼開發平台,可讓您建置可擴展、功能豐富、安全的企業應用程式,這些應用程式可以在安裝 Oracle Database 的任何位置部署。您不需要是各種技術的專家,就能提供複雜的解決方案。APEX 服務包含內建功能,例如使用者介面主題、導覽控制項、表單處理程式,以及可加速應用程式開發程序的彈性報表。

  • API 閘道

    Oracle Cloud Infrastructure API Gateway 可讓您發布具有可從網路存取之專用端點的 API,並視需要向公用網際網路公開這些 API。端點支援 API 驗證、要求與回應轉換、CORS、認證與授權,以及要求限制。

  • OCI 區塊磁碟區

    您可以使用 Oracle Cloud Infrastructure Block Volumes 建立、連附、連線及移動儲存磁碟區,以及變更磁碟區效能以符合您的儲存、效能和應用程式需求。將磁碟區連附並連線至執行處理之後,就可以像使用一般硬碟一樣使用磁碟區。您也可以中斷磁碟區連線並將其連附至另一個執行處理,而不會遺失資料。

  • 運算

    您可以使用 Oracle Cloud Infrastructure Compute 在雲端佈建及管理運算主機。您可以啟動資源配置符合 CPU、記憶體、網路頻寬和儲存資源需求的運算執行處理。建立運算執行處理之後,您可以安全地存取、重新啟動、連附及取消連附磁碟區,然後在不再需要運算執行處理時予以終止。

  • 資料科學

    Oracle Cloud Infrastructure Data Science 是一個完全受管理的無伺服器平台,資料科學團隊可用來在 OCI 上建置、訓練和管理機器學習 (ML) 模型。它可以輕鬆與其他 OCI 服務 (例如 Oracle Autonomous Data WarehouseOracle Cloud Infrastructure Object Storage 等) 整合。您可以建立和評估高品質的機器學習模型,透過將企業信任的資料快速運作來提高業務彈性,並藉由更輕鬆地部署 ML 模型來支援資料導向的業務目標。資料科學可讓資料科學家和機器學習工程師免費使用 Anaconda 儲存區域中的套裝程式。

    資料科學工作功能可讓資料科學家在完全受管理的基礎架構上定義和執行可重複的機器學習工作。

    資料科學模型部署功能可讓資料科學家將受過訓練的模型部署為完全受管理的 HTTP 端點,以即時提供預測、將智慧融入流程和應用程式中,並讓企業在發生相關事件時做出反應。

  • DevOps

    Oracle Cloud Infrastructure DevOps (開發人員作業) 是一個完整的持續整合 / 持續交付 (CI/CD) 平台,可供開發人員簡化和自動化其軟體開發生命週期。OCI DevOps 可讓開發人員和操作員協同開發、建置、測試及部署軟體。開發人員和運營商可透過建立、測試和部署階段的來源承諾歷史記錄,完整開發生命週期。

  • 功能

    Oracle Cloud Infrastructure Functions 是一個完全託管、多租用戶、可高度擴展、隨選、函數即服務 (FaaS) 平台。它由 Fn Project 開放原始碼引擎提供技術支援。OCI Functions 可讓您部署程式碼,以及直接呼叫程式碼或觸發程式碼以回應事件。OCI Functions 使用 Oracle Cloud Infrastructure Registry 中代管的 Docker 容器。

  • 識別與存取管理

    Oracle Cloud Infrastructure Identity and Access Management (IAM) 為 OCI 和 Oracle Cloud Applications 提供使用者存取控制。IAM API 和使用者介面可讓您管理識別網域及其中的資源。每個 OCI IAM 識別網域都代表獨立的識別與存取管理解決方案,或代表不同的使用者群體。

  • 整合

    Oracle Integration 是完全受管理的預先設定環境,可讓您整合雲端和內部部署應用程式、將業務流程自動化,以及開發視覺應用程式。它使用符合 SFTP 規範的檔案伺服器來儲存和擷取檔案,並允許您使用數百個轉接器和處方組合來與 Oracle 和第三方應用程式連線,與企業對企業交易夥伴交換文件。

  • Kubernetes 叢集

    Kubernetes 叢集是一組執行容器化應用程式的機器。Kubernetes 提供可攜式、可擴充的開源平台,用於管理這些節點中的容器化工作負載和服務。Kubernetes 叢集是由工作節點和控制層節點組成。

  • Kubernetes 控制層

    Kubernetes 控制層可管理 Kubernetes 叢集內工作節點和 Pod 的資源。控制平面元件可偵測及回應事件、執行排程及移動叢集資源。

    以下為控制平面元件:
    • kube-apiserver:執行 Kubernetes API 伺服器。
    • etcd:所有叢集資料的分散式索引鍵值存放區。
    • kube-scheduler:決定將在哪些節點上執行新的未指派 Pod。
    • kube-controller-manager:執行控制器處理作業。
    • cloud-controller-manager:將您的叢集與雲端特定 API 連結。
  • OCI Kubernetes 引擎

    Oracle Cloud Infrastructure Kubernetes Engine ( OCI Kubernetes EngineOKE) 是完全託管、可擴展且高可用性的服務,可用來將容器化應用程式部署到雲端。您可以指定應用程式所需的運算資源,然後確定在現有租用戶的 OCI 上佈建這些資源。OKE 使用 Kubernetes 將跨主機叢集的容器化應用程式部署、調整規模及管理自動化。

  • Kubernetes 工作程式節點

    Kubernetes 工作節點是工作者機器,可在 Kubernetes 叢集內執行容器化應用程式。每個叢集至少有一個工作節點。

  • 物件儲存

    OCI Object Storage 可讓您存取任何內容類型的大量結構化和非結構化資料,包括資料庫備份、分析資料,以及豐富的內容 (例如影像和影片)。您可以直接從網際網路或雲端平台內安全地儲存資料。您可以擴展儲存,而不會發生任何效能或服務可靠性的降低情況。

    針對需要快速、立即及頻繁存取的「熱」儲存使用標準儲存。將封存儲存用於保留一段很長的時間和很少或很少存取的「冷」儲存。

  • 串流處理

    Oracle Cloud Infrastructure Streaming 提供完全代管、可擴展且持久的儲存解決方案,讓您即時擷取連續的大量資料串流。您可以使用 OCI Streaming 來擷取大量資料,例如應用程式日誌、作業遙測、Web 點擊流資料;或用於在發布 / 訂閱訊息模型中持續並循序產生和處理資料的其他使用案例。

  • 稽核

    Oracle Cloud Infrastructure Audit 服務會自動將對所有支援的 OCI 公用應用程式設計介面 (API) 端點的呼叫記錄為日誌事件。所有 OCI 服務都支援由 Oracle Cloud Infrastructure Audit 記錄。

  • 生成式 AI

    Oracle Cloud Infrastructure Generative AI 是完全受管理的 OCI 服務,提供一組最先進、可自訂的大型語言模型 (LLM),涵蓋廣泛的文字產生、摘要、語意搜尋等使用案例。使用操場試用現成的預先訓練模型,或根據專屬 AI 叢集上的自己資料建立及代管自己的微調自訂模型。

  • 負載平衡器

    Oracle Cloud Infrastructure Load Balancing 提供從單一進入點到多部伺服器的自動化流量分配功能。

  • 網路位址翻譯 (NAT) 閘道

    NAT 閘道可讓 VCN 中的專用資源存取網際網路上的主機,而不會向內送網際網路連線公開這些資源。

  • 生成式 AI

    Oracle Cloud Infrastructure Generative AI 是完全受管理的 OCI 服務,提供一組最先進、可自訂的大型語言模型 (LLM),涵蓋廣泛的文字產生、摘要、語意搜尋等使用案例。使用操場試用現成的預先訓練模型,或根據專屬 AI 叢集上的自己資料建立及代管自己的微調自訂模型。

  • 數位助理

    Oracle Digital Assistant 是一個平台,可讓您為使用者建立和部署數位助理。藉助 Oracle Digital Assistant ,您可以透過文字、交談和語音介面,為業務應用程式建立 AI 導向介面 (或聊天機器人)。每個數位助理都有一或多個專業技能的集合,可協助使用者在自然語言對話中完成各種任務。例如,個別數位助理可能會具備專注於特定類型任務的技能,例如追蹤存貨、提交工時卡及建立費用報表。

  • 原則

    Oracle Cloud Infrastructure Identity and Access Management 原則會指定誰可以存取哪些資源,以及存取方式。會在群組和區間層級授予存取權,這表示您可以撰寫一個原則,讓群組在特定區間或租用戶內擁有特定類型的存取權。

  • 安全區

    安全區域會對整個區間 (例如加密資料) 強制實行金鑰 Oracle 安全最佳做法,以防止公用存取網路。安全區域會與相同名稱的區間關聯,並且包含適用於該區間及其子區間的安全區域原則 (處方)。您無法新增或移動標準區間至安全區域區間。

建議

確保在 OCI 上建構的企業 AI 平台的成功、可擴展性和永續性,專注於自助服務 LLM 開發、MLOps、GPU 最佳化和企業級整合。

  • 平台與策略治理
    • 建立專屬的跨功能卓越中心,讓 AI 能夠治理:
      • LLM 訓練與部署的最佳實務
      • 資源配置與配額管理
      • 安全性、合規性和道德 AI 用法
    • 在 OCI 中啟用配額和標記原則,以確保部門和團隊的可追蹤性和成本問責性,避免不受控制的資源激增。
  • GPU 資源效率與排程
    • 結合 NVIDIA MIG 以最佳化 GPU 使用量。指定每個工作或使用者的分數 GPU,以提高使用率並降低成本。
    • GPU 分數解決方案:
      • 多重執行處理 GPU (MIG) 是 NVIDIA A100 和 H100 GPU 上的一項功能,可讓您將單一實體 GPU 分割成多個硬體隔離執行處理 (或磁碟片段),稱為 GPU 執行處理。

        每個執行個體可獨立運作 GPU,並擁有:

        • 專用記憶體
        • 運算核心
        • 快取與記憶體頻寬

        這讓團隊能夠在可預測的效能和硬體層級隔離的單一 GPU 上同時執行多個 AI 工作負載。

        OCI Kubernetes Engine (OKE) 設定為支援 MIG 感知排程,允許:

        • 要求特定 MIG 執行處理的每個 Pod (例如,A100 的第 1/7 個)。
        • Kubernetes 排程器可根據要求,以智慧方式配置可用的 GPU 片段。
        • 透過 NVIDIA 裝置 Plug-in 和節點功能尋找公開的 MIG 執行處理,確保 OKE 可以尋找並排定這些執行處理。
        • 啟用 MIG 的 GPU (例如 A100 或 H100) 會部署在 OCI 裸機執行處理或 OKE 工作節點上。
        • OKE 會透過 MIG 感知排程來處理容器化 AI 工作負載。
    • MIG 設定檔 切片分數 專用記憶體 適合用於 ...
      1g.5gb 1/7 5 GB 輕量推論,測試
      2g.10gb 2/7 10 GB 微調較小的模型
      3g.20gb 3/7 20 GB 中型模型
      7g.40gb 完整 GPU 40 GB 全規模訓練
    • 使用 OCI Monitoring 以避免高需求階段的瓶頸 (例如,模型訓練衝刺期)。
  • 模型生命週期和自動化
    • 透過與 Git 和容器登錄整合的 OCI DevOps 管線部署模型,將 CI/CD 標準化,以實現自動化:
      • 模型包裝
      • 進行測試與驗證
      • 部署至 OKE 或功能
    • 透過結合 A/B 測試、金絲雀偵測部署和倒回邏輯來包含倒回和驗證步驟,以避免模型行為的回歸。
  • 資料架構
    • 部署 Oracle Database 23ai 以儲存內嵌項目,並透過 Oracle AI Vector Search 啟用語意搜尋。與下列項目合併:
      • 文件適用的 OCI 物件儲存
      • 用於擷取協調流程的 OCI 函數
    • 當來源文件變更時,定期重新計算和更新內嵌項目以維持向量新鮮度,以確保 RAG 輸出準確性。
  • 安全性、法規遵循與可觀察性
    • 使用 OCI IAM 原則、區間和群組定義開發、測試和生產環境之間的明確界限,以強制執行以 IAM 為基礎的區隔。
    • 啟用所有重要元件 (OKE、Functions、Storage、GPU 節點) 的 OCI LoggingOCI MonitoringOCI Audit 日誌,以記錄和稽核每個重要動作。
  • 多雲端和混合整合
    • 使用 OCI FastConnect 、服務閘道和專用端點,確保與內部部署和第三方 AI 服務 (例如 Azure OpenAI、AWS Bedrock) 進行高速、安全的整合。
    • 避免對機密工作負載暴露公用網際網路。請儘可能使用專用子網路、NAT 閘道以及服務對服務認證。
  • 開發人員的自助服務問題
    • 透過提供一組 OCI FunctionsOCI DevOps 管線和記事本範本,快速且安全地將新使用者內建到自助服務環境中,提供精心策劃的入門範本和 API。
    • 透過賦予使用者權力,同時透過負責任模型開發的政策、配額和共享最佳實務保持控制權,以自主防護措施。

注意事項

部署此參考架構時,請考量下列各點。

  • 效能
    • 部署專為特定工作負載需求量身打造的高效能 GPU 執行個體,例如 A100、H100、H200、B200 和 GB200,包括訓練、推論和大規模分散式 AI。
    • 運用支援 RDMA 的 GPU 叢集,進行高頻寬、低延遲的分散式工作負載。
    • 持續監控資源使用狀況,以主動減輕競爭。
  • 安全
    • 實行區間化和專用子網路以隔離不同的作業環境。
    • 使用 OCI IAM 和 IDCS 強制執行嚴格的存取控制。
    • 維護所有重要作業的全面性記錄和稽核歷程檔。
  • 可用性
    • 將重要資源分散到多個容錯域,以確保容錯能力。
    • 利用自動擴展的 OCI Kubernetes 引擎 (OKE),以保持彈性。
    • 驗證備份、復原和資料複製策略,以實現業務持續性目標。
  • 成本
    • 透過 NVIDIA MIG 分數化,將 GPU 使用率最大化。
    • 運用 OCI Object Storage 生命週期原則導入分層儲存策略。
    • 使用專案層級標記和預算配額來維護財務責任。
  • 整合與部署
    • 使用 OCI DevOps 標準化 CI/CD 工作流程,以簡化及自動化模型生命週期。
    • 使用 OCI FastConnect 和動態路由閘道 (DRG) 確保一致的多雲端整合實務,以實現安全的資料流程。
  • 數據管理
    • 定期管理和重新整理 Oracle Database 23ai 中的語意內嵌項目,以準確擷取。
    • 依資料使用模式 (標準與封存) 適當地分類儲存。
  • 使用者採用與管理
    • 提供結構化的到職培訓資源,以加速採用自助服務。
    • 持續評估自助服務環境並調整政策,以平衡使用者自由與營運治理。

探索更多資訊

深入瞭解 OCI 如何提供可擴展、安全且符合企業級需求的生成式 AI 解決方案。

請複查這些其他資源:

確認

  • 作者Diego Mariano, Diogo Santiago
  • 貢獻者Douglas Silva, John Sulyok