設定開源機器學習與 AI 環境

使用預先安裝通用 IDE、記事本以及架構的預先設定 GPU 堆疊,快速設定機器學習和人工智慧 (AI) 環境,以便開始產生結果。

Oracle 預先設定的深度學習環境在廣泛應用程式的許多產業中很有用。

  • 自然語言處理

  • 映像檔辨識和分類

  • 金融服務的詐欺偵測

  • 線上零售商的建議引擎

  • 風險管理

此預先設定的環境包括具有 NVIDIA GPU 和 CUDA 以及 cuDNN 驅動程式、通用 Python 和 R 整合開發環境 (IDE)、Jupyter Notebooks 以及開源機器學習 (ML) 和深度學習 (DL) 架構的虛擬機器 (VM)。

您可以使用自動調整規模來調整運算資源規模,也可以在不需要時停止運算執行處理以控制成本。VM 包括基本範例資料和程式碼,供您測試及瀏覽。

Oracle Cloud Marketplace 中提供適用於 Oracle Cloud Infrastructure 映像檔的 AI 資料安全 VM。

架構

此參考架構顯示如何在 Oracle Cloud Infrastructure 的區域中實行機器學習和人工智慧 (AI) 環境。

此參照架構會在 Oracle Cloud Infrastructure 上建置防禦主機、訓練節點、推斷節點、使用者應用程式 VM 以及其他元件。架構使用具有一個可用性網域和區域子網路的區域。您可以在具有多個可用性網域的區域中使用相同的架構。



此架構包含下列元件:

  • 防禦主機

    提供存取專用子網路中其他運算執行處理的運算執行處理。

  • 訓練節點

    客戶開發並驗證其應用程式模型 (例如類神經網路模擬) 的運算執行處理。訓練節點是功能強大的執行處理,可從物件儲存擷取資料、根據目前使用的模型對資料執行作業,以及將資料儲存在連附的共用區塊磁碟區儲存體中。

  • 推論伺服器

    準備儲存在區塊磁碟區 (由訓練節點處理) 中供使用者應用程式使用之資料的運算執行處理。推論伺服器會將其已處理的資料儲存在檔案儲存中。

  • 使用者應用程式 VM

    此 VM 會執行使用者應用程式,並存取由儲存在共用檔案儲存體中的推斷伺服器所處理的資料。

  • 負載平衡器

    負載平衡器會將內送流量分配給使用者應用程式 VM。

  • 檔案儲存

    檔案系統會掛載在推斷伺服器和使用者應用程式 VM 上。

  • 物件儲存

    物件儲存是用來儲存訓練節點所使用之資料的資料湖。

  • 區塊磁碟區

    Oracle Cloud Infrastructure Block Volume 服務可讓您動態佈建及管理區塊儲存磁碟區。您可以建立、連附、連線及移動磁碟區,以及根據儲存、效能和應用程式需求變更磁碟區效能。將磁碟區連附並連線至執行處理之後,您可以使用磁碟區,例如一般硬碟。您也可以中斷磁碟區的連線,然後將它連附至另一個執行處理,而不會遺失資料。使用區塊儲存來儲存日記帳或日誌檔。

  • 虛擬雲端網路 (VCN) 和子網路

    每個運算執行處理都會部署在 VCN 中,並可分割成子網路。

  • 安全清單

    您可以為每個子網路建立安全規則,以指定子網路中必須允許的來源、目的地以及流量類型。

  • 可用性網域

    可用性網域是區域內獨立的獨立資料中心。每個可用性網域中的實體資源都會與其他可用性網域中的資源隔離,以提供容錯。可用性網域不會共用基礎設施 (例如電力或散熱冷卻系統) 或內部可用性網域網路。因此,一個可用網域發生故障並不會影響該區域中的其他可用網域。

  • 容錯域

    容錯域是可用性網域內的一組硬體和基礎設施。每個可用性網域都有三個具有獨立電源和硬體的容錯域。當您將資源分配到多個容錯域時,應用程式可能會容許容錯域內的實體伺服器故障、系統維護和電源故障。

建議

您的需求可能會與此處描述的架構不同。使用下列建議作為起點。

  • 防禦主機

    使用 VM.Standard。1.1 Compute 資源配置。此主機是用來存取其他「計算」節點,不會涉及資料處理或其他作業。

  • 訓練節點

    使用 BM.GPU3.8 資源配置,為 Data Science 應用程式提供 2x25 Gbps 的網路頻寬和足夠的 GPU (8xV100)。此節點會部署並驗證應用程式的模型,因此需要增強的 GPU 功能。從最多三個節點開始,並視需要使用自動調整功能來擴大或縮小。

  • 推論伺服器

    使用 BM.GPU2.2 資源配置,為 Data Science 應用程式提供 2x25 Gbps 的網路頻寬和足夠的 GPU (2xP100)。因為 GPU 的角色性質,所以此節點需要稍微的電源。從一個節點開始,然後視需要使用自動調整功能來擴大。

  • 使用者應用程式 VM

    使用 VM.Standard。2.2shape。這些節點用於使用者應用程式,因此 VM 應該足夠。從兩個 VM 節點開始,然後視需要使用自動調整功能來擴大或縮小。

  • 負載平衡器

    負載平衡器會將內送流量分配給使用者應用程式 VM。使用 100-Mbps 形狀。

  • 檔案儲存

    視需要自動調整檔案儲存規模。

  • 物件儲存

    在資料湖物件的預先認證連結使用單一專用儲存桶。

  • 區塊磁碟區

    除了本機連附的儲存體之外,請至少使用三個區塊磁碟區 (1 TB) 搭配多工連附功能。此新增提供更多儲存體。

  • VCN
    • 建立 VCN 時,請根據計畫連附至 VCN 中子網路的資源數目,判斷所需的 CIDR 區塊數目和各個區塊的大小。使用標準專用 IP 位址空間內的 CIDR 區塊。

    • 選取未與想要設定專用連線之任何其他網路 (在 Oracle Cloud Infrastructure 中、您的內部部署資料中心或其他雲端提供者) 重疊的 CIDR 區塊。

    • 建立 VCN 之後,您可以變更、新增及移除其 CIDR 區塊。

    • 設計子網路時,請考量您的功能和安全需求。將相同層或角色內的所有運算執行處理連附至相同的子網路。

    • 使用區域子網路。

  • 安全清單

    您可以使用安全清單來定義套用至整個子網路的傳入和傳出規則。例如,此架構允許 ICMP 內部用於整個專用子網路。

注意事項

部署此參照架構時,請注意下列幾點。

  • 效能

    若要獲得最佳效能,請選擇具有適當頻寬的正確運算資源配置。

  • 使用狀態

    請考慮根據您的建置需求和區域使用高可用性選項。選項包括使用區域與容錯域內的多個可用性網域。

  • 成本

    裸機 GPU 執行處理可為更高的成本提供必要的 CPU 電源。評估您的需求以選擇適當的運算資源配置。

  • 監督和警示

    設定您節點之 CPU 和記憶體使用狀況的監督和警示,讓您可以視需要擴大或縮小資源配置。

部署

此參照架構的 Terraform 程式碼在 Oracle Cloud Marketplace 中可作為堆疊使用。

  1. 前往 Oracle Cloud Marketplace
  2. 按一下取得 App
  3. 遵循畫面上的提示執行。

變更日誌

此日誌僅列出重要的變更: