資料科學服務:醫療保健使用案例

Oracle Cloud Infrastructure Data Science (OCI) Data Science 是一個完全受管理的無伺服器平台,可讓資料科學團隊建置、訓練及管理機器學習模型。

資料科學與 OCI 堆疊的其餘部分整合,包括 Oracle Functions資料流程Autonomous Data Warehouse 以及物件儲存。Oracle Accelerated Data Science (ADS) 軟體開發人員套件 (SDK) 是包含在「資料學」服務中的 Python 程式庫,其中有許多函數和物件可自動化或簡化資料科學工作流程中的步驟,包括連線至資料、探索及視覺化資料、使用 AutoML 訓練模型、評估模型以及說明模型。ADS 也提供簡單的介面,可存取資料科學服務模型目錄和其他 OCI 服務,包括物件儲存體。

架構

此彈性架構支援多種以 Oracle Machine Learning 服務為基礎的整合式狀況網路,結合 Autonomous Data WarehouseData Science 平台。

除了資料科學和 Autonomous Data Warehouse 之外,此架構也使用資料目錄、Oracle APEX Application DevelopmentOracle Analytics Cloud。它也會使用 OCI 運算執行處理代管可將穿戴式裝置資料動態串流至 Autonomous Data Warehouse 或 Object Storage 的應用程式。此架構提供多個用途,包括將重要資料儲存在安全、可靠且快速擷取的儲存體中,以及在短期內建置及建置應用程式和機器學習模組。

下圖說明此參考架構。

architecture-dataScience-use-cases.png 的描述請參見下方
architecture-dataScience-use-cases.png 圖解描述

架構包含下列元件:

  • 區域

    Oracle Cloud Infrastructure 區域是包含一或多個資料中心 (稱為可用性網域) 的本地化地理區域。區域與其他區域無關,而且大型距離可以區隔 (跨國家或甚至洲)。

  • 可用性網域

    可用性網域是區域內獨立的獨立資料中心。每個可用性網域中的實體資源都會與其他可用性網域中的資源隔離,以提供容錯。可用性網域不會共用基礎設施 (例如電力或散熱冷卻系統) 或內部可用性網域網路。因此,一個可用網域發生故障並不會影響該區域中的其他可用網域。

  • 容錯域

    容錯域是可用性網域內的一組硬體和基礎設施。每個可用性網域都有三個具有獨立電源和硬體的容錯域。當您將資源分配到多個容錯域時,應用程式可能會容許容錯域內的實體伺服器故障、系統維護和電源故障。

  • 虛擬雲端網路 (VCN) 和子網路

    VCN 是您在 Oracle Cloud Infrastructure 區域中設定的可自訂軟體定義網路。VCN 就像傳統資料中心網路一樣,可讓您完整控制網路環境。VCN 可以有多個非重疊的 CIDR 區塊,供您在建立 VCN 之後變更。您可以將 VCN 區隔為子網路,子網路範圍可為區域或可用性網域。每個子網路均包含一個未與 VCN 中其他子網路重疊的連續位址範圍。您可以在建立子網路之後變更子網路的大小。子網路可以是公用或專用。

  • 數據科學服務

    可讓資料科學團隊建立、訓練及管理機器學習模型的完全受管理無伺服器平台。它可以輕鬆地與其他 OCI 服務 (例如 Autonomous Data Warehouse、物件儲存等) 整合。

  • Autonomous Data Warehouse

    包括 Oracle Machine Learning 的 Oracle 自治式資料庫。資料科學家可以使用資料庫內 Oracle Machine Learning 功能和相關記事本介面來建立、評估、評分及部署機器學習模型。您也可以使用「自發交易處理」。

  • 應用程式 VM

    已安裝 Oracle Linux 並可供安裝需要存取資料庫之工具和應用程式的 OCI 運算執行處理。

  • 資料目錄

    OCI 資料目錄是針對企業資料提供完全管理的自助服務資料尋找和治理解決方案。「資料錄」提供單一協作環境來管理技術、商業以及作業中繼資料。

  • Oracle Analytics Cloud

    Oracle Analytics Cloud 提供現代化的 AI-powered 自助服務分析功能,讓您進行資料準備、視覺化、企業報告、增強的分析,以及自然語言處理和產生。

    Oracle Analytics Cloud 已與 Oracle Machine Learning 整合。此整合可讓分析人員列出資料庫內模型,並在 Oracle Analytics Cloud 分析和儀表板中使用這些模型。

  • 頂端

    Oracle APEX Application Development 是一種低程式碼開發平台,可讓您建立可隨處部署的高擴展性和高安全性的企業應用程式。它包含在 Autonomous Database 中,不需要安裝。APEX 使用者可以從 Oracle Machine Learning 存取模型和結果。

建議

您的需求可能會與此處描述的架構不同。使用下列建議作為起點。

  • VCN

    建立 VCN 時,請根據計畫連附至 VCN 中子網路的資源數目,判斷所需的 CIDR 區塊數目和各個區塊的大小。使用標準專用 IP 位址空間內的 CIDR 區塊。

    選取未與想要設定專用連線之任何其他網路 (在 Oracle Cloud Infrastructure 中、您的內部部署資料中心或其他雲端提供者) 重疊的 CIDR 區塊。

    建立 VCN 之後,您可以變更、新增及移除其 CIDR 區塊。

    設計子網路時,請考量您的流量和安全需求。將特定層或角色內的所有資源連附至可作為安全界限的相同子網路。

  • 安全

    使用 Oracle Cloud Guard 主動監督及維護 OCI 中資源的安全。「雲端保全」使用可定義的偵測器方法來檢查安全弱點的資源,以及監督操作員和使用者是否有風險活動。偵測到任何組態錯誤或不安全的活動時,雲端保全會建議更正動作,並根據您可以定義的回應器方法協助這些動作。

    對於需要最高安全性的資源,Oracle 建議您使用安全區域。安全區域是與以最佳做法為基礎之 Oracle 定義的安全原則方法關聯的區間。例如,安全區域中的資源不得從公用網際網路存取,且必須使用客戶管理的金鑰加密。當您在安全區域中建立和更新資源時,OCI 會根據 security-zone 處方中的原則驗證作業,並拒絕違反任何原則的作業。

  • Autonomous Data Warehouse

    建立專供資料科學家使用的個別綱要。將主資料倉儲綱要的唯讀存取權授予綱要。此排列可讓資料科學家建立探索、分析和模型建立的本機資料檢視。在需要時,可以將共用資料複製到自己的綱要中,讓他們可以在本機進行修改。

  • 虛擬機器

    VM 會分散至多個容錯域以獲得高可用性。建議您使用彈性的 VM 資源配置作為運算執行處理;這可讓您增加或減少 VM 的容量 (分鐘)。

  • 物件儲存

    物件儲存提供可靠且高效率的資料持久性,可讓您快速存取任何內容類型的大量結構化與非結構化資料,包括資料庫資料、分析資料、影像、視訊等等。建議您使用標準儲存從外部來源擷取資料,因為應用程式和使用者可以快速存取它。您可以建立生命週期原則,以便在不再需要經常存取資料時,將資料從標準儲存體移至封存儲存體。

注意事項

部署此參照架構時,請注意下列幾點。

  • 安全

    使用原則來限制誰可以存取您公司的 OCI 資源,以及他們如何存取它們。

  • 應用程式可用性

    容錯域可在單一可用性網域內提供最佳復原能力。您可以在多個容錯域建置執行相同工作的運算執行處理。此設計會透過簡介冗餘來移除單一失敗點。

  • 成本

    評估您的需求以選擇適當的運算資源配置。

  • 監督和警示

    為您的節點設定 CPU 和記憶體使用狀況的監督和警示,讓您可以視需要擴大或縮小資源配置。

部署

GitHub 中提供部署此參照架構所需的程式碼。只要按一下即可將程式碼提取至 Oracle Cloud Infrastructure Resource Manager,然後建立堆疊並加以部署。或者,從 GitHub 下載程式碼至您的電腦、自訂程式碼,以及使用 Terraform CLI 建置架構。

  • 使用 Oracle Cloud Infrastructure Resource Manager 進行部署:
    1. 一下部署至 Oracle Cloud

      如果您尚未登入,請輸入租用戶和使用者證明資料。

    2. 檢閱並接受條款與條件。
    3. 選取您要在其中部署堆疊的區域。
    4. 依照畫面上的提示和指示建立堆疊。
    5. 建立堆疊之後,請按一下 Terraform 動作,然後選取畫。
    6. 等待工作完成,然後複查計畫。

      若要進行任何變更,請返回「堆疊詳細資訊」頁面,按一下編輯堆疊,然後進行必要的變更。然後,再次執行「劃」動作。

    7. 如果不需要進一步的變更,請返回「堆疊詳細資訊」頁面,按一下 Terraform 動作,然後選取用。
  • 使用 GitHub 中的 Terraform 程式碼部署:
    1. 前往 GitHub
    2. 將儲存區域複製或下載到您的本機電腦。
    3. 依照 README 文件中的指示進行。

更多資訊

若要深入瞭解 Oracle Cloud Infrastructure Data Science,請參閱下列資源: