醫療照護使用案例的訓練機器學習模型

使用 Oracle Cloud Infrastructure Data Science 服務，探索及訓練醫療照護使用案例的機器學習模型。

架構

此架構是在 Oracle Cloud Infrastructure (OCI) 中的典型 Oracle Cloud Infrastructure Data Science 部署。

下圖顯示您可以視需要納入的核心服務與部分選擇性服務。

healthcare-ml-design-pattern.png 圖解說明

healthcare-ml-design-pattern-oracle.zip

下列是架構的主要元件：

物件儲存或 Oracle Autonomous Database 作為儲存位置。
用於探索與開發模型的資料科學記事本階段作業
模型部署以設定模型，並透過 REST API 提供模型。

此架構支援下列元件：

區域
Oracle Cloud Infrastructure 區域是一個包含一或多個資料中心 (稱為可用性網域) 的本地化地理區域。區域與其他區域無關，而且遠距離也能分隔它們 (跨國家或甚至大陸)。
虛擬雲端網路 (VCN) 和子網路
VCN 是您在 Oracle Cloud Infrastructure 區域中設定的可客製化的軟體定義網路。與傳統資料中心網路一樣，VCN 可讓您完整控制您的網路環境。VCN 可以有多個非重疊的 CIDR 區塊，您可以在建立 VCN 之後變更這些區塊。您可以將 VCN 區段成子網路，可以將範圍擴展到區域或可用性網域。每個子網路都包含一個連續的位址範圍，這些位址不會與 VCN 中的其他子網路重疊。您可以在建立子網路後變更其大小。子網路可以是公用或專用。
網際網路閘道
網際網路閘道可允許 VCN 中公用子網路與公用網際網路之間的流量。
API 閘道
Oracle API Gateway 可讓您在網路內存取的專用端點發布 API，並且在需要時向公用網際網路公開。端點支援 API 驗證、要求與回應轉換、CORS、認證與授權，以及要求限制。
資料整合
Oracle Cloud Infrastructure Data Integration 是一個完全受管理、無伺服器、雲端原生服務，可將來自各種資料來源的資料擷取、載入、轉換、清理及重新塑造到目標 Oracle Cloud Infrastructure 服務，例如 Autonomous Data Warehouse 和 Oracle Cloud Infrastructure Object Storage 。ETL (擷取轉換載入) 利用 Spark 的完全管理橫向擴展處理，ELT (擷取載入轉換) 利用 Autonomous Data Warehouse 的完整 SQL 下推功能，將資料移動最小化，並改善新擷取資料價值的時間。使用者可使用可最佳化整合流程以產生最有效率的引擎和協調、自動配置及調整執行環境規模的直觀式無碼使用者介面，設計資料整合流程。Oracle Cloud Infrastructure Data Integration 提供互動式探索與資料準備，並藉由定義處理綱要變更的規則，協助資料工程師防止綱要偏移。
資料目錄
Oracle Cloud Infrastructure Data Catalog 是企業資料完全託管的自助服務資料探索與治理解決方案。它提供資料工程師、資料科學家、資料管理者以及資料主管的單一協同合作環境，用來管理組織的技術、業務和作業描述資料。
物件儲存
物件儲存可讓您快速存取任意內容類型的大量結構化和非結構化資料，包括資料庫備份、分析資料，以及影像和影片等豐富內容。您可以安全地儲存資料，然後直接從網際網路或雲端平台內擷取資料。順暢調整儲存體，不會發生任何效能或服務可靠性的降低情形。使用標準的「熱門」儲存空間，快速、立即、經常存取。將封存儲存體用於您長期保留的「冷」儲存體，極少或罕見地存取。
Autonomous Database
Oracle Cloud Infrastructure Autonomous Database 是一個完全託管且預先設定的資料庫環境，可用來進行交易處理和資料倉儲工作負載。您不需要設定或管理任何硬體，或者安裝任何軟體。Oracle Cloud Infrastructure 可處理建立資料庫，以及備份、打補丁、升級和調整資料庫。
資料科學
Oracle Cloud Infrastructure Data Science 是一種端對端機器學習 (ML) 服務，提供 JupyterLab 記事本環境及存取數百種常見的開源工具與架構。使用 NVIDIA GPU、AutoML 功能及自動超參數調整來建立及訓練 ML 模型。將模型部署為 HTTP 端點或使用 Oracle Functions。透過版本控制、可重複的工作及模型目錄管理模型。

機器學習的考量

開始使用 Oracle Cloud Infrastructure Data Science 服務的機器學習時，請考慮下列事項：

瞭解資料
資料是任何機器學習專案的主要與最關鍵的元件。發布的資料集通常已經經過策劃，而功能甚至已經為您擷取，因此對於瞭解服務來說，這是個不錯的選擇。

使用新資料需要更多工作來清除使用者自建物件、植入遺漏的值，以及使用額外功能來轉換、編碼或擴增資料集。

資料科學家工作流程的這個部分通常是耗時最多的，而且可以輕鬆將 80% 到 90% 的時間花費在機器學習專案上。
學習 Jupyter 筆記型電腦語法
Oracle Cloud Infrastructure Data Science 服務建置於廣為採用 Jupyter Notebook 架構的頂端。它提供豐富的視覺環境，可實驗 python 語言中的資料。Python 是資料科學最受歡迎的語言之一，Jupyter Notebook 以特定的語法 (稱為魔術) 增加語言，協助減少部分繁複的操作，同時增強資料的視覺呈現。請花時間深入瞭解 Jupyter Notebook 特定的語法，以充分利用這些功能。
使用工作進行昂貴的作業
雖然勘探是非常適合 Jupyter Notebook 介面的互動活動，但耗費大量的作業 (例如模型訓練與超參數調整) 可能需要很長的時間，而且可以卸載至「工作」功能，讓使用者可以在專用機器上執行長時間執行的命令檔。