建立模型監視器

8.1 建立模型監督器

模型監督器可協助您監督數個相容的模型，以及計算模型漂移圖表。相容模型指的是受過相同目標和探勘函數訓練的模型。模型漂移圖包含多系列資料漂移點，每個受監控模型一個點。

模型監督器可以選擇性地監督資料，以提供額外的洞察分析。此額外洞察分析是「差異功能重要性與預測功能影響」圖表，會在您建立模型監視器時選取「監視器資料」選項時產生此圖表。

本主題討論如何建立模型監視器。此範例使用個別家庭用電量資料集，其中包含 2007 至 2010 年間家庭的各種消耗度量。目標是瞭解家庭消費在四年內是否有變化以及如何改變。此範例顯示如何追蹤資料漂移對模型預測準確性的影響。

資料集包含下列資料欄：

DATE_TIME - 包含 dd:mm:yyyy:hh:mm:ss 格式的日期和時間相關資訊。
GLOBAL_ACTIVE_POWER - 這是家庭全球分鐘平均主動電源 (KB)。
GLOBAL_REACTIVE_POWER - 這是家庭全球分鐘平均反應功率 (千瓦)。
VOLTAGE - 這是分鐘平均電壓 (伏特)。
GLOBAL_INTENSITY - 這是家庭全域分鐘平均目前強度 (安培)。
SUB_METERING_1 - 這是能源次計量第 1 號 (在活躍能量的瓦時)。它對應至廚房。
SUB_METERING_2 - 這是能量次計量第 2 號 (在活躍能量的瓦時)。它對應於洗衣房。
SUB_METERING_3 - 這是能量次計量第 2 號 (在活躍能量的瓦時)。相對應於電熱水器和空調。

建立模型監督器：

在 Oracle Machine Learning UI 左側導覽功能表中，展開監督，然後按一下模型以開啟「模型監督」頁面。或者，您可以按一下「模型監督」圖示來開啟「模型監督」頁面。
在「模型監督」頁面上，按一下建立以開啟「新建模型監督器」頁面。
在「新建模型監督器」頁面上，輸入下列詳細資訊：

圖 8-5 新模型監督器頁面
1. 監督器名稱：輸入模型監督器的名稱。此處使用「耗電量」的名稱。
2. 註解：輸入註解。這是選用性欄位。
3. 基準資料：這是包含要監督之基準資料的表格或視觀表。按一下搜尋圖示可開啟選取表格對話方塊。依序選取綱要與表格。在這裡，會選取包含 2007 年資料的表格。
4. 新資料：這是含有要與基準資料比較之新資料的表格或視觀表。按一下搜尋圖示可開啟選取表格對話方塊。依序選取綱要與表格。在這裡，會選取包含 2010 年資料的表格。
5. 案例 ID：這是選擇性欄位。輸入基準與新資料的案例 ID 以改善結果的重複性。
6. 時間資料欄：這是將時間資訊儲存在「新資料」表格或檢視中的資料欄名稱。從下拉式清單中選取 DATE_TIME 資料欄。
  
  附註：
  
  如果「時間資料欄」空白，則會將整個「新資料」視為一個期間。
7. 分析期間：這是對「新資料」執行模型監督的時間長度。選取模型監控的分析期間。選項包括 Day、Week、Month、Year。
8. 開始日期：這是模型監視排程的開始日期。如果您未提供開始日期，則將使用目前日期作為開始日期。
9. 重複：此值定義針對定義的頻率重複執行模型監視的次數。請輸入 1 到 99 之間的數字。例如，如果您在此的重複欄位中輸入 2，在頻率欄位中輸入 Minutes，則模型監督器每 2 分鐘就會執行一次。
10. 頻率：此值決定模型監督器在「新資料」執行的頻率。選取模型監控的頻率。這些選項包括「分鐘數」、「時數」、「天數」、「週數」、「月數」。例如，如果您在頻率欄位中選取 Minutes，在重複欄位中選取 2，在開始日期欄位中選取 5/30/23，則根據排程，模型監視器將每 2 分鐘從 5/30/23 執行一次。
11. 探勘函數：可用的探勘函數為 Regression 和 Classification.選取適用的函數。在此範例中，已選取 Regression。
12. 目標：從下拉式清單中選取一個屬性。在此範例中，GLOBAL_ACTIVE_POWER 是用來作為迴歸模型的目標。
13. 重新計算：選取此選項可更新已計算的期間。這表示只會計算輸出結果表格中沒有的時段。預設會停用「重新計算」。
  - 啟用時，會針對「開始日期」欄位中指定的期間和結束時間執行差異分析。分析將會覆寫指定期間內已經存在的結果。這表示分析將在期間內使用目前資料以外的新資料進行計算。
  - 停用時，結果表格中的期間資料會依原樣保留。系統只會將最近期間的新資料納入分析考量，並將結果新增至結果表格。
14. 監督資料：選取此選項可啟用指定資料的資料監督功能。啟用時，也會與模型監視器一起建立資料監視器，以計算模型特定結果中的預測功能影響與偏差功能影響。
按一下其他設定值以展開此區段並提供模型監督器的進階設定值：

圖 8-6 「新建模型監督器」頁面上的「其他設定值」段落
1. 測量結果：根據在「建立模型監督器」頁面的探勘函數欄位中選取的探勘函數，會列出適用的測量結果。按一下下拉式清單以選取測量結果。
  對於採礦功能「分類」，分析指標為：
  - 準確度 - 計算正確分類案例的比例 - 正數與負數。例如，如果總 TP (True Positives) +TN (True Negatives) 在 TP+TN+FP+FN (True Positives+True Negatives+False Positives+False Negatives) 案例中正確分類案例，則公式為：
    Accuracy = (TP+TN)/(TP+TN+FP+FN)
  - 平衡準確度 - 評估二進位分類器的優點。這在類別不平衡時特別有用，也就是說，當兩個類別的其中一個出現頻率比其他類別高時。這通常會在許多設定值中發生，例如異常偵測等等。
  - ROC AUC (ROC 曲線下的區域) - 不論決策臨界值為何，都提供歧視的聚總計量。AUC - ROC 曲線是各種臨界值設定之分類問題的效能測量。
  - 回職 - 計算正確分類的實際職位比例。
  - Precision - 計算「真正數」的預測「正數」比例。
  - F1 分數 - 將精確度與恢復結合成單一數字。F1 分數是使用由公式計算的調和平均值來計算：
    F1-score = 2 × (precision × recall)/(precision + recall)
  對於多重類別分類，度量為：
  - 正確率
  - 平衡準確性
  - Macro_F1
  - Macro_Precision
  - Macro_Recall
  - Weighted_F1
  - Weighted_Precision
  - Weighted_Recall
  對於「回歸」，分析指標為：
  - R2 - 計算資料與配適迴歸線相近程度的統計計量。一般而言，R 平方值越高，模型越適合您的資料。R2 的值一律介於 0 到 1 之間，其中：
    - 0 表示模型未說明回應資料的平均值變化。
    - 1 表示模型說明回應資料在其平均值周圍的所有變化。
  - 均方差 - 這是預測目標與真目標的平方差平均值。
  - 平均絕對錯誤 - 這是預測目標與實際目標的絕對差異平均值。
  - 中位數絕對誤差 - 這是預測目標與實際目標之間絕對差異的中位數。
2. 差異臨界值：差異會擷取基準資料與新資料期間之間的相對效能變更。根據您特定的機器學習問題，設定模型差異偵測的臨界值。預設為 0.7.
  - 高於此臨界值的差異表示模型預測有顯著的變更。超過臨界值表示可能需要重新建立和重新部署模型。
  - 低於此臨界值的差異表示資料變更不足，無法保證進一步的調查或採取行動。
3. 資料庫服務層次：這是工作的服務層次，可以是 LOW、MEDIUM 或 HIGH。
4. 分析篩選：如果您想要針對特定期間進行模型監督分析，請啟用此選項。將滑動軸移至右側以啟用滑動軸，然後分別在開始日期和結束日期欄位中選取日期。此欄位預設為停用。
  - 起始日期：這是「新資料」中監督的開始日期或時戳。它假設表格中存在時間資料欄。如果您使用「分析篩選」選項，則此為必要欄位。
  - 終止日期：這是「新資料」中監督的結束日期或時戳。它假設表格中存在時間資料欄。如果您使用「分析篩選」選項，則此為必要欄位。
5. 執行次數上限：這是可根據此排程執行模型監督器的次數上限。預設為 3.
在模型區段中，選取要監督的模型，然後按一下頁面右上角的儲存。在探勘函數和目標欄位中提供值之後，便會取得已部署的模型清單，並在「模型」區段中顯示。模型是從「模型」頁面或從 AutoML 領先者名單部署。您可以在「模型」頁面的「部署」頁籤中檢視已部署模型的完整清單。建置的模型由「OML 服務」管理。

附註：
如果您刪除任何模型，則必須重新部署模型。模型不是以綱要為基礎的模型，而是部署到 OML 服務的模型。

圖 8-7 「新模型監督器」頁面上的「模型」段落

成功建立模型監視後，會顯示訊息：Model monitor has been created successfully.

附註：
您現在必須移至「模型監督」頁面，選取模型監督器，然後按一下開始以開始模型監督。

父項主題：開始使用模型監督