7 資料監控入門

「資料監控」會評估資料隨著時間演變的方式。它可協助您深入瞭解資料的趨勢和多變量相依性。它也提供有關資料漂移的早期警告。

當資料在一段時間內從原始基準資料分離時,就會發生資料漂移。資料漂移的原因有多種,例如不斷變化的商業環境、不斷演變的使用者行為和興趣、來自第三方來源的資料修改、資料品質問題或上游資料處理管線的問題。

準確解譯模型的關鍵,並確保模型能夠解決業務問題,是瞭解資料隨時間演變的方式。資料監控與成功的模型監控互補,因為瞭解資料變更對於瞭解模型效率的變更至關重要。快速可靠地偵測資料統計特性變更的能力,可確保您的機器學習模型能夠達成業務目標。

您可以使用 Oracle Machine Learning 使用者介面的資料監督功能來監督您的資料。若要監督您的資料,請按一下 Oracle Machine Learning UI 首頁的「雲端」功能表,按一下監督,然後按一下資料以開啟「資料監督器」頁面。在「資料監督器」頁面上,您可以執行下列作業:

圖 7-1 資料監督器頁面

「資料監控器」頁面
  • 建立:建立資料監督器。

    附註:

    支援的資料監控資料類型為 NUMERIC 和 CATEGORICAL。
  • 編輯:選取資料監督器,然後按一下編輯以編輯資料監督器。
  • 複製:選取資料監督器並按一下複製,即可建立監督器的複本。
  • 刪除:選取資料監督器,然後按一下刪除以刪除資料監督器。
  • 歷史記錄:選取資料監督器並按一下歷史記錄,即可檢視程式實際執行詳細資訊。按一下返回監督器,返回「資料監督」頁面。
  • 啟動:啟動資料監視器。
  • 停止:停止執行中的資料監督器。
  • 更多:按一下更多 以取得更多選項以:

    圖 7-2 資料監視器下的更多選項

    「資料監督器」底下的「其他」選項
    • 啟用:選取資料監督器,然後按一下啟用以啟用停用的監督器。資料監督器預設為啟用。狀態會顯示為 SCHEDULED
    • 停用:選取資料監督器,然後按一下停用以停用資料監督器。狀態會顯示為 DISABLED
    • 顯示受管理的監督器:按一下此選項即可檢視由 Oracle Machine Learning UI 中的 OML Services REST API 和 Model Monitors 建立及管理的資料監督器。由這兩個元件管理的資料監視器具有系統產生的名稱,並以其名稱的特定圖示表示。
      • 按一下受管理資料監控器名稱的連結圖示,以檢視關聯模型監控器的詳細資訊。關聯的模型監督器詳細資訊會顯示在投影片所在的個別窗格中。投影片窗格會顯示模型監視器名稱與連結,以檢視模型監視器結果與設定。按一下連結圖示也會在「資料監督器」頁面的下方窗格中顯示資料差異詳細資訊。按一下左上角的 X 以關閉窗格。

        圖 7-3 顯示相關模型監督器結果和設定值的「資料監督器」頁面

        顯示相關模型監督結果和設定值的「資料監督器」頁面

        在此範例中,投影片窗格會顯示模型監視器耗電量的詳細資訊。在投影片窗格中:

        • 按一下模型監督器結果即可檢視模型監督器所計算的結果 - 設定值、模型、模型漂移、測量結果以及預測統計資料。按一下監督器以返回資料監督器頁面。請參閱檢視模型監視結果
        • 按一下模型監督器設定值,即可在編輯模型監督器頁面上檢視和編輯模型監督所監督的設定值、詳細資訊和模型。按一下取消以返回資料監督器頁面。按一下儲存以儲存任何變更。
      • 按一下資料監視器名稱的核取方塊,以在下方窗格中檢視資料漂移值。

        圖 7-4 選取受管理的資料監督器

        選取受管理資料監督器
      • 按一下資料監督器名稱即可檢視資料監督器的詳細資訊 - 設定值、資料差異值以及監督的功能。

        圖 7-5 資料監視器點擊

        資料監控點擊

「資料監督器」頁面會顯示所選監督器的相關資訊:監督器名稱、基準資料、新資料、上次開始日期、上次狀態、下次執行資料、狀態以及排程。如果資料監督器順利執行,頁面也會顯示資料差異。若要檢視資料漂移,請執行下列動作:

圖 7-6 「資料監督器」頁面上的「資料差異」預覽

「資料監督器」頁面上的資料差異預覽

選取已順利執行的資料監督器,如螢幕擷取畫面所示。在下方窗格中,會顯示所選監督器的資料差異。X 軸描述分析期間,Y 軸描述資料漂移值。水平虛線是臨界值,線條說明分析期間每個時間點的漂移值。將滑鼠游標停留在行上即可檢視漂移值。如需此範例的詳細資訊,請參閱檢視資料監視結果

相關主題

7.1 建立資料監視器

「資料監控」可讓您偵測一段時間內的資料差異,並可能對機器學習模型效能造成負面影響。您可以在「資料監視器」頁面上建立、執行及追蹤資料監視器與結果。

建立資料監視器:
  1. 在 Oracle Machine Learning UI 左側導覽功能表中,展開監督,然後按一下資料以開啟「資料監督」頁面。
  2. 在「資料監督」頁面上,按一下建立以開啟「新建資料監督器」頁面。
  3. 在「新建資料監視器」頁面上,輸入下列詳細資料:

    圖 7-7 新資料監視器

    新建資料監視器
    1. 監督器名稱:輸入資料監督器的名稱。
    2. 註解:輸入註解。這是選用性欄位。
    3. 基準資料:這是包含要監督之基準資料的表格或視觀表。按一下搜尋圖示可開啟選取表格對話方塊。在這裡,選取一個綱要,然後選取一個表格。

      附註:

      支援的資料監控資料類型為 NUMBER, BINARY_DOUBLE, FLOAT, BINARY_FLOAT, VARCHAR2, CHAR, NCHAR,NVARCHAR2,長度為 <=4000
    4. 新資料:這是含有要與基準資料比較之新資料的表格或視觀表。按一下搜尋圖示可開啟選取表格對話方塊。依序選取綱要與表格。

      附註:

      支援的資料監控資料類型為 NUMBER, BINARY_DOUBLE, FLOAT, BINARY_FLOAT, VARCHAR2, CHAR, NCHAR,NVARCHAR2,長度為 <=4000
    5. 交叉參考列表:從下拉式清單中選取一個屬性。基準和新資料中的這個屬性可作為資料雙變量分析的錨點或目標。

      附註:

      監督問題中的目標資料欄可作為此欄位中的錨點資料欄傳送。對於未監督的問題,它可以是任何相關資料欄。不過,它將會是應用程式特定的。
    6. 案例 ID:這是選擇性欄位。輸入基準與新資料的案例 ID 以改善結果的重複性。
    7. 時間資料欄:這是將時間資訊儲存在「新資料」表格或檢視中的資料欄名稱。從下拉式清單選取時間資料欄。

      附註:

      如果「時間資料欄」空白,則會將整個「新資料」視為一個期間。
    8. 分析期間:這是對「新資料」執行資料監督的時間長度。選取資料監控的分析期間。選項包括 DayWeekMonthYear
    9. 開始日期:這是資料監視器排程的開始日期。如果您未提供開始日期,將使用目前日期作為開始日期。
    10. 重複:此值定義資料監視器針對定義的頻率重複執行的次數。請輸入 1 到 99 之間的數字。例如,如果您在此處的重複欄位中輸入 2,在頻率欄位中輸入 Minutes,則資料監視器將每 2 分鐘執行一次。
    11. 頻率:此值決定對「新資料」執行資料監督器的頻率。選取資料監控的頻率。這些選項包括「分鐘數」、「時數」、「天數」、「週數」、「月數」。例如,如果您在頻率欄位中選取 Minutes,在重複欄位中選取 2,在開始日期欄位中選取 5/30/23,則根據排程,資料監視器將每 2 分鐘從 5/30/23 執行一次。
  4. 按一下重新計算:選取此選項即可重新計算已計算期間的分析。預設會停用「重新計算」。
    • 啟用時,會針對「開始日期」欄位中指定的期間和結束時間執行資料漂移分析。分析將會覆寫指定期間內已經存在的結果。這表示分析將在期間內使用目前資料以外的新資料進行計算。視選取的頻率而定,新的分析結果可能會與現有結果重疊。
    • 停用時,結果表格中的期間資料會依原樣保留。系統只會將最近期間的新資料納入分析考量,並將結果新增至結果表格。
  5. 按一下其他設定值以展開此區段並提供資料監督器的進階設定值:

    圖 7-8 資料監督其他設定值

    資料監督其他設定值段落
    1. 差異臨界值:差異會擷取基準資料與新資料期間之間的相對效能變更。根據您特定的機器學習問題,設定資料差異偵測的臨界值。預設為 0.7.

      附註:

      您可以根據使用案例調整臨界值。增加值將會產生較少的警示,而減少值則會產生更多警示。
      • 高於此臨界值的差異表示資料的重大變更。超過臨界值表示可能需要重新建立和重新部署模型。
      • 低於此臨界值的差異表示資料變更不足,無法保證進一步的調查或採取行動。
    2. 資料庫服務層次:這是 Autonomous Database 服務層次 - LowMediumHigh。預設值為 Low。與 Low 相比,服務層次 Medium 可為執行的資料監督器提供更多資源。與 Medium. 相比,服務層級 High 可為執行的資料監視器提供更多資源
    3. 分析篩選:若要在特定期間進行資料監督分析,請啟用此選項。將滑動軸移至右側以啟用滑動軸,然後分別在開始日期結束日期欄位中選取日期。此欄位預設為停用。
      • 起始日期:這是「新資料」中監督的開始日期或時戳。它假設表格中存在時間資料欄。如果您使用「分析篩選」選項,則此為必要欄位。
      • 終止日期:這是「新資料」中監督的結束日期或時戳。它假設表格中存在時間資料欄。如果您使用「分析篩選」選項,則此為必要欄位。
    4. 執行次數上限:這是資料監督器可根據此排程執行的次數上限。預設為 3.
  6. 「功能」方格會顯示要監督的功能清單。您可以在此處選取要包括或不包括在監督中的功能。預設會選取所有功能。如果選取的資料是表格,並且由 Autonomous Database 自動收集 RDBMS 統計資料,就會提供功能統計資料。Oracle Machine Learning Services 會計算第一次為表格和視觀表執行時的統計資料,並在第一次執行之後在此處顯示運算。後續執行會更新統計資料。

    圖 7-9 資料監視器中的功能方格

    資料監視器中的功能方格

    附註:

    無法選取個案 ID跨頁標資料欄。
  7. 按一下「儲存」。這會完成建立資料監督器的作業。

    附註:

    您現在必須移至「資料監督」頁面,選取資料監督器,然後按一下啟動以開始資料監督。
    資料監督器順利執行之後,請選取資料監督頁面上的監督器,以檢視資料差異和其他資料監督器的詳細資訊。如需詳細資訊,請參閱資料監控入門

7.2 檢視資料監督器結果

「資料監督器結果」頁面會顯示所選資料監督器中已順利執行的資訊,以及每個監督功能的資料差異詳細資訊。

在「資料監督器」頁面上,按一下已順利執行的資料監督器。在此範例中,已選取資料監視器耗電量。資料監視器的結果會顯示在「資料監視器結果」頁面上,其中包含下列區段:
  • 設定值 -「設定值」區段會顯示資料監督器設定值。按一下設定值的箭頭以展開此區段。您可以按一下頁面右上角的編輯來編輯資料監督器設定值。在此螢幕擷取畫面中,會顯示資料監視器耗電量的設定。

    「資料監督器結果」頁面上的「圖 7-10 設定值」段落

    「資料監視器結果」頁面上的「設定」區段
  • 漂移 -「漂移」區段會顯示每個受監督功能的資料漂移詳細資訊。在此範例中,已選取資料監視器耗電量資料監視器。X 軸描述分析期間,Y 軸描述資料漂移值。水平虛線是臨界值,線條說明分析期間每個時間點的漂移值。將滑鼠游標停留在行上即可檢視漂移值。

    圖 7-11 「資料監督器結果」頁面上的「資料差異」段落

    「資料監視器結果」頁面上的「資料差異」區段
  • 功能 -「功能」段落會顯示監督的功能以及計算的統計資料。

    圖 7-12 「資料監督器結果」頁面上的「功能」段落

    「資料監控結果」頁面上的「功能」區段

    重要性資料欄中的值指出功能在指定期間內對資料漂移的影響。

    對於數值資料,會計算下列統計資料:
    • 平均
    • 標準差
    • 範圍 (下限、上限)
    • 空值數目
    對於類別資料,會計算下列統計資料:
    • 唯一值的數目
    • 空值數目

    對於每個受監督的功能,請將滑鼠游標暫留在此處以檢視下列其他詳細資訊,如此處螢幕擷取畫面所示。

    • 第一個:這是分析期間之計算統計資料的第一個值。
    • 最後:這是分析期間之計算統計資料的最後一個值。
    • 最大值:這是分析期間之計算統計資料的最高值。
    • 最小值:這是分析期間之計算統計資料的最低值。
  • 按一下功能段落中任何監督的功能,即可檢視「測量結果」、「統計資料」、「分配」以及「交叉參考列表資料欄的分佈」,如以下螢幕擷取畫面所示。在此螢幕擷取畫面中,會顯示 GLOBAL_REACTIVE_POWER 功能的「人員穩定性索引」。

    圖 7-13 人口穩定性指數

    人口穩定性指數
    運算包括:
    • 測量結果:會計算下列測量結果:
      • 人口穩定性指數 (PSI):這是衡量人口隨時間變化的程度,或在單一數字的兩個不同人口樣本之間移動的程度。這兩個分配會合併至時段,而 PSI 會比較每個時段中項目的百分比。PSI 計算方式

        PSI = sum((Actual_% - Expected_%) x ln (Actual_% / Expected_%))

        PSI 值的解譯為:
        • PSI < 0.1 表示沒有顯著的人口變更
        • 0.1 <= PSI < 0.2 表示中度人員變更
        • PSI >= 0.2 表示大量人員變更
      • Jenson Shannon Distance (JSD):這是兩種機率分佈之間的相似度測量。JSD 是 Jensen-Shannon Divergence 的平方根,與 Kullbach-Leibler Divergence (KLD) 有關。JSD 的計算方式如下:

        SD(P || Q)= sqrt(0.5 x KLD(P || M) + 0.5 x KLD(Q || M))

        其中,P 和 Q 是 2 個分佈,M = 0.5 x (P + Q), KLD(P || M) = sum(Pi x ln(Pi / Mi)), and KLD(Q || M) = sum(Qi x ln(Qi / Mi))

        JSD 範圍介於 0 與 1 之間的值。

      • 交叉參考列表填入穩定性索引:這是兩個變數的 PSI。
      • 交叉參考列表 Jenson Shannon 距離:這是兩個變數的 JSD。
    • 統計資料:您可以檢視最多 3 個所選期間的統計資料。使用這些統計計算量化資料漂移。

      圖 7-14 統計資料

      統計資料
      對於數值資料,會計算下列統計資料:
      • 平均
      • 標準差
      • 範圍 (下限、上限)
      • 空值數目
      對於類別資料,會計算下列統計資料:
      • 唯一值的數目
      • 空值數目
    • 分佈:含有圖例的功能分佈圖會顯示所選期間與基準的功能儲位 (選擇性)。

      圖 7-15 交叉參考列表資料欄的分佈圖和分佈圖

      含有交叉參考列表資料欄的分佈
    • 以交叉參考列表資料欄分佈:熱力圖表示所選交叉參考列表和功能資料欄的分佈密度。紅色表示最高密度。

      附註:

      在資料漂移監督中,nulls 會個別追蹤為 number_of_missing_values

7.3 檢視歷史記錄

「歷史記錄」頁面會顯示資料監督器的程式實際執行詳細資訊。

選取資料監督器並按一下歷史記錄,即可檢視程式實際執行詳細資訊。歷史記錄頁面會顯示下列有關資料監督器程式實際執行的資訊:

圖 7-16 資料監督器歷史記錄頁面

「資料監控記錄」頁面
  • 實際開始日期:這是資料監視器實際開始的日期。
  • 要求的開始日期:這是在建立資料監督器時,在 Start Date 欄位中輸入的日期。
  • 狀態:狀態為 SUCCEEDEDFAILED
  • 詳細資訊:如果資料監督器失敗,詳細資訊會列在此處。
  • 持續時間:這是執行資料監視所花費的時間。

按一下返回監督器,返回「資料監督」頁面。