7 資料監控入門
「資料監控」會評估資料隨著時間演變的方式。它可協助您深入瞭解資料的趨勢和多變量相依性。它也提供有關資料漂移的早期警告。
當資料在一段時間內從原始基準資料分離時,就會發生資料漂移。資料漂移的原因有多種,例如不斷變化的商業環境、不斷演變的使用者行為和興趣、來自第三方來源的資料修改、資料品質問題或上游資料處理管線的問題。
準確解譯模型的關鍵,並確保模型能夠解決業務問題,是瞭解資料隨時間演變的方式。資料監控與成功的模型監控互補,因為瞭解資料變更對於瞭解模型效率的變更至關重要。快速可靠地偵測資料統計特性變更的能力,可確保您的機器學習模型能夠達成業務目標。
圖 7-1 資料監督器頁面
- 建立:建立資料監督器。
附註:
支援的資料監控資料類型為 NUMERIC 和 CATEGORICAL。 - 編輯:選取資料監督器,然後按一下編輯以編輯資料監督器。
- 複製:選取資料監督器並按一下複製,即可建立監督器的複本。
- 刪除:選取資料監督器,然後按一下刪除以刪除資料監督器。
- 歷史記錄:選取資料監督器並按一下歷史記錄,即可檢視程式實際執行詳細資訊。按一下返回監督器,返回「資料監督」頁面。
- 啟動:啟動資料監視器。
- 停止:停止執行中的資料監督器。
- 更多:按一下更多 以取得更多選項以:
圖 7-2 資料監視器下的更多選項
- 啟用:選取資料監督器,然後按一下啟用以啟用停用的監督器。資料監督器預設為啟用。狀態會顯示為
SCHEDULED
。 - 停用:選取資料監督器,然後按一下停用以停用資料監督器。狀態會顯示為
DISABLED
。 - 顯示受管理的監督器:按一下此選項即可檢視由 Oracle Machine Learning UI 中的 OML Services REST API 和 Model Monitors 建立及管理的資料監督器。由這兩個元件管理的資料監視器具有系統產生的名稱,並以其名稱的特定圖示表示。
- 按一下受管理資料監控器名稱的連結圖示,以檢視關聯模型監控器的詳細資訊。關聯的模型監督器詳細資訊會顯示在投影片所在的個別窗格中。投影片窗格會顯示模型監視器名稱與連結,以檢視模型監視器結果與設定。按一下連結圖示也會在「資料監督器」頁面的下方窗格中顯示資料差異詳細資訊。按一下左上角的 X 以關閉窗格。
圖 7-3 顯示相關模型監督器結果和設定值的「資料監督器」頁面
在此範例中,投影片窗格會顯示模型監視器耗電量的詳細資訊。在投影片窗格中:
- 按一下模型監督器結果即可檢視模型監督器所計算的結果 - 設定值、模型、模型漂移、測量結果以及預測統計資料。按一下監督器以返回資料監督器頁面。請參閱檢視模型監視結果。
- 按一下模型監督器設定值,即可在編輯模型監督器頁面上檢視和編輯模型監督所監督的設定值、詳細資訊和模型。按一下取消以返回資料監督器頁面。按一下儲存以儲存任何變更。
- 按一下資料監視器名稱的核取方塊,以在下方窗格中檢視資料漂移值。
圖 7-4 選取受管理的資料監督器
- 按一下資料監督器名稱即可檢視資料監督器的詳細資訊 - 設定值、資料差異值以及監督的功能。
圖 7-5 資料監視器點擊
- 按一下受管理資料監控器名稱的連結圖示,以檢視關聯模型監控器的詳細資訊。關聯的模型監督器詳細資訊會顯示在投影片所在的個別窗格中。投影片窗格會顯示模型監視器名稱與連結,以檢視模型監視器結果與設定。按一下連結圖示也會在「資料監督器」頁面的下方窗格中顯示資料差異詳細資訊。按一下左上角的 X 以關閉窗格。
- 啟用:選取資料監督器,然後按一下啟用以啟用停用的監督器。資料監督器預設為啟用。狀態會顯示為
「資料監督器」頁面會顯示所選監督器的相關資訊:監督器名稱、基準資料、新資料、上次開始日期、上次狀態、下次執行資料、狀態以及排程。如果資料監督器順利執行,頁面也會顯示資料差異。若要檢視資料漂移,請執行下列動作:
圖 7-6 「資料監督器」頁面上的「資料差異」預覽
選取已順利執行的資料監督器,如螢幕擷取畫面所示。在下方窗格中,會顯示所選監督器的資料差異。X 軸描述分析期間,Y 軸描述資料漂移值。水平虛線是臨界值,線條說明分析期間每個時間點的漂移值。將滑鼠游標停留在行上即可檢視漂移值。如需此範例的詳細資訊,請參閱檢視資料監視結果。
- 建立資料監控
「資料監控」可讓您偵測一段時間的資料差異,以及對機器學習模型效能的潛在負面影響。您可以在「資料監視器」頁面上建立、執行及追蹤資料監視器與結果。 - 檢視資料監視器結果
「資料監視器結果」頁面會顯示所選資料監視器上已順利執行的資訊,以及每個監視功能的資料漂移詳細資料。 - 檢視歷史記錄
「歷史記錄」頁面會顯示資料監督器的程式實際執行詳細資訊。
相關主題
7.1 建立資料監視器
「資料監控」可讓您偵測一段時間內的資料差異,並可能對機器學習模型效能造成負面影響。您可以在「資料監視器」頁面上建立、執行及追蹤資料監視器與結果。
父項主題:資料監控入門
7.2 檢視資料監督器結果
「資料監督器結果」頁面會顯示所選資料監督器中已順利執行的資訊,以及每個監督功能的資料差異詳細資訊。
- 設定值 -「設定值」區段會顯示資料監督器設定值。按一下設定值的箭頭以展開此區段。您可以按一下頁面右上角的編輯來編輯資料監督器設定值。在此螢幕擷取畫面中,會顯示資料監視器耗電量的設定。
「資料監督器結果」頁面上的「圖 7-10 設定值」段落
- 漂移 -「漂移」區段會顯示每個受監督功能的資料漂移詳細資訊。在此範例中,已選取資料監視器耗電量資料監視器。X 軸描述分析期間,Y 軸描述資料漂移值。水平虛線是臨界值,線條說明分析期間每個時間點的漂移值。將滑鼠游標停留在行上即可檢視漂移值。
圖 7-11 「資料監督器結果」頁面上的「資料差異」段落
-
功能 -「功能」段落會顯示監督的功能以及計算的統計資料。
圖 7-12 「資料監督器結果」頁面上的「功能」段落
重要性資料欄中的值指出功能在指定期間內對資料漂移的影響。
對於數值資料,會計算下列統計資料:- 平均
- 標準差
- 範圍 (下限、上限)
- 空值數目
對於類別資料,會計算下列統計資料:- 唯一值的數目
- 空值數目
對於每個受監督的功能,請將滑鼠游標暫留在此處以檢視下列其他詳細資訊,如此處螢幕擷取畫面所示。
- 第一個:這是分析期間之計算統計資料的第一個值。
- 最後:這是分析期間之計算統計資料的最後一個值。
- 最大值:這是分析期間之計算統計資料的最高值。
- 最小值:這是分析期間之計算統計資料的最低值。
- 按一下功能段落中任何監督的功能,即可檢視「測量結果」、「統計資料」、「分配」以及「交叉參考列表資料欄的分佈」,如以下螢幕擷取畫面所示。在此螢幕擷取畫面中,會顯示 GLOBAL_REACTIVE_POWER 功能的「人員穩定性索引」。
圖 7-13 人口穩定性指數
運算包括:- 測量結果:會計算下列測量結果:
- 人口穩定性指數 (PSI):這是衡量人口隨時間變化的程度,或在單一數字的兩個不同人口樣本之間移動的程度。這兩個分配會合併至時段,而 PSI 會比較每個時段中項目的百分比。PSI 計算方式
PSI 值的解譯為:PSI = sum((Actual_% - Expected_%) x ln (Actual_% / Expected_%))
PSI < 0.1
表示沒有顯著的人口變更0.1 <= PSI < 0.2
表示中度人員變更PSI >= 0.2
表示大量人員變更
- Jenson Shannon Distance (JSD):這是兩種機率分佈之間的相似度測量。JSD 是 Jensen-Shannon Divergence 的平方根,與 Kullbach-Leibler Divergence (KLD) 有關。JSD 的計算方式如下:
SD(P || Q)= sqrt(0.5 x KLD(P || M) + 0.5 x KLD(Q || M))
其中,P 和 Q 是 2 個分佈,
M = 0.5 x (P + Q), KLD(P || M) = sum(Pi x ln(Pi / Mi)), and KLD(Q || M) = sum(Qi x ln(Qi / Mi))
JSD 範圍介於 0 與 1 之間的值。
- 交叉參考列表填入穩定性索引:這是兩個變數的 PSI。
- 交叉參考列表 Jenson Shannon 距離:這是兩個變數的 JSD。
- 人口穩定性指數 (PSI):這是衡量人口隨時間變化的程度,或在單一數字的兩個不同人口樣本之間移動的程度。這兩個分配會合併至時段,而 PSI 會比較每個時段中項目的百分比。PSI 計算方式
- 統計資料:您可以檢視最多 3 個所選期間的統計資料。使用這些統計計算量化資料漂移。
圖 7-14 統計資料
對於數值資料,會計算下列統計資料:- 平均
- 標準差
- 範圍 (下限、上限)
- 空值數目
對於類別資料,會計算下列統計資料:- 唯一值的數目
- 空值數目
- 分佈:含有圖例的功能分佈圖會顯示所選期間與基準的功能儲位 (選擇性)。
圖 7-15 交叉參考列表資料欄的分佈圖和分佈圖
- 以交叉參考列表資料欄分佈:熱力圖表示所選交叉參考列表和功能資料欄的分佈密度。紅色表示最高密度。
附註:
在資料漂移監督中,nulls
會個別追蹤為number_of_missing_values
。
- 測量結果:會計算下列測量結果:
父項主題:資料監控入門
7.3 檢視歷史記錄
「歷史記錄」頁面會顯示資料監督器的程式實際執行詳細資訊。
選取資料監督器並按一下歷史記錄,即可檢視程式實際執行詳細資訊。歷史記錄頁面會顯示下列有關資料監督器程式實際執行的資訊:
圖 7-16 資料監督器歷史記錄頁面
- 實際開始日期:這是資料監視器實際開始的日期。
- 要求的開始日期:這是在建立資料監督器時,在
Start Date
欄位中輸入的日期。 - 狀態:狀態為
SUCCEEDED
和FAILED
。 - 詳細資訊:如果資料監督器失敗,詳細資訊會列在此處。
- 持續時間:這是執行資料監視所花費的時間。
按一下返回監督器,返回「資料監督」頁面。
父項主題:資料監控入門