7 데이터 모니터링 시작하기
데이터 모니터링은 시간이 지남에 따라 데이터가 어떻게 발전하는지 평가합니다. 데이터의 추세 및 다변량 종속성에 대한 통찰력을 제공합니다. 또한 데이터 드리프트에 대한 조기 경고를 제공합니다.
데이터 드리프트는 시간이 지남에 따라 데이터가 원래 기준선 데이터에서 분기될 때 발생합니다. 데이터 드리프트는 변화하는 비즈니스 환경, 진화하는 사용자 행동 및 관심, 타사 소스의 데이터 수정, 데이터 품질 문제, 업스트림 데이터 처리 파이프라인 관련 문제 등 다양한 이유로 발생할 수 있습니다.
모델을 정확하게 해석하고 모델이 비즈니스 문제를 해결할 수 있도록 보장하는 핵심은 시간이 지남에 따라 데이터가 어떻게 진화하는지 이해하는 것입니다. 데이터 변경 사항을 이해하는 것이 모델의 효능 변경 사항을 이해하는 데 중요하므로 데이터 모니터링은 성공적인 모델 모니터링을 보완합니다. 데이터의 통계적 속성 변화를 빠르고 안정적으로 감지할 수 있는 기능을 통해 머신 러닝 모델이 비즈니스 목표를 달성할 수 있습니다.
그림 7-1 데이터 모니터 페이지
- 생성: 데이터 모니터를 생성합니다.
주:
데이터 모니터링에 지원되는 데이터 유형은 NUMERIC 및 CATEGORICAL입니다. - 편집: 데이터 모니터를 선택하고 편집을 눌러 데이터 모니터를 편집합니다.
- 복제: 데이터 모니터를 선택하고 복제를 눌러 모니터 복사본을 생성합니다.
- 삭제: 데이터 모니터를 선택하고 삭제를 눌러 데이터 모니터를 삭제합니다.
- 내역: 데이터 모니터를 선택하고 내역을 눌러 런타임 세부정보를 봅니다. 모니터로 돌아가기를 눌러 [데이터 모니터링] 페이지로 돌아갑니다.
- 시작: 데이터 모니터를 시작합니다.
- 정지: 실행 중인 데이터 모니터를 중지합니다.
- 더 보기: 더 보기를 누르면 다음과 같은 추가 옵션이 표시됩니다.
그림 7-2 데이터 모니터 아래의 추가 옵션
- 사용: 데이터 모니터를 선택하고 사용을 눌러 사용 안함으로 설정된 모니터를 사용으로 설정합니다. 기본적으로 데이터 모니터는 사용으로 설정되어 있습니다. 상태가
SCHEDULED
로 표시됩니다. - 사용 안함: 데이터 모니터를 선택하고 사용 안함을 눌러 데이터 모니터를 사용 안함으로 설정합니다. 상태가
DISABLED
로 표시됩니다. - 관리 모니터 표시: Oracle Machine Learning UI에서 OML Services REST API 및 모델 모니터로 생성 및 관리되는 데이터 모니터를 보려면 이 옵션을 누릅니다. 이러한 두 구성 요소로 관리되는 데이터 모니터에는 시스템 생성 이름이 있으며 해당 이름에 대해 특정 아이콘으로 표시됩니다.
- 관리되는 데이터 모니터 이름에 대한 링크 아이콘을 눌러 연관된 모델 모니터의 세부정보를 봅니다. 연관된 모델 모니터 세부정보가 슬라이드인 별도의 창에 표시됩니다. 슬라이드인 창에는 모델 모니터 결과 및 설정을 볼 수 있는 링크가 포함된 모델 모니터 이름이 표시됩니다. 링크 아이콘을 누르면 데이터 모니터 페이지의 아래쪽 창에 데이터 드리프트 세부정보도 표시됩니다. 왼쪽 상단 모서리에 있는 X를 눌러 창을 닫습니다.
그림 7-3 연관된 모델 모니터 결과 및 설정을 표시하는 데이터 모니터 페이지
이 예에서 슬라이드인 창에는 모델 모니터 Power Consumption의 세부 정보가 표시됩니다. 슬라이드 인 창에서 다음을 수행합니다.
- 모델 모니터 결과를 눌러 모델 모니터로 계산된 결과(설정, 모델, 모델 드리프트, 측정항목 및 예측 통계)를 봅니다. 모니터를 눌러 데이터 모니터 페이지로 돌아갑니다. 모델 모니터 결과 보기를 참조하십시오.
- 모델 모니터 설정을 눌러 모델 모니터 편집 페이지에서 모델 모니터가 모니터하는 설정, 세부정보 및 모델을 보고 편집합니다. 취소를 눌러 데이터 모니터 페이지로 돌아갑니다. 저장을 눌러 변경사항을 저장합니다.
- 아래쪽 창에서 데이터 드리프트 값을 보려면 데이터 모니터 이름에 대한 확인란을 누릅니다.
그림 7-4 관리형 데이터 모니터 선택
- 데이터 모니터 이름(설정, 데이터 드리프트 값 및 모니터된 기능)을 눌러 데이터 모니터의 세부정보를 봅니다.
그림 7-5 데이터 모니터 클릭
- 관리되는 데이터 모니터 이름에 대한 링크 아이콘을 눌러 연관된 모델 모니터의 세부정보를 봅니다. 연관된 모델 모니터 세부정보가 슬라이드인 별도의 창에 표시됩니다. 슬라이드인 창에는 모델 모니터 결과 및 설정을 볼 수 있는 링크가 포함된 모델 모니터 이름이 표시됩니다. 링크 아이콘을 누르면 데이터 모니터 페이지의 아래쪽 창에 데이터 드리프트 세부정보도 표시됩니다. 왼쪽 상단 모서리에 있는 X를 눌러 창을 닫습니다.
- 사용: 데이터 모니터를 선택하고 사용을 눌러 사용 안함으로 설정된 모니터를 사용으로 설정합니다. 기본적으로 데이터 모니터는 사용으로 설정되어 있습니다. 상태가
[데이터 모니터] 페이지에는 모니터 이름, 기준 요소 데이터, 새 데이터, 마지막 시작 날짜, 마지막 상태, 다음 실행 데이터, 상태 및 일정과 같은 선택한 모니터에 대한 정보가 표시됩니다. 데이터 모니터가 성공적으로 실행된 경우 페이지에는 데이터 드리프트도 표시됩니다. 데이터 드리프트를 보려면 다음을 수행합니다.
그림 7-6 데이터 모니터 페이지의 데이터 드리프트 미리보기
스크린샷에 표시된 대로 성공적으로 실행된 데이터 모니터를 선택합니다. 아래쪽 창에 선택한 모니터의 데이터 드리프트가 표시됩니다. X축은 분석 기간을 나타내고 Y축은 데이터 드리프트 값을 나타냅니다. 가로 점선은 임계값이고 선은 분석 기간의 각 시점에 대한 드리프트 값을 나타냅니다. 드리프트 값을 보려면 선 위로 마우스를 가져갑니다. 이 예에 대한 자세한 내용은 데이터 모니터 결과 보기를 참조하십시오.
- 데이터 모니터 생성
데이터 모니터링을 사용하면 시간 경과에 따른 데이터 드리프트를 감지하고 머신 러닝 모델의 성능에 부정적인 영향을 미칠 수 있습니다. [데이터 모니터] 페이지에서 데이터 모니터와 결과를 생성, 실행 및 추적할 수 있습니다. - 데이터 모니터 결과 보기
[데이터 모니터 결과] 페이지에는 모니터된 각 기능에 대한 데이터 드리프트 세부정보와 함께 성공적으로 실행된 선택된 데이터 모니터의 정보가 표시됩니다. - 내역 보기
[내역] 페이지에는 데이터 모니터의 런타임 세부정보가 표시됩니다.
관련 항목
7.1 데이터 모니터 생성
데이터 모니터링을 사용하면 시간이 지남에 따라 데이터 드리프트를 감지하고 머신 러닝 모델의 성능에 부정적인 영향을 미칠 수 있습니다. [데이터 모니터] 페이지에서 데이터 모니터와 결과를 생성, 실행 및 추적할 수 있습니다.
상위 토픽: 데이터 모니터링 시작하기
7.2 데이터 모니터 결과 보기
[데이터 모니터 결과] 페이지에는 모니터된 각 기능에 대한 데이터 드리프트 세부정보와 함께 성공적으로 실행된 선택한 데이터 모니터의 정보가 표시됩니다.
- 설정 - 설정 섹션에 데이터 모니터 설정이 표시됩니다. 설정에 대한 화살표를 눌러 이 섹션을 확장합니다. 페이지 오른쪽 상단 모서리에서 편집을 눌러 데이터 모니터 설정을 편집할 수 있습니다. 이 스크린샷에서는 데이터 모니터 Power Consumption에 대한 설정이 표시됩니다.
그림 7-10 데이터 모니터 결과 페이지의 설정 섹션
- 드리프트 - [드리프트] 섹션에는 모니터되는 각 기능에 대한 데이터 드리프트 세부정보가 표시됩니다. 이 예에서는 데이터 모니터 Power consumption 데이터 모니터가 선택되어 있습니다. X축은 분석 기간을 나타내고 Y축은 데이터 드리프트 값을 나타냅니다. 가로 점선은 임계값이고 선은 분석 기간의 각 시점에 대한 드리프트 값을 나타냅니다. 드리프트 값을 보려면 선 위로 마우스를 가져갑니다.
그림 7-11 Data Monitor Results 페이지의 Data Drift 섹션
-
기능 - [기능] 섹션에는 계산된 통계와 함께 모니터된 기능이 표시됩니다.
그림 7-12 데이터 모니터 결과 페이지의 기능 섹션
중요 열의 값은 지정된 기간 동안 기능이 데이터 드리프트에 미치는 영향을 나타냅니다.
숫자 데이터의 경우 다음 통계가 계산됩니다.- 평균
- 표준 편차
- 범위(최소, 최대)
- 널 수
범주별 데이터의 경우 다음 통계가 계산됩니다.- 고유 값 수
- 널 수
모니터되는 각 기능에 대해 마우스를 올려 다음 추가 세부 정보를 확인합니다(여기 스크린샷 참조).
- 첫번째: 분석 기간 동안 계산된 통계의 첫번째 값입니다.
- Last: 분석 기간 동안 계산된 통계의 마지막 값입니다.
- Max: 분석 기간 동안 계산된 통계의 가장 높은 값입니다.
- Min: 분석 기간 동안 계산된 통계의 가장 낮은 값입니다.
- 여기 스크린샷에 표시된 것처럼 기능 섹션에서 모니터된 기능을 누르면 Crosstab 열이 있는 측정항목, 통계, 분포 및 분포를 볼 수 있습니다. 여기 스크린샷에서는 GLOBAL_REACTIVE_POWER 기능에 대한 채우기 안정성 인덱스가 표시됩니다.
그림 7-13 인구 안정성 지수
계산에는 다음이 포함됩니다.- 측정항목: 다음 측정항목이 계산됩니다.
- 인구 안정성 지수 (Population Stability Index, PSI) : 시간이 지남에 따라 또는 한 숫자의 두 다른 인구 샘플 사이에서 인구가 얼마나 이동했는지 측정합니다. 두 배포판은 버킷에 고정되며 PSI는 각 버킷에 있는 항목의 퍼센트를 비교합니다. PSI는 다음과 같이 계산됩니다.
PSI 값의 해석은 다음과 같습니다.PSI = sum((Actual_% - Expected_%) x ln (Actual_% / Expected_%))
PSI < 0.1
는 중요한 모집단 변경이 없음을 의미합니다.0.1 <= PSI < 0.2
는 중간 인구 변화를 의미합니다.PSI >= 0.2
는 상당한 인구 변화를 의미합니다.
- Jenson Shannon Distance (JSD) : 두 확률 분포 사이의 유사성을 측정합니다. JSD는 Kullbach-Leibler Divergence (KLD)와 관련된 Jensen-Shannon Divergence의 제곱근입니다. JSD는 다음과 같이 계산됩니다.
SD(P || Q)= sqrt(0.5 x KLD(P || M) + 0.5 x KLD(Q || M))
여기서 P와 Q는 2개의 배포판이며
M = 0.5 x (P + Q), KLD(P || M) = sum(Pi x ln(Pi / Mi)), and KLD(Q || M) = sum(Qi x ln(Qi / Mi))
JSD의 값은 0에서 1 사이입니다.
- Crosstab Population Stability Index: 두 변수에 대한 PSI입니다.
- Crosstab Jenson Shannon Distance: 두 변수에 대한 JSD입니다.
- 인구 안정성 지수 (Population Stability Index, PSI) : 시간이 지남에 따라 또는 한 숫자의 두 다른 인구 샘플 사이에서 인구가 얼마나 이동했는지 측정합니다. 두 배포판은 버킷에 고정되며 PSI는 각 버킷에 있는 항목의 퍼센트를 비교합니다. PSI는 다음과 같이 계산됩니다.
- 통계: 선택한 최대 3개 기간에 대한 통계를 볼 수 있습니다. 데이터 드리프트는 이러한 통계 계산을 사용하여 정량화됩니다.
그림 7-14 통계
숫자 데이터의 경우 다음 통계가 계산됩니다.- 평균
- 표준 편차
- 범위(최소, 최대)
- 널 수
범주별 데이터의 경우 다음 통계가 계산됩니다.- 고유 값 수
- 널 수
- 분배: 범례가 있는 피쳐 분배 차트에는 선택한 기간의 피쳐 빈과 기준선(선택 사항)이 표시됩니다.
그림 7-15 분산형 차트 및 분산형 크로스탭 열
- 크로스탭 열이 있는 분산: 히트맵은 선택한 크로스탭과 피쳐 열의 분포 밀도를 나타냅니다. 빨간색은 최고 밀도를 나타냅니다.
주:
데이터 드리프트 모니터링에서nulls
는number_of_missing_values
로 별도로 추적됩니다.
- 측정항목: 다음 측정항목이 계산됩니다.
상위 토픽: 데이터 모니터링 시작하기
7.3 기록 보기
History 페이지는 데이터 모니터의 런타임 세부정보를 표시합니다.
데이터 모니터를 선택하고 내역을 눌러 런타임 세부정보를 봅니다. 내역 페이지에는 데이터 모니터 런타임에 대한 다음 정보가 표시됩니다.
그림 7-16 데이터 모니터 기록 페이지
- 실제 시작 날짜: 데이터 모니터가 실제로 시작된 날짜입니다.
- 요청된 시작 날짜: 데이터 모니터를 생성하는 동안
Start Date
필드에 입력한 날짜입니다. - 상태: 상태는
SUCCEEDED
및FAILED
입니다. - 세부정보: 데이터 모니터가 실패하면 세부정보가 여기에 나열됩니다.
- 기간: 데이터 모니터를 실행하는 데 걸린 시간입니다.
모니터로 돌아가기를 눌러 [데이터 모니터링] 페이지로 돌아갑니다.
상위 토픽: 데이터 모니터링 시작하기