데이터 모니터링 시작하기

7 데이터 모니터링 시작하기

데이터 모니터링은 시간이 지남에 따라 데이터가 어떻게 발전하는지 평가합니다. 데이터의 추세 및 다변량 종속성에 대한 통찰력을 제공합니다. 또한 데이터 드리프트에 대한 조기 경고를 제공합니다.

데이터 드리프트는 시간이 지남에 따라 데이터가 원래 기준선 데이터에서 분기될 때 발생합니다. 데이터 드리프트는 변화하는 비즈니스 환경, 진화하는 사용자 행동 및 관심, 타사 소스의 데이터 수정, 데이터 품질 문제, 업스트림 데이터 처리 파이프라인 관련 문제 등 다양한 이유로 발생할 수 있습니다.

모델을 정확하게 해석하고 모델이 비즈니스 문제를 해결할 수 있도록 보장하는 핵심은 시간이 지남에 따라 데이터가 어떻게 진화하는지 이해하는 것입니다. 데이터 변경 사항을 이해하는 것이 모델의 효능 변경 사항을 이해하는 데 중요하므로 데이터 모니터링은 성공적인 모델 모니터링을 보완합니다. 데이터의 통계적 속성 변화를 빠르고 안정적으로 감지할 수 있는 기능을 통해 머신 러닝 모델이 비즈니스 목표를 달성할 수 있습니다.

Oracle Machine Learning 사용자 인터페이스의 데이터 모니터링 기능을 사용하여 데이터를 모니터링할 수 있습니다. 데이터를 모니터하려면 Oracle Machine Learning UI 홈 페이지에서 클라우드 메뉴를 누르고 모니터링을 누른 다음 데이터를 눌러 [데이터 모니터] 페이지를 엽니다. Data Monitors 페이지에서 다음 작업을 수행할 수 있습니다.

그림 7-1 데이터 모니터 페이지

생성: 데이터 모니터를 생성합니다.

주:
데이터 모니터링에 지원되는 데이터 유형은 NUMERIC 및 CATEGORICAL입니다.
편집: 데이터 모니터를 선택하고 편집을 눌러 데이터 모니터를 편집합니다.
복제: 데이터 모니터를 선택하고 복제를 눌러 모니터 복사본을 생성합니다.
삭제: 데이터 모니터를 선택하고 삭제를 눌러 데이터 모니터를 삭제합니다.
내역: 데이터 모니터를 선택하고 내역을 눌러 런타임 세부정보를 봅니다. 모니터로 돌아가기를 눌러 [데이터 모니터링] 페이지로 돌아갑니다.
시작: 데이터 모니터를 시작합니다.
정지: 실행 중인 데이터 모니터를 중지합니다.
더 보기: 더 보기를 누르면 다음과 같은 추가 옵션이 표시됩니다.

그림 7-2 데이터 모니터 아래의 추가 옵션
- 사용: 데이터 모니터를 선택하고 사용을 눌러 사용 안함으로 설정된 모니터를 사용으로 설정합니다. 기본적으로 데이터 모니터는 사용으로 설정되어 있습니다. 상태가 SCHEDULED로 표시됩니다.
- 사용 안함: 데이터 모니터를 선택하고 사용 안함을 눌러 데이터 모니터를 사용 안함으로 설정합니다. 상태가 DISABLED로 표시됩니다.
- 관리 모니터 표시: Oracle Machine Learning UI에서 OML Services REST API 및 모델 모니터로 생성 및 관리되는 데이터 모니터를 보려면 이 옵션을 누릅니다. 이러한 두 구성 요소로 관리되는 데이터 모니터에는 시스템 생성 이름이 있으며 해당 이름에 대해 특정 아이콘으로 표시됩니다.
  - 관리되는 데이터 모니터 이름에 대한 링크 아이콘을 눌러 연관된 모델 모니터의 세부정보를 봅니다. 연관된 모델 모니터 세부정보가 슬라이드인 별도의 창에 표시됩니다. 슬라이드인 창에는 모델 모니터 결과 및 설정을 볼 수 있는 링크가 포함된 모델 모니터 이름이 표시됩니다. 링크 아이콘을 누르면 데이터 모니터 페이지의 아래쪽 창에 데이터 드리프트 세부정보도 표시됩니다. 왼쪽 상단 모서리에 있는 X를 눌러 창을 닫습니다.
    
    그림 7-3 연관된 모델 모니터 결과 및 설정을 표시하는 데이터 모니터 페이지
    
    이 예에서 슬라이드인 창에는 모델 모니터 Power Consumption의 세부 정보가 표시됩니다. 슬라이드 인 창에서 다음을 수행합니다.
    - 모델 모니터 결과를 눌러 모델 모니터로 계산된 결과(설정, 모델, 모델 드리프트, 측정항목 및 예측 통계)를 봅니다. 모니터를 눌러 데이터 모니터 페이지로 돌아갑니다. 모델 모니터 결과 보기를 참조하십시오.
    - 모델 모니터 설정을 눌러 모델 모니터 편집 페이지에서 모델 모니터가 모니터하는 설정, 세부정보 및 모델을 보고 편집합니다. 취소를 눌러 데이터 모니터 페이지로 돌아갑니다. 저장을 눌러 변경사항을 저장합니다.
  - 아래쪽 창에서 데이터 드리프트 값을 보려면 데이터 모니터 이름에 대한 확인란을 누릅니다.
    
    그림 7-4 관리형 데이터 모니터 선택
  - 데이터 모니터 이름(설정, 데이터 드리프트 값 및 모니터된 기능)을 눌러 데이터 모니터의 세부정보를 봅니다.
    
    그림 7-5 데이터 모니터 클릭

[데이터 모니터] 페이지에는 모니터 이름, 기준 요소 데이터, 새 데이터, 마지막 시작 날짜, 마지막 상태, 다음 실행 데이터, 상태 및 일정과 같은 선택한 모니터에 대한 정보가 표시됩니다. 데이터 모니터가 성공적으로 실행된 경우 페이지에는 데이터 드리프트도 표시됩니다. 데이터 드리프트를 보려면 다음을 수행합니다.

그림 7-6 데이터 모니터 페이지의 데이터 드리프트 미리보기

스크린샷에 표시된 대로 성공적으로 실행된 데이터 모니터를 선택합니다. 아래쪽 창에 선택한 모니터의 데이터 드리프트가 표시됩니다. X축은 분석 기간을 나타내고 Y축은 데이터 드리프트 값을 나타냅니다. 가로 점선은 임계값이고 선은 분석 기간의 각 시점에 대한 드리프트 값을 나타냅니다. 드리프트 값을 보려면 선 위로 마우스를 가져갑니다. 이 예에 대한 자세한 내용은 데이터 모니터 결과 보기를 참조하십시오.

데이터 모니터 생성
데이터 모니터링을 사용하면 시간 경과에 따른 데이터 드리프트를 감지하고 머신 러닝 모델의 성능에 부정적인 영향을 미칠 수 있습니다. [데이터 모니터] 페이지에서 데이터 모니터와 결과를 생성, 실행 및 추적할 수 있습니다.
데이터 모니터 결과 보기
[데이터 모니터 결과] 페이지에는 모니터된 각 기능에 대한 데이터 드리프트 세부정보와 함께 성공적으로 실행된 선택된 데이터 모니터의 정보가 표시됩니다.
내역 보기
[내역] 페이지에는 데이터 모니터의 런타임 세부정보가 표시됩니다.

관련 항목

기록 보기

7.1 데이터 모니터 생성

데이터 모니터링을 사용하면 시간이 지남에 따라 데이터 드리프트를 감지하고 머신 러닝 모델의 성능에 부정적인 영향을 미칠 수 있습니다. [데이터 모니터] 페이지에서 데이터 모니터와 결과를 생성, 실행 및 추적할 수 있습니다.

데이터 모니터를 만들려면

Oracle Machine Learning UI 왼쪽 탐색 메뉴에서 모니터링을 확장하고 데이터를 눌러 [데이터 모니터링] 페이지를 엽니다.
[데이터 모니터링] 페이지에서 생성을 눌러 [새 데이터 모니터] 페이지를 엽니다.
New Data Monitor 페이지에서 다음 세부 정보를 입력합니다.

그림 7-7 새 데이터 모니터
1. 모니터 이름: 데이터 모니터의 이름을 입력합니다.
2. 설명: 설명을 입력합니다. 이 필드는 선택사항입니다.
3. 기준 데이터: 모니터할 기준 데이터를 포함하는 테이블 또는 뷰입니다. 테이블 선택 대화상자를 열려면 검색 아이콘을 누릅니다. 여기서 스키마, 테이블을 차례로 선택합니다.
  
  주:
  데이터 모니터링에 지원되는 데이터 유형은 NUMBER, BINARY_DOUBLE, FLOAT, BINARY_FLOAT, VARCHAR2, CHAR, NCHAR, 및 NVARCHAR2이며 길이는 <=4000입니다.
4. 새 데이터: 기준선 데이터와 비교할 새 데이터가 있는 테이블 또는 뷰입니다. 테이블 선택 대화상자를 열려면 검색 아이콘을 누릅니다. 스키마, 테이블을 차례로 선택합니다.
  
  주:
  데이터 모니터링에 지원되는 데이터 유형은 NUMBER, BINARY_DOUBLE, FLOAT, BINARY_FLOAT, VARCHAR2, CHAR, NCHAR, 및 NVARCHAR2이며 길이는 <=4000입니다.
5. 크로스탭: 드롭다운 목록에서 속성을 선택합니다. 기준선 및 새 데이터의 이 속성은 데이터의 양변량 분석을 위한 앵커 또는 대상 역할을 합니다.
  
  주:
  감독된 문제의 대상 열은 이 필드에서 앵커 열로 전달될 수 있습니다. 비지도 문제의 경우 원하는 열이 될 수 있습니다. 그러나 응용 프로그램에 따라 다릅니다.
6. 케이스 ID: 선택적 필드입니다. 기준 및 새 데이터에 대한 사례 식별자를 입력하여 결과의 반복성을 개선합니다.
7. 시간 열: 새 데이터 테이블 또는 뷰에 시간 정보를 저장하는 열의 이름입니다. 드롭다운 목록에서 시간 열을 선택합니다.
  
  주:
  시간 열이 비어 있으면 전체 새 데이터가 한 기간으로 처리됩니다.
8. 분석 기간: 새 데이터에 대해 데이터 모니터링이 수행되는 기간입니다. 데이터 모니터링에 대한 분석 기간을 선택합니다. 옵션은 Day, Week, Month, Year입니다.
9. 시작 날짜: 데이터 모니터 일정 시작 날짜입니다. 시작 날짜를 제공하지 않으면 현재 날짜가 시작 날짜로 사용됩니다.
10. 반복: 이 값은 정의된 빈도에 대해 데이터 모니터 실행이 반복되는 횟수를 정의합니다. 1과 99 사이의 숫자를 입력합니다. 예를 들어, 반복 필드에 2을 입력하고 빈도 필드에 Minutes를 입력하면 데이터 모니터가 2분마다 실행됩니다.
11. 빈도: 이 값은 새 데이터에 대해 데이터 모니터 실행이 수행되는 빈도를 결정합니다. 데이터 모니터링 빈도를 선택합니다. 옵션은 분, 시간, 일, 주, 월입니다. 예를 들어, 빈도 필드에 Minutes, 반복 필드에 2, 시작 날짜 필드에 5/30/23를 선택하면 일정에 따라 데이터 모니터가 2분마다 5/30/23부터 실행됩니다.
재계산: 이미 계산된 기간에 대한 분석을 재계산하려면 이 옵션을 선택합니다. 기본적으로 재계산은 사용 안함으로 설정되어 있습니다.
- 사용으로 설정된 경우 [시작 날짜] 필드 및 종료 시간에 지정된 기간 동안 데이터 드리프트 분석이 수행됩니다. 분석은 지정된 기간에 대한 기존 결과를 겹쳐씁니다. 즉, 분석이 현재 데이터가 아닌 새 데이터를 사용하여 기간 동안 계산됩니다. 선택한 빈도에 따라 새 분석 결과가 기존 결과와 겹칠 수 있습니다.
- 사용 안함으로 설정된 경우 결과 테이블에 있는 기간의 데이터는 그대로 유지됩니다. 가장 최근 기간의 새 데이터만 분석에 고려되며 결과는 결과 테이블에 추가됩니다.
추가 설정을 눌러 이 섹션을 확장하고 데이터 모니터에 대한 고급 설정을 제공합니다.

그림 7-8 데이터 모니터링 추가 설정
1. 드리프트 임계값: 드리프트는 기준 데이터 및 새 데이터 기간 간의 상대적인 성능 변화를 캡처합니다. 특정 머신 러닝 문제를 기반으로 데이터 드리프트 감지에 대한 임계값을 설정합니다. 기본값은 0.7. 입니다.
  
  주:
  사용 사례에 따라 임계값을 조정할 수 있습니다. 값을 늘리면 경보가 줄어들고 값을 줄이면 경보가 더 많이 생성됩니다.
  - 이 임계값을 초과하는 드리프트는 데이터의 상당한 변화를 나타냅니다. 임계값을 초과하면 모델 재구축 및 재배치가 필요할 수 있습니다.
  - 이 임계값보다 낮은 편차는 추가 조사 또는 조치를 보장하기 위한 데이터 변경이 부족함을 나타냅니다.
2. 데이터베이스 서비스 수준: Autonomous Database 서비스 수준은 Low, Medium, High입니다. 기본값은 Low입니다. 서비스 레벨 Medium는 Low에 비해 데이터 모니터 실행에 더 많은 리소스를 제공합니다. 서비스 레벨 High는 Medium.에 비해 데이터 모니터 실행에 더 많은 리소스를 제공합니다.
3. 분석 필터: 특정 기간 동안 데이터 모니터링 분석을 수행하려는 경우 이 옵션을 사용으로 설정합니다. 슬라이더를 오른쪽으로 이동하여 사용으로 설정한 다음 시작 일자 및 종료 일자 필드에서 각각 일자를 선택합니다. 기본적으로 이 필드는 비활성화됩니다.
  - 시작 일자: 새 데이터의 모니터링 시작 일자 또는 시간 기록입니다. 여기에서는 테이블에 시간 열이 있다고 가정합니다. [분석 필터] 옵션을 사용하는 경우 필수 필드입니다.
  - 종료 일자: 신규 데이터 모니터링의 종료 일자 또는 시간 기록입니다. 여기에서는 테이블에 시간 열이 있다고 가정합니다. [분석 필터] 옵션을 사용하는 경우 필수 필드입니다.
4. 최대 실행 수: 이 일정에 따라 데이터 모니터를 실행할 수 있는 최대 횟수입니다. 기본값은 3.입니다
기능 그리드에는 모니터할 기능 목록이 표시됩니다. 여기서 모니터링에서 포함하거나 제외할 기능을 선택하거나 선택 해제할 수 있습니다. 기본적으로 모든 기능이 선택됩니다. 선택한 데이터가 테이블이고 RDBMS 통계가 Autonomous Database에 의해 자동으로 수집되는 경우 기능 통계가 제공됩니다. Oracle Machine Learning Services는 테이블과 뷰 모두에 대해 처음 실행될 때의 통계를 계산하며 계산은 첫번째 실행 후 여기에 표시됩니다. 이후 실행에 따라 통계가 업데이트됩니다.

그림 7-9 Data Monitor의 기능 그리드

주:
케이스 ID 및 교차 탭 열은 선택할 수 없습니다.
저장.을 누릅니다 이렇게 해서 데이터 모니터 생성 작업이 완료되었습니다.

주:
데이터 모니터링 페이지로 이동하여 데이터 모니터를 선택하고 시작을 눌러 데이터 모니터링을 시작해야 합니다.

데이터 모니터가 성공적으로 실행된 후 데이터 모니터링 페이지에서 모니터를 선택하여 데이터 드리프트 및 기타 데이터 모니터 세부정보를 확인합니다. 자세한 내용은 데이터 모니터링 시작하기를 참조하십시오.

상위 토픽: 데이터 모니터링 시작하기

7.2 데이터 모니터 결과 보기

[데이터 모니터 결과] 페이지에는 모니터된 각 기능에 대한 데이터 드리프트 세부정보와 함께 성공적으로 실행된 선택한 데이터 모니터의 정보가 표시됩니다.

Data Monitors 페이지에서 성공적으로 실행된 데이터 모니터를 누릅니다. 이 예에서는 데이터 모니터 Power Consumption이 선택되어 있습니다. 데이터 모니터의 결과는 다음 섹션으로 구성된 [데이터 모니터 결과] 페이지에 표시됩니다.

설정 - 설정 섹션에 데이터 모니터 설정이 표시됩니다. 설정에 대한 화살표를 눌러 이 섹션을 확장합니다. 페이지 오른쪽 상단 모서리에서 편집을 눌러 데이터 모니터 설정을 편집할 수 있습니다. 이 스크린샷에서는 데이터 모니터 Power Consumption에 대한 설정이 표시됩니다.

그림 7-10 데이터 모니터 결과 페이지의 설정 섹션
드리프트 - [드리프트] 섹션에는 모니터되는 각 기능에 대한 데이터 드리프트 세부정보가 표시됩니다. 이 예에서는 데이터 모니터 Power consumption 데이터 모니터가 선택되어 있습니다. X축은 분석 기간을 나타내고 Y축은 데이터 드리프트 값을 나타냅니다. 가로 점선은 임계값이고 선은 분석 기간의 각 시점에 대한 드리프트 값을 나타냅니다. 드리프트 값을 보려면 선 위로 마우스를 가져갑니다.

그림 7-11 Data Monitor Results 페이지의 Data Drift 섹션
기능 - [기능] 섹션에는 계산된 통계와 함께 모니터된 기능이 표시됩니다.

그림 7-12 데이터 모니터 결과 페이지의 기능 섹션

중요 열의 값은 지정된 기간 동안 기능이 데이터 드리프트에 미치는 영향을 나타냅니다.
숫자 데이터의 경우 다음 통계가 계산됩니다.
- 평균
- 표준 편차
- 범위(최소, 최대)
- 널 수
범주별 데이터의 경우 다음 통계가 계산됩니다.
- 고유 값 수
- 널 수
모니터되는 각 기능에 대해 마우스를 올려 다음 추가 세부 정보를 확인합니다(여기 스크린샷 참조).
- 첫번째: 분석 기간 동안 계산된 통계의 첫번째 값입니다.
- Last: 분석 기간 동안 계산된 통계의 마지막 값입니다.
- Max: 분석 기간 동안 계산된 통계의 가장 높은 값입니다.
- Min: 분석 기간 동안 계산된 통계의 가장 낮은 값입니다.
여기 스크린샷에 표시된 것처럼 기능 섹션에서 모니터된 기능을 누르면 Crosstab 열이 있는 측정항목, 통계, 분포 및 분포를 볼 수 있습니다. 여기 스크린샷에서는 GLOBAL_REACTIVE_POWER 기능에 대한 채우기 안정성 인덱스가 표시됩니다.

그림 7-13 인구 안정성 지수
계산에는 다음이 포함됩니다.
- 측정항목: 다음 측정항목이 계산됩니다.
  - 인구 안정성 지수 (Population Stability Index, PSI) : 시간이 지남에 따라 또는 한 숫자의 두 다른 인구 샘플 사이에서 인구가 얼마나 이동했는지 측정합니다. 두 배포판은 버킷에 고정되며 PSI는 각 버킷에 있는 항목의 퍼센트를 비교합니다. PSI는 다음과 같이 계산됩니다.
    PSI = sum((Actual_% - Expected_%) x ln (Actual_% / Expected_%))
    PSI 값의 해석은 다음과 같습니다.
    - PSI < 0.1는 중요한 모집단 변경이 없음을 의미합니다.
    - 0.1 <= PSI < 0.2는 중간 인구 변화를 의미합니다.
    - PSI >= 0.2는 상당한 인구 변화를 의미합니다.
  - Jenson Shannon Distance (JSD) : 두 확률 분포 사이의 유사성을 측정합니다. JSD는 Kullbach-Leibler Divergence (KLD)와 관련된 Jensen-Shannon Divergence의 제곱근입니다. JSD는 다음과 같이 계산됩니다.
    SD(P || Q)= sqrt(0.5 x KLD(P || M) + 0.5 x KLD(Q || M))
    
    여기서 P와 Q는 2개의 배포판이며 M = 0.5 x (P + Q), KLD(P || M) = sum(Pi x ln(Pi / Mi)), and KLD(Q || M) = sum(Qi x ln(Qi / Mi))
    
    JSD의 값은 0에서 1 사이입니다.
  - Crosstab Population Stability Index: 두 변수에 대한 PSI입니다.
  - Crosstab Jenson Shannon Distance: 두 변수에 대한 JSD입니다.
- 통계: 선택한 최대 3개 기간에 대한 통계를 볼 수 있습니다. 데이터 드리프트는 이러한 통계 계산을 사용하여 정량화됩니다.
  
  그림 7-14 통계
  숫자 데이터의 경우 다음 통계가 계산됩니다.
  - 평균
  - 표준 편차
  - 범위(최소, 최대)
  - 널 수
  범주별 데이터의 경우 다음 통계가 계산됩니다.
  - 고유 값 수
  - 널 수
- 분배: 범례가 있는 피쳐 분배 차트에는 선택한 기간의 피쳐 빈과 기준선(선택 사항)이 표시됩니다.
  
  그림 7-15 분산형 차트 및 분산형 크로스탭 열
- 크로스탭 열이 있는 분산: 히트맵은 선택한 크로스탭과 피쳐 열의 분포 밀도를 나타냅니다. 빨간색은 최고 밀도를 나타냅니다.
  
  주:
  데이터 드리프트 모니터링에서 nulls는 number_of_missing_values로 별도로 추적됩니다.