모델 모니터 생성

8.1 모델 모니터 생성

모델 모니터를 사용하면 호환되는 여러 모델을 모니터하고 모델 드리프트 차트를 계산할 수 있습니다. 호환 가능한 모델은 동일한 대상 및 마이닝 기능에 대해 학습된 모델을 나타냅니다. 모델 드리프트 차트는 모니터링되는 각 모델에 대해 하나씩 여러 일련의 데이터 드리프트 포인트로 구성됩니다.

모델 모니터는 선택적으로 데이터를 모니터하여 추가적인 통찰력을 제공할 수 있습니다. 이 추가 인사이트는 모델 모니터를 생성하는 동안 데이터 모니터 옵션을 선택할 때 생성되는 드리프트 피쳐 중요도 대 예측 피쳐 영향 차트입니다.

이 항목에서는 모델 모니터를 만드는 방법에 대해 설명합니다. 이 예에서는 2007년부터 2010년까지 세대의 다양한 소비 척도를 포함하는 개별 세대 전기 소비 데이터 세트를 사용합니다. 목표는 4년 동안 세대 소비가 어떻게 변화했는지 파악하는 것입니다. 이 예에서는 데이터 드리프트가 모델 예측 정확도에 미치는 영향을 추적하는 방법을 보여 줍니다.

데이터 세트는 다음 열로 구성됩니다.

DATE_TIME - 날짜 및 시간 관련 정보를 dd:mm:yyyy:hh:mm:ss 형식으로 포함합니다.
GLOBAL_ACTIVE_POWER - 세대 글로벌 분 평균 활성 전력(킬로와트)입니다.
GLOBAL_REACTIVE_POWER - 세대 글로벌 분 평균 반응력(킬로와트)입니다.
VOLTAGE - 분 평균 전압(볼트)입니다.
GLOBAL_INTENSITY - 세대 글로벌 분 평균 전류 강도(암페어)입니다.
SUB_METERING_1 - 에너지 하위 측정 번호 1(활성 에너지의 와트 시간)입니다. 그것은 부엌에 해당합니다.
SUB_METERING_2 - 에너지 하위 측정 번호 2(활성 에너지의 와트 시간)입니다. 그것은 세탁실에 해당합니다.
SUB_METERING_3 - 에너지 하위 측정 번호 2(활성 에너지의 와트 시간)입니다. 그것은 전기 온수기와 에어컨에 해당합니다.

모델 모니터를 생성하려면 다음을 수행합니다.

Oracle Machine Learning UI 왼쪽 탐색 메뉴에서 모니터링을 확장하고 모델을 눌러 [모델 모니터링] 페이지를 엽니다. 또는 모델 모니터링 아이콘을 눌러 모델 모니터링 페이지를 열 수 있습니다.
모델 모니터링 페이지에서 생성을 눌러 [새 모델 모니터] 페이지를 엽니다.
New Model Monitor 페이지에서 다음 세부 정보를 입력합니다.

그림 8-5 새 모델 모니터 페이지
1. 모니터 이름: 모델 모니터의 이름을 입력합니다. 여기서는 전력 소비라는 이름이 사용됩니다.
2. 설명: 설명을 입력합니다. 이 필드는 선택사항입니다.
3. 기준 데이터: 모니터할 기준 데이터를 포함하는 테이블 또는 뷰입니다. 테이블 선택 대화상자를 열려면 검색 아이콘을 누릅니다. 스키마를 선택한 다음 테이블을 선택합니다. 여기서 2007년의 데이터가 포함된 테이블이 선택됩니다.
4. 새 데이터: 기준선 데이터와 비교할 새 데이터가 있는 테이블 또는 뷰입니다. 테이블 선택 대화상자를 열려면 검색 아이콘을 누릅니다. 스키마를 선택한 다음 테이블을 선택합니다. 여기서 2010년의 데이터가 포함된 테이블이 선택됩니다.
5. 케이스 ID: 선택적 필드입니다. 기준 및 새 데이터에 대한 사례 식별자를 입력하여 결과의 반복성을 개선합니다.
6. 시간 열: 새 데이터 테이블 또는 뷰에 시간 정보를 저장하는 열의 이름입니다. DATE_TIME 열이 드롭다운 목록에서 선택됩니다.
  
  주:
  
  시간 열이 비어 있으면 전체 새 데이터가 한 기간으로 처리됩니다.
7. 분석 기간: 새 데이터에 대해 모델 모니터링이 수행되는 기간입니다. 모델 모니터링에 대한 분석 기간을 선택합니다. 옵션은 Day, Week, Month, Year입니다.
8. 시작 날짜: 모델 모니터 일정의 시작 날짜입니다. 시작 날짜를 제공하지 않으면 현재 날짜가 시작 날짜로 사용됩니다.
9. 반복: 이 값은 정의된 빈도에 대해 모델 모니터 실행이 반복되는 횟수를 정의합니다. 1과 99 사이의 숫자를 입력합니다. 예를 들어, 반복 필드에 2를 입력하고 빈도 필드에 분을 입력하면 모델 모니터가 2분마다 실행됩니다.
10. 빈도: 이 값은 새 데이터에 대해 모델 모니터 실행이 수행되는 빈도를 결정합니다. 모델 모니터링 빈도를 선택합니다. 옵션은 분, 시간, 일, 주, 월입니다. 예를 들어, 빈도 필드의 Minutes, 반복 필드의 2, 시작 날짜 필드의 5/30/23를 선택하면 일정에 따라 모델 모니터가 2분마다 5/30/23에서 실행됩니다.
11. 마이닝 함수: 사용 가능한 마이닝 함수는 Regression 및 Classification.입니다. 해당하는 경우 함수를 선택합니다. 이 예에서는 Regression가 선택되었습니다.
12. 대상: 드롭다운 목록에서 속성을 선택합니다. 이 예에서는 GLOBAL_ACTIVE_POWER가 회귀 모델의 대상으로 사용됩니다.
13. 재계산: 이미 계산된 기간을 업데이트하려면 이 옵션을 선택합니다. 즉, 출력 결과 테이블에 없는 기간만 계산됩니다. 기본적으로 재계산은 사용 안함으로 설정되어 있습니다.
  - 사용으로 설정된 경우 [시작 날짜] 필드 및 종료 시간에 지정된 기간에 대해 드리프트 분석이 수행됩니다. 분석은 지정된 기간에 대한 기존 결과를 겹쳐씁니다. 즉, 분석이 현재 데이터가 아닌 새 데이터를 사용하여 기간 동안 계산됩니다.
  - 사용 안함으로 설정된 경우 결과 테이블에 있는 기간의 데이터는 그대로 유지됩니다. 가장 최근 기간의 새 데이터만 분석에 고려되며 결과는 결과 테이블에 추가됩니다.
14. 데이터 모니터링: 지정된 데이터에 대한 데이터 모니터링을 사용으로 설정하려면 이 옵션을 선택합니다. 사용으로 설정된 경우 모델 모니터와 함께 데이터 모니터도 생성되어 모델별 결과에서 예측 기능 영향과 드리프트 기능 영향을 계산합니다.
추가 설정을 눌러 이 섹션을 확장하고 모델 모니터에 대한 고급 설정을 제공합니다.

그림 8-6 새 모델 모니터 페이지의 추가 설정 섹션
1. 측정항목: 모델 모니터 생성 페이지의 마이닝 함수 필드에서 선택한 마이닝 함수에 따라 적용 가능한 측정항목이 나열됩니다. 드롭다운 목록을 눌러 측정항목을 선택합니다.
  마이닝 함수 분류의 경우 측정항목은 다음과 같습니다.
  - 정확도 - 양수 및 음수 모두 케이스를 올바르게 분류하는 비율을 계산합니다. 예를 들어 TP+TN+FP+FN(True Positives+True Negatives+False Positives+False Negatives) 사례에서 올바르게 분류된 총 TP(True Positives)+TN(True Negatives) 사례가 있는 경우 공식은 다음과 같습니다.
    Accuracy = (TP+TN)/(TP+TN+FP+FN)
  - 균형 잡힌 정확도 - 이진 분류기가 얼마나 좋은지 평가합니다. 특히 클래스가 불균형할 때, 즉 두 클래스 중 하나가 다른 클래스보다 더 자주 나타나는 경우에 유용합니다. 이는 종종 변형 감지 등과 같은 여러 설정에서 발생합니다.
  - ROC AUC(Area under the ROC Curve) - 결정 임계값에 관계없이 차별의 집계 측정을 제공합니다. AUC - ROC 곡선은 다양한 임계값 설정에서 분류 문제에 대한 성능 측정입니다.
  - 회수 - 올바르게 분류된 실제 양수 비율을 계산합니다.
  - 정밀도 - 실제 양수인 예측 양수의 비율을 계산합니다.
  - F1 점수 - 정밀도와 리콜을 단일 숫자로 결합합니다. F1-점수는 공식에 의해 계산되는 조화 평균을 사용하여 계산됩니다.
    F1-score = 2 × (precision × recall)/(precision + recall)
  다중 클래스 분류의 경우 측정항목은 다음과 같습니다.
  - 정확도
  - 균형 조정된 정확도
  - Macro_F1
  - Macro_Precision
  - Macro_Recall
  - Weighted_F1
  - Weighted_Precision
  - Weighted_Recall
  회귀의 경우 측정항목은 다음과 같습니다.
  - R2 - 데이터가 적합한 회귀 라인에 얼마나 가까운지를 계산하는 통계 측정 단위입니다. 일반적으로 R 제곱 값이 높을수록 모델이 데이터에 더 잘 맞습니다. R2의 값은 항상 0에서 1 사이입니다. 여기서,
    - 0는 모델이 평균 주위의 응답 데이터의 변동성을 설명하지 않음을 나타냅니다.
    - 1은 모델이 평균 주위의 응답 데이터의 모든 변동성을 설명함을 나타냅니다.
  - Mean Squared Error - 이것은 예측 대상과 실제 대상의 제곱 차이의 평균입니다.
  - Mean Absolute Error - 이것은 예측 대상과 실제 대상의 절대 차이의 평균입니다.
  - 중간값 절대 오차 - 예측 대상과 실제 대상 간의 절대 차이의 중간값입니다.
2. 드리프트 임계값: 드리프트는 기준 데이터 및 새 데이터 기간 간의 상대적인 성능 변화를 캡처합니다. 특정 머신 러닝 문제를 기반으로 모델 드리프트 감지에 대한 임계값을 설정합니다. 기본값은 0.7. 입니다.
  - 이 임계값을 초과하는 드리프트는 모델 예측의 상당한 변화를 나타냅니다. 임계값을 초과하면 모델 재구축 및 재배치가 필요할 수 있습니다.
  - 이 임계값보다 낮은 편차는 추가 조사 또는 조치를 보장하기 위한 데이터 변경이 부족함을 나타냅니다.
3. 데이터베이스 서비스 레벨: 작업에 대한 서비스 레벨로, LOW, MEDIUM 또는 HIGH일 수 있습니다.
4. 분석 필터: 모델 모니터링 분석을 특정 기간 동안 수행하려는 경우 이 옵션을 사용으로 설정합니다. 슬라이더를 오른쪽으로 이동하여 사용으로 설정한 다음 시작 일자 및 종료 일자 필드에서 각각 일자를 선택합니다. 기본적으로 이 필드는 비활성화됩니다.
  - 시작 일자: 새 데이터의 모니터링 시작 일자 또는 시간 기록입니다. 여기에서는 테이블에 시간 열이 있다고 가정합니다. [분석 필터] 옵션을 사용하는 경우 필수 필드입니다.
  - 종료 일자: 신규 데이터 모니터링의 종료 일자 또는 시간 기록입니다. 여기에서는 테이블에 시간 열이 있다고 가정합니다. [분석 필터] 옵션을 사용하는 경우 필수 필드입니다.
5. 최대 실행 수: 이 일정에 따라 모델 모니터를 실행할 수 있는 최대 횟수입니다. 기본값은 3.입니다
모델 섹션에서 모니터할 모델을 선택하고 페이지 오른쪽 상단 모서리에 있는 저장을 누릅니다. 마이닝 함수 및 대상 필드에 값을 제공하면 배포된 모델 목록을 가져오고 모델 섹션에 표시됩니다. 모델은 모델 페이지 또는 AutoML 리더보드에서 배포됩니다. 모델 페이지의 배포 탭에서 배포된 모델의 전체 목록을 볼 수 있습니다. 배치된 모델은 OML 서비스에서 관리합니다.

주:
모델을 삭제하는 경우 모델을 재배치해야 합니다. 모델은 스키마 기반 모델이 아니라 OML 서비스에 배포된 모델입니다.

그림 8-7 새 모델 모니터 페이지의 모델 섹션

모델 모니터가 성공적으로 생성되면 Model monitor has been created successfully. 메시지가 표시됩니다.

주:
모델 모니터링 페이지로 이동하여 모델 모니터를 선택하고 시작을 눌러 모델 모니터링을 시작해야 합니다.

상위 항목: 모델 모니터링 시작하기