8.1 모델 모니터 생성

모델 모니터를 사용하면 호환되는 여러 모델을 모니터하고 모델 드리프트 차트를 계산할 수 있습니다. 호환 가능한 모델은 동일한 대상 및 마이닝 기능에 대해 학습된 모델을 나타냅니다. 모델 드리프트 차트는 모니터링되는 각 모델에 대해 하나씩 여러 일련의 데이터 드리프트 포인트로 구성됩니다.

모델 모니터는 선택적으로 데이터를 모니터하여 추가적인 통찰력을 제공할 수 있습니다. 이 추가 인사이트는 모델 모니터를 생성하는 동안 데이터 모니터 옵션을 선택할 때 생성되는 드리프트 피쳐 중요도 대 예측 피쳐 영향 차트입니다.
이 항목에서는 모델 모니터를 만드는 방법에 대해 설명합니다. 이 예에서는 2007년부터 2010년까지 세대의 다양한 소비 척도를 포함하는 개별 세대 전기 소비 데이터 세트를 사용합니다. 목표는 4년 동안 세대 소비가 어떻게 변화했는지 파악하는 것입니다. 이 예에서는 데이터 드리프트가 모델 예측 정확도에 미치는 영향을 추적하는 방법을 보여 줍니다.
데이터 세트는 다음 열로 구성됩니다.
  • DATE_TIME - 날짜 및 시간 관련 정보를 dd:mm:yyyy:hh:mm:ss 형식으로 포함합니다.
  • GLOBAL_ACTIVE_POWER - 세대 글로벌 분 평균 활성 전력(킬로와트)입니다.
  • GLOBAL_REACTIVE_POWER - 세대 글로벌 분 평균 반응력(킬로와트)입니다.
  • VOLTAGE - 분 평균 전압(볼트)입니다.
  • GLOBAL_INTENSITY - 세대 글로벌 분 평균 전류 강도(암페어)입니다.
  • SUB_METERING_1 - 에너지 하위 측정 번호 1(활성 에너지의 와트 시간)입니다. 그것은 부엌에 해당합니다.
  • SUB_METERING_2 - 에너지 하위 측정 번호 2(활성 에너지의 와트 시간)입니다. 그것은 세탁실에 해당합니다.
  • SUB_METERING_3 - 에너지 하위 측정 번호 2(활성 에너지의 와트 시간)입니다. 그것은 전기 온수기와 에어컨에 해당합니다.
모델 모니터를 생성하려면 다음을 수행합니다.
  1. Oracle Machine Learning UI 왼쪽 탐색 메뉴에서 모니터링을 확장하고 모델을 눌러 [모델 모니터링] 페이지를 엽니다. 또는 모델 모니터링 아이콘을 눌러 모델 모니터링 페이지를 열 수 있습니다.
  2. 모델 모니터링 페이지에서 생성을 눌러 [새 모델 모니터] 페이지를 엽니다.
  3. New Model Monitor 페이지에서 다음 세부 정보를 입력합니다.

    그림 8-5 새 모델 모니터 페이지

    새 모델 모니터 페이지
    1. 모니터 이름: 모델 모니터의 이름을 입력합니다. 여기서는 전력 소비라는 이름이 사용됩니다.
    2. 설명: 설명을 입력합니다. 이 필드는 선택사항입니다.
    3. 기준 데이터: 모니터할 기준 데이터를 포함하는 테이블 또는 뷰입니다. 테이블 선택 대화상자를 열려면 검색 아이콘을 누릅니다. 스키마를 선택한 다음 테이블을 선택합니다. 여기서 2007년의 데이터가 포함된 테이블이 선택됩니다.
    4. 새 데이터: 기준선 데이터와 비교할 새 데이터가 있는 테이블 또는 뷰입니다. 테이블 선택 대화상자를 열려면 검색 아이콘을 누릅니다. 스키마를 선택한 다음 테이블을 선택합니다. 여기서 2010년의 데이터가 포함된 테이블이 선택됩니다.
    5. 케이스 ID: 선택적 필드입니다. 기준 및 새 데이터에 대한 사례 식별자를 입력하여 결과의 반복성을 개선합니다.
    6. 시간 열: 새 데이터 테이블 또는 뷰에 시간 정보를 저장하는 열의 이름입니다. DATE_TIME 열이 드롭다운 목록에서 선택됩니다.

      주:

      시간 열이 비어 있으면 전체 새 데이터가 한 기간으로 처리됩니다.

    7. 분석 기간: 새 데이터에 대해 모델 모니터링이 수행되는 기간입니다. 모델 모니터링에 대한 분석 기간을 선택합니다. 옵션은 Day, Week, Month, Year입니다.
    8. 시작 날짜: 모델 모니터 일정의 시작 날짜입니다. 시작 날짜를 제공하지 않으면 현재 날짜가 시작 날짜로 사용됩니다.
    9. 반복: 이 값은 정의된 빈도에 대해 모델 모니터 실행이 반복되는 횟수를 정의합니다. 1과 99 사이의 숫자를 입력합니다. 예를 들어, 반복 필드에 2를 입력하고 빈도 필드에 분을 입력하면 모델 모니터가 2분마다 실행됩니다.
    10. 빈도: 이 값은 새 데이터에 대해 모델 모니터 실행이 수행되는 빈도를 결정합니다. 모델 모니터링 빈도를 선택합니다. 옵션은 분, 시간, 일, 주, 월입니다. 예를 들어, 빈도 필드의 Minutes, 반복 필드의 2, 시작 날짜 필드의 5/30/23를 선택하면 일정에 따라 모델 모니터가 2분마다 5/30/23에서 실행됩니다.
    11. 마이닝 함수: 사용 가능한 마이닝 함수는 RegressionClassification.입니다. 해당하는 경우 함수를 선택합니다. 이 예에서는 Regression가 선택되었습니다.
    12. 대상: 드롭다운 목록에서 속성을 선택합니다. 이 예에서는 GLOBAL_ACTIVE_POWER가 회귀 모델의 대상으로 사용됩니다.
    13. 재계산: 이미 계산된 기간을 업데이트하려면 이 옵션을 선택합니다. 즉, 출력 결과 테이블에 없는 기간만 계산됩니다. 기본적으로 재계산은 사용 안함으로 설정되어 있습니다.
      • 사용으로 설정된 경우 [시작 날짜] 필드 및 종료 시간에 지정된 기간에 대해 드리프트 분석이 수행됩니다. 분석은 지정된 기간에 대한 기존 결과를 겹쳐씁니다. 즉, 분석이 현재 데이터가 아닌 새 데이터를 사용하여 기간 동안 계산됩니다.
      • 사용 안함으로 설정된 경우 결과 테이블에 있는 기간의 데이터는 그대로 유지됩니다. 가장 최근 기간의 새 데이터만 분석에 고려되며 결과는 결과 테이블에 추가됩니다.
    14. 데이터 모니터링: 지정된 데이터에 대한 데이터 모니터링을 사용으로 설정하려면 이 옵션을 선택합니다. 사용으로 설정된 경우 모델 모니터와 함께 데이터 모니터도 생성되어 모델별 결과에서 예측 기능 영향과 드리프트 기능 영향을 계산합니다.
  4. 추가 설정을 눌러 이 섹션을 확장하고 모델 모니터에 대한 고급 설정을 제공합니다.

    그림 8-6 새 모델 모니터 페이지의 추가 설정 섹션

    새 모델 모니터 페이지의 추가 설정 섹션
    1. 측정항목: 모델 모니터 생성 페이지의 마이닝 함수 필드에서 선택한 마이닝 함수에 따라 적용 가능한 측정항목이 나열됩니다. 드롭다운 목록을 눌러 측정항목을 선택합니다.
      마이닝 함수 분류의 경우 측정항목은 다음과 같습니다.
      • 정확도 - 양수 및 음수 모두 케이스를 올바르게 분류하는 비율을 계산합니다. 예를 들어 TP+TN+FP+FN(True Positives+True Negatives+False Positives+False Negatives) 사례에서 올바르게 분류된 총 TP(True Positives)+TN(True Negatives) 사례가 있는 경우 공식은 다음과 같습니다.

        Accuracy = (TP+TN)/(TP+TN+FP+FN)

      • 균형 잡힌 정확도 - 이진 분류기가 얼마나 좋은지 평가합니다. 특히 클래스가 불균형할 때, 즉 두 클래스 중 하나가 다른 클래스보다 더 자주 나타나는 경우에 유용합니다. 이는 종종 변형 감지 등과 같은 여러 설정에서 발생합니다.
      • ROC AUC(Area under the ROC Curve) - 결정 임계값에 관계없이 차별의 집계 측정을 제공합니다. AUC - ROC 곡선은 다양한 임계값 설정에서 분류 문제에 대한 성능 측정입니다.
      • 회수 - 올바르게 분류된 실제 양수 비율을 계산합니다.
      • 정밀도 - 실제 양수인 예측 양수의 비율을 계산합니다.
      • F1 점수 - 정밀도와 리콜을 단일 숫자로 결합합니다. F1-점수는 공식에 의해 계산되는 조화 평균을 사용하여 계산됩니다.

        F1-score = 2 × (precision × recall)/(precision + recall)

      다중 클래스 분류의 경우 측정항목은 다음과 같습니다.
      • 정확도
      • 균형 조정된 정확도
      • Macro_F1
      • Macro_Precision
      • Macro_Recall
      • Weighted_F1
      • Weighted_Precision
      • Weighted_Recall
      회귀의 경우 측정항목은 다음과 같습니다.
      • R2 - 데이터가 적합한 회귀 라인에 얼마나 가까운지를 계산하는 통계 측정 단위입니다. 일반적으로 R 제곱 값이 높을수록 모델이 데이터에 더 잘 맞습니다. R2의 값은 항상 0에서 1 사이입니다. 여기서,
        • 0는 모델이 평균 주위의 응답 데이터의 변동성을 설명하지 않음을 나타냅니다.
        • 1은 모델이 평균 주위의 응답 데이터의 모든 변동성을 설명함을 나타냅니다.
      • Mean Squared Error - 이것은 예측 대상과 실제 대상의 제곱 차이의 평균입니다.
      • Mean Absolute Error - 이것은 예측 대상과 실제 대상의 절대 차이의 평균입니다.
      • 중간값 절대 오차 - 예측 대상과 실제 대상 간의 절대 차이의 중간값입니다.
    2. 드리프트 임계값: 드리프트는 기준 데이터 및 새 데이터 기간 간의 상대적인 성능 변화를 캡처합니다. 특정 머신 러닝 문제를 기반으로 모델 드리프트 감지에 대한 임계값을 설정합니다. 기본값은 0.7. 입니다.
      • 이 임계값을 초과하는 드리프트는 모델 예측의 상당한 변화를 나타냅니다. 임계값을 초과하면 모델 재구축 및 재배치가 필요할 수 있습니다.
      • 이 임계값보다 낮은 편차는 추가 조사 또는 조치를 보장하기 위한 데이터 변경이 부족함을 나타냅니다.
    3. 데이터베이스 서비스 레벨: 작업에 대한 서비스 레벨로, LOW, MEDIUM 또는 HIGH일 수 있습니다.
    4. 분석 필터: 모델 모니터링 분석을 특정 기간 동안 수행하려는 경우 이 옵션을 사용으로 설정합니다. 슬라이더를 오른쪽으로 이동하여 사용으로 설정한 다음 시작 일자종료 일자 필드에서 각각 일자를 선택합니다. 기본적으로 이 필드는 비활성화됩니다.
      • 시작 일자: 새 데이터의 모니터링 시작 일자 또는 시간 기록입니다. 여기에서는 테이블에 시간 열이 있다고 가정합니다. [분석 필터] 옵션을 사용하는 경우 필수 필드입니다.
      • 종료 일자: 신규 데이터 모니터링의 종료 일자 또는 시간 기록입니다. 여기에서는 테이블에 시간 열이 있다고 가정합니다. [분석 필터] 옵션을 사용하는 경우 필수 필드입니다.
    5. 최대 실행 수: 이 일정에 따라 모델 모니터를 실행할 수 있는 최대 횟수입니다. 기본값은 3.입니다
  5. 모델 섹션에서 모니터할 모델을 선택하고 페이지 오른쪽 상단 모서리에 있는 저장을 누릅니다. 마이닝 함수대상 필드에 값을 제공하면 배포된 모델 목록을 가져오고 모델 섹션에 표시됩니다. 모델은 모델 페이지 또는 AutoML 리더보드에서 배포됩니다. 모델 페이지의 배포 탭에서 배포된 모델의 전체 목록을 볼 수 있습니다. 배치된 모델은 OML 서비스에서 관리합니다.

    주:

    모델을 삭제하는 경우 모델을 재배치해야 합니다. 모델은 스키마 기반 모델이 아니라 OML 서비스에 배포된 모델입니다.

    그림 8-7 새 모델 모니터 페이지의 모델 섹션

    새 모델 모니터의 모델 섹션
    모델 모니터가 성공적으로 생성되면 Model monitor has been created successfully. 메시지가 표시됩니다.

    주:

    모델 모니터링 페이지로 이동하여 모델 모니터를 선택하고 시작을 눌러 모델 모니터링을 시작해야 합니다.