리프트 및 게인 차트를 사용하여 머신 러닝 모델 평가

리프트 및 게인 차트를 사용하면 여러 머신 러닝 모델을 비교하여 가장 정확한 모델을 결정할 수 있습니다.

리프트 및 게인 차트 사용 개요

리프트 및 게인 차트를 통해 Oracle Analytics에서 시각화의 모델링 통계를 차트화하여 예측 머신 러닝 모델을 평가할 수 있습니다.

데이터 집합에 분류 모델을 적용하는 데이터 흐름을 사용하는 경우 Oracle Analytics를 통해 리프트 및 게인 값을 계산할 수 있습니다. 그런 다음 차트에서 이 데이터를 시각화하면 예측 모델의 정확성을 평가하고 사용할 최적 모델을 결정할 수 있습니다.

GUID-BB91080A-9081-4AAD-8448-441240BDCEFE-default.png에 대한 설명이 이어집니다.
.png''

필요 조건

  • Oracle Database 또는 Oracle Autonomous Data Warehouse
  • 예측 가능성을 포함하는 분류 모델(예: Naive Bayes 학습 스크립트를 사용하여 생성된 다중 분류자 모델)

    Oracle Analytics의 [머신 러닝] 영역에서 기존 예측 모델에 액세스합니다.

리프트 및 게인 분석에 대해 생성된 통계

데이터 집합에 예측 분류 모델을 적용하고 리프트 및 게인 통계를 생성하면 다음 열을 포함하는 <Data flow name>_LIFT라는 데이터 집합이 생성됩니다.
  • PopulationPercentile - 데이터 집합 모집단이 100개의 균등 그룹으로 분할됩니다.
  • CumulativeGain - 총 긍정적 대상 수에 대해 해당 백분위수까지 긍정적 대상 누적 수의 비율입니다. 누적 게인 선이 차트의 왼쪽 상단 모서리에 가까울수록 게인이 커집니다. 연락된 고객의 비율이 낮을수록 도달한 응답자의 비율이 높아집니다.
  • GainChartBaseline - 전체 응답률 : 선은 무작위로 레코드가 선택된 경우 얻을 것으로 예상되는 긍정적 레코드의 백분율을 나타냅니다. 예를 들어, 마케팅 캠페인에서 무작위로 고객의 X%에 연락하면 총 긍정적 응답의 X%를 받게 됩니다.
  • LiftChartBaseline - 값이 1이고 리프트 비교를 위한 기준 요소로 사용됩니다.
  • LiftValue - 백분위수에 대한 누적 리프트입니다. 리프트는 테스트 데이터 전체의 긍정적 밀도에 대해 선택된 데이터의 누적 긍정적 레코드 밀도의 비율입니다.
  • IdealModelLine - 총 긍정적 대상 수에 대해 긍정적 대상 누적 수의 비율입니다.
  • OptimalGain - 연락할 최적 고객 수를 나타냅니다. 누적 게인 곡선은 이 지점을 넘어서 평평해집니다.

그런 다음 Oracle Analytics 차트에서 <Data flow name>_LIFT 데이터 집합을 시각화할 수 있습니다. 예를 들어, 게인을 분석하려는 경우 X축에 PopulationPercentile을 그리고 Y축에 CumulativeGain, GainChartBaseline, IdealModelLine 및 OptimalGain을 그릴 수 있습니다.

GUID-86078629-A9D9-44D2-8D91-8B5F2FD96DA3-default.png에 대한 설명이 이어집니다.
.png''

리프트 및 게인 차트에 대한 예측 데이터 생성

데이터 집합에 분류 모델을 적용하는 데이터 흐름을 사용하는 경우 Oracle Analytics를 통해 리프트 및 게인 차트에서 시각화할 수 있는 통계를 계산할 수 있습니다.

시작하기 전에 예측 가능성을 포함하는 분류 모델(예: Naive Bayes 학습 스크립트를 사용하여 생성된 다중 분류자 모델)을 생성합니다. Oracle Analytics가 머신 러닝 페이지([홈] 페이지에서 머신 러닝을 누를 때 표시되는 페이지)의 모델 탭에 사용 가능한 모델을 표시합니다.
  1. [홈] 페이지에서 생성을 누른 다음 데이터 흐름을 누릅니다.
  2. 데이터 소스를 선택한 다음 추가를 누릅니다.
  3. 단계 추가를 누르고 모델 적용을 선택합니다.
  4. 모델 선택에서 예측 가능성을 포함하는 분류 모델을 선택한 다음 확인을 누릅니다.
  5. 모델 적용매개변수 섹션에서 다음과 같이 합니다.
    • 리프트 및 게인 계산에서 를 선택합니다.
    • 리프트를 계산할 대상 열에서 예측하려는 값의 열 이름을 선택합니다. 예를 들어, 모델에서 고객이 SIGNUP이라는 열을 사용하여 멤버쉽에 등록할지 여부를 예측하는 경우 SIGNUP을 선택합니다.
    • 계산할 긍정적 클래스를 통해 예측에서 긍정적 클래스(또는 선호 결과)를 나타내는 대소문자 구분 데이터 값을 지정합니다. 예를 들어, 모델에서 고객이 값이 YES 또는 NO인 SIGNUP이라는 열을 사용하여 멤버쉽에 등록할지 여부를 예측하는 경우 YES를 선택합니다.
  6. 데이터 흐름에 데이터 저장 노드를 추가합니다.
  7. 이 데이터 흐름을 실행합니다.
데이터 흐름이 평가 가능한 리프트 및 게인 통계를 포함하는 <Data flow name>_LIFT라는 데이터 집합을 생성합니다.

리프트 및 게인 차트를 사용하여 머신 러닝 모델 평가

차트를 사용하면 머신 러닝 분류 모델이 생성한 통계를 분석하여 사용할 최적 모델을 결정할 수 있습니다.

시작하기 전에 예측 모델을 데이터에 적용하고 리프트 및 게인 통계를 데이터 집합에서 생성합니다.
  1. 홈 페이지에서 생성을 누른 다음 워크북을 누릅니다.
  2. 데이터 집합 추가에서 이전 태스크를 통해 생성한 <Data flow name>_LIFT 데이터 집합을 선택한 다음 워크북에 추가를 누릅니다.
  3. 시각화 패널에서 분석할 통계를 선택한 다음 마우스 오른쪽 단추를 누르고 시각화 선택, 선 차트를 차례로 선택합니다.
    예를 들어, 게인을 분석하려는 경우 X축에 PopulationPercentile을 배치하고 Y축에 CumulativeGain, GainChartBaseline, IdealModelLineOptimalGain을 배치할 수 있습니다.
    리프트를 분석하려는 경우 X축에 PopulationPercentile을 배치하고 Y축에 LiftChartBaselineLiftValue를 배치합니다.