Oracle Analytics 예측 모델 생성 및 사용

Oracle Analytics 예측 모델은 포함된 여러 Oracle Machine Learning 알고리즘을 사용하여 데이터 집합을 마이닝하거나 목표 값을 예측하거나 레코드 클래스를 식별합니다. 데이터 흐름 편집기를 사용하여 예측 모델을 생성, 학습하고 데이터에 적용합니다.

Oracle Analytics 예측 모델이란?

Oracle Analytics 예측 모델은 특정 알고리즘을 데이터 집합에 적용하여 값을 예측하거나 클래스를 예측하거나 데이터의 그룹을 식별합니다.

Oracle 머신 러닝 모델을 사용하여 데이터를 예측할 수도 있습니다.

Oracle Analytics에는 다양한 목적으로 예측 모델을 학습할 수 있는 알고리즘이 포함되어 있습니다. 알고리즘의 예로는 CART(분류 및 회귀 트리), 로지스틱 회귀, K-평균이 있습니다.

데이터 흐름 편집기를 사용하여 먼저 학습 데이터 집합의 모델을 학습합니다. 예측 모델이 학습된 후에 예측할 데이터 집합에 적용합니다.

학습된 모델을 다른 사용자에게 제공하면 그들의 데이터에 적용하여 값을 예측할 수 있습니다. 경우에 따라 어떤 사용자는 모델을 학습하고 다른 사용자는 모델을 적용합니다.

주:

데이터에서 무엇을 찾아야 할지 확실치 않으면 머신 러닝을 사용하여 추세 및 패턴을 식별하는 Explain 사용부터 시작할 수 있습니다. 그런 다음 데이터 흐름 편집기를 사용하여 예측 모델을 생성 및 학습하고 Explain이 발견한 추세 및 패턴에 주입할 수 있습니다.
데이터 흐름 편집기를 사용하여 모델을 학습합니다.
  • 먼저 데이터 흐름을 생성하고 모델 학습에 사용할 데이터 집합을 추가합니다. 이 학습 데이터 집합에는 예측할 데이터(예: 매출 또는 연령 값, 또는 신용 위험 버킷과 같은 변수)가 있습니다.
  • 필요한 경우 데이터 흐름 편집기를 사용하여 열 추가, 열 선택, 조인 등의 방법으로 데이터 집합을 편집할 수 있습니다.
  • 모델을 학습할 원하는 데이터가 맞는지 확인한 후 데이터 흐름에 학습 단계를 추가하고 모델 학습을 위한 분류(이진 또는 다중), 회귀 또는 클러스터 알고리즘을 선택합니다. 그런 다음 결과 모델의 이름을 지정하고 데이터 흐름을 저장한 후 실행하여 모델을 학습 및 생성합니다.
  • 머신 러닝 객체의 속성을 조사하여 모델의 품질을 결정합니다. 필요한 경우 모델이 원하는 품질에 도달할 때까지 학습 프로세스를 반복할 수 있습니다.

완성된 모델을 사용하여 알 수 없는(또는 레이블이 없는) 데이터를 채점하여 데이터 흐름 내에 데이터 집합을 생성하거나 예측 시각화를 워크북에 추가할 수 있습니다.

예제

심장병 발병 위험이 높은 환자를 예측하기 위해 다중 분류 모델을 생성 및 학습한다고 가정해 보겠습니다.

  1. 연령, 성별, 흉통 경험 여부와 같은 개별 환자의 속성과 혈압, 공복혈당, 콜레스테롤, 최대 심박수와 같은 측정항목이 포함된 학습 데이터 집합을 제공합니다. 또한 학습 데이터 집합에는 "가능성"이라는 열이 있어서 [없음, 낮게 가능, 가능, 높게 가능, 있음] 값 중 하나가 지정됩니다.
  2. CART(의사결정 트리) 알고리즘을 선택합니다. 이 알고리즘은 예측 값에 추가되지 않는 중복 열을 무시하고 대상 예측에 유용한 열만 식별하여 사용합니다. 데이터 흐름에 알고리즘을 추가할 때 모델 학습을 위해 '가능성' 열을 선택합니다. 알고리즘은 머신 러닝을 사용하여 예측을 수행하고 관련 데이터 집합 출력하는 데 필요한 동인 열을 선택합니다.
  3. 결과를 검사하고 학습 모델을 미세 조정한 다음, 대규모 데이터 집합에 모델을 적용하여 심장병이 있거나 발병 가능성이 높은 환자를 예측합니다.

예측 모델 알고리즘을 선택하는 방법

Oracle Analytics는 수치 예측, 다중 분류자, 이진 분류, 클러스터링 등 모든 머신 러닝 모델링 요구에 맞는 알고리즘을 제공합니다.

Oracle 머신 러닝 기능은 데이터에서 무엇을 찾아야 할지 확신하고 예측 분석을 다루는 데 익숙하며 알고리즘 간의 차이점을 이해하는 고급 데이터 분석가를 위한 것입니다.

주:

Oracle 자율운영 데이터 웨어하우스(ADW)에서 가져온 데이터를 사용하는 경우 AutoML 기능을 사용하여 머신 러닝 기술 없이도 예측 모델을 빠르고 쉽게 학습할 수 있습니다. 자율운영 데이터 웨어하우스(ADW)에서 AutoML을 사용하여 예측 모델 학습을(를) 참조하십시오.

일반적으로 사용자는 여러 예측 모델을 생성하여 비교하고 기준 및 요구사항을 충족하는 결과를 제공할 가능성이 높은 것을 선택하려고 합니다. 이 기준은 다양할 수 있습니다. 예를 들어, 사용자는 전체 정확도가 높은 모델을 선택하기도 하고, 최저 유형 I (가양성) 및 유형 II (가음성) 오차를 가진 모델을 선택하기도 하며, 결과가 이상적이지 않더라도 수용 가능한 정확도 수준으로 더 빠르게 결과를 반환하는 모델을 선택하기도 합니다.

Oracle Analytics에는 각 종류의 예측 또는 분류에 맞는 여러 머신 러닝 알고리즘이 있습니다. 이 알고리즘을 통해 사용자는 둘 이상의 모델을 생성하거나, 다양한 미세 조정된 매개변수를 사용하거나, 다양한 입력 학습 데이터 집합을 사용하여 최상의 모델을 선택할 수 있습니다. 사용자는 고유 기준과 모델을 비교하고 가중치를 적용하여 최상의 모델을 선택할 수 있습니다. 최상의 모델을 결정하기 위해 사용자는 모델을 적용하고 계산 결과를 시각화하여 정확도를 결정하거나, Oracle Analytics가 모델을 사용하여 출력할 관련 데이터 집합을 열어 탐색할 수 있습니다.

이 표를 참조하여 제공된 알고리즘에 대해 알아보십시오.

이름 유형 범주 함수 설명
CART

분류

회귀

이진 분류

다중 분류자

수치

- 의사결정 트리를 사용하여 개별 및 연속 값을 모두 예측합니다.

대량의 데이터 집합에 사용됩니다.

Elastic Net 선형 회귀 회귀 수치 ElasticNet 고급 회귀 모델. 추가 정보(정규화)를 제공하고 변수 선택을 수행하며 선형 조합을 수행합니다. Lasso 및 Ridge 회귀 방식을 결합한 패널티 함수입니다.

공선성(여러 속성이 완벽히 상관되는 경우) 및 과적합을 피하기 위해 대량의 속성과 함께 사용됩니다.

계층형 클러스터링 클러스터링 AgglomerativeClustering 상향식(각 관찰이 고유의 클러스터이고 나중에 병합됨) 또는 하향식(모든 관찰이 하나의 클러스터로 시작함) 및 거리 측정항목을 사용하여 클러스터링 계층을 구축합니다.

데이터 집합이 크지 않고 클러스터 수를 미리 알 수 없을 때 사용됩니다.

K-평균 클러스터링 클러스터링 k-means k개의 클러스터로 레코드를 반복적으로 분할하며 여기서 각 관찰은 최근접 평균이 있는 클러스터에 속하게 됩니다.

필요한 클러스터 수가 정해진 상태로 클러스터링 측정항목 열에 사용됩니다. 대량의 데이터 집합과 잘 작동합니다. 결과는 각 실행마다 다릅니다.

선형 회귀 회귀 수치 범용 최소 제곱법

Ridge

Lasso

대상 변수와 데이터 집합의 다른 속성 간의 모델링 관계에 대한 선형 접근법입니다.

속성이 완벽히 상관되지 않을 때 수치 값을 예측하는 데 사용됩니다.

로지스틱 회귀 회귀 이진 분류 LogisticRegressionCV 범주형 종속 변수의 값을 예측하는 데 사용됩니다. 종속 변수는 1 또는 0으로 코딩된 데이터가 있는 이진 변수입니다.
Naive Bayes 분류

이진 분류

다중 분류자

GaussianNB 특성 간 종속성이 없다고 가정한 베이즈 정리에 기반한 확률적 분류입니다.

입력 차원 수가 많을 때 사용됩니다.

신경망 분류

이진 분류

다중 분류자

MLPClassifier 분류 결과를 실제 값과 비교하여 학습한 후 네트워크에 반환하여 추후 반복을 위해 알고리즘을 수정하는 반복 분류 알고리즘입니다.

텍스트 분석에 사용됩니다.

랜덤 포레스트 분류

이진 분류

다중 분류자

수치

- 여러 의사결정 트리를 구성하고 모든 의사결정 트리를 집합적으로 나타내는 값을 출력하는 앙상블 학습 방식입니다.

수치 및 범주형 변수를 예측하는 데 사용됩니다.

SVM 분류

이진 분류

다중 분류자

LinearSVC, SVC 공간에 레코드를 매핑하고 분류에 사용할 수 있는 초평면을 구성하여 레코드를 분류합니다. 새 레코드(점수 데이터)는 공간으로 매핑되고 자신이 속한 초평면 측면에 따라 범주에 속할 것으로 예측됩니다.

Oracle Autonomous Data Warehouse에서 AutoML을 사용하여 예측 모델 학습

Oracle 자율운영 데이터 웨어하우스(ADW)의 데이터를 사용할 경우 AutoML 기능을 사용하여 예측 모델을 추천 및 학습할 수 있습니다. 데이터를 예측할 수 있도록 AutoML은 데이터를 분석하고, 사용할 최상의 알고리즘을 계산하고, Oracle Analytics에서 예측 모델을 등록합니다.

AutoML을 사용하면 Oracle 자율운영 데이터 웨어하우스(ADW)가 모든 어려운 작업을 수행하므로 머신 러닝이나 인공 지능 기술 없이도 예측 모델을 배치할 수 있습니다. 생성된 예측 모델은 [머신 러닝] 페이지의 [모델] 영역에 저장됩니다. 새 모델을 기반으로 데이터를 예측하려면 데이터 흐름을 생성하고 모델 적용 단계를 사용하십시오.
시작하기 전에:
  • Oracle 자율운영 데이터 웨어하우스(ADW)에서 예측할 데이터를 기반으로 데이터 집합을 생성합니다. 예를 들어, 감소에 대한 '예' 또는 '아니오'를 나타내는 ATTRITION이라는 필드를 포함하여 직원 감소에 대한 데이터가 있을 수 있습니다.
  • Oracle 자율운영 데이터 웨어하우스(ADW)에 대한 Oracle Analytics 접속에서 지정된 데이터베이스 사용자가 OML_Developer 롤을 가지며 'admin' 수퍼 유저가 아닌지 확인합니다. 그렇지 않으면 저장 또는 실행을 시도할 때 데이터 흐름이 실패합니다.
  1. 페이지에서 생성을 누르고 데이터 흐름을 누릅니다.
  2. 데이터 집합 추가에서 분석할 데이터를 포함하는 Oracle 자율운영 데이터 웨어하우스(ADW)에 기반하여 데이터 집합을 선택합니다.
  3. 단계 추가를 누른 다음 AutoML을 누릅니다.
  4. 대상에 대해 열 선택을 누르고, 예측하려고 시도 중인 값을 포함하는 데이터 열을 선택합니다.
    예를 들어, 직원 감소를 예측하려는 경우 직원이 퇴사했는지 여부에 대해 'TRUE' 또는 'FALSE'를 나타내는 ATTRITION이라는 필드를 선택할 수 있습니다.

  5. Oracle Analytics가 추천하는 제안된 작업 유형모델 순위 지정 측정항목을 수락하거나 다른 알고리즘을 선택합니다.
  6. 모델 저장을 누르고 생성된 예측 모델의 이름을 지정합니다.
  7. 저장을 누르고 데이터 흐름에 대한 이름을 지정합니다.
  8. 실행을 눌러 데이터를 분석하고 예측 모델을 생성합니다.
  9. 홈 페이지에서 탐색을 누른 다음 머신 러닝을 누르고, 생성된 모델을 마우스 오른쪽 단추로 눌러 검사를 선택합니다.
모델 탭의 머신 러닝 페이지에서 Oracle Analytics가 생성하는 모델을 찾을 수 있습니다. 모델을 검사하여 품질을 평가합니다. 예측 모델의 품질 평가을(를) 참조하십시오. AutoML로 생성된 모델에 대해 만들어진 관련 데이터 집합을 참조할 수도 있습니다. 예측 모델의 관련 데이터 집합이란?을(를) 참조하십시오.

예측 모델 생성 및 학습

해결할 문제에 따라 고급 데이터 분석가는 예측 모델을 학습할 적절한 알고리즘을 선택한 다음 모델의 결과를 평가합니다.

자습서 아이콘 LiveLabs Sprint

정확한 모델에 도달하는 과정은 반복적 프로세스로, 고급 데이터 분석가는 다양한 모델을 시도하고 그 결과를 비교하며 시행착오를 거쳐 매개변수를 미세 조정할 수 있습니다. 데이터 분석가는 완성된 정확한 예측 모델을 사용하여 다른 데이터 집합의 추세를 예측하거나 워크북에 모델을 추가할 수 있습니다.

주:

Oracle 자율운영 데이터 웨어하우스(ADW)에서 가져온 데이터를 사용하는 경우 AutoML 기능을 사용하여 머신 러닝 기술 없이도 예측 모델을 빠르고 쉽게 학습할 수 있습니다. 자율운영 데이터 웨어하우스(ADW)에서 AutoML을 사용하여 예측 모델 학습을(를) 참조하십시오.

Oracle Analytics는 수치 예측, 다중 분류, 이진 분류 및 클러스터링을 위한 알고리즘을 제공합니다.

  1. 페이지에서 생성을 누르고 데이터 흐름을 선택합니다.
  2. 모델 학습에 사용할 데이터 집합을 선택합니다. 추가를 누릅니다.
  3. 데이터 흐름 편집기에서 단계 추가(+)를 누릅니다.
    데이터 집합을 추가한 후 데이터 집합의 모든 열을 사용하여 모델을 구축하거나 관련 열만 선택할 수 있습니다. 관련 열을 선택하려면 데이터 집합을 충분히 이해해야 합니다. 결과 동작에 영향을 미치지 않거나 중복 정보가 포함된 열은 무시하십시오. 열 선택 단계를 추가하여 관련 열만 선택할 수 있습니다. 관련 열이 확실치 않으면 모든 열을 사용하십시오.
  4. 모델 학습 단계(예: 수치 예측 학습 또는 클러스터링 학습) 중 하나를 선택합니다.
  5. 알고리즘을 선택하고 확인을 누릅니다.
  6. 예측 또는 분류와 같은 감독형 모델로 작업하는 경우 대상을 누르고 예측하려는 열을 선택합니다. 예를 들어, 개인 소득을 예측하는 모델을 생성하는 경우 '소득' 열을 선택합니다.
    클러스터링과 같은 비감독 모델로 작업하는 경우 대상 열이 필요 없습니다.
  7. 모델의 기본 설정을 변경하여 예측 결과를 미세 조정하고 정확도를 높입니다. 작업 중인 모델에 따라 해당 설정이 결정됩니다.
  8. 모델 저장 단계를 누르고 이름과 설명을 제공합니다.
  9. 저장을 누르고 데이터 흐름의 이름과 설명을 입력하고 확인을 눌러 데이터 흐름을 저장합니다.
  10. 데이터 흐름 실행을 눌러 입력 데이터 집합과 제공한 모델 설정을 기반으로 예측 모델을 생성합니다.

머신 러닝 모델 학습에 대한 데이터 흐름 단계

Oracle Analytics에서는 데이터 흐름의 단계를 사용하여 머신 러닝 모델을 학습할 수 있습니다. 머신 러닝 모델을 학습한 경우 모델 적용 단계를 사용하여 데이터에 적용합니다.

단계 이름 설명
AutoML(Oracle 자율운영 데이터 웨어하우스(ADW) 필요) Oracle 자율운영 데이터 웨어하우스(ADW)의 AutoML 기능을 사용하여 예측 모델을 추천 및 학습할 수 있습니다. AutoML 단계는 데이터를 분석하고, 사용할 최상의 알고리즘을 계산하고, Oracle Analytics에서 예측 모델을 등록합니다.
이진 분류 학습

머신 러닝 모델 학습을 통해 두 개의 미리 정의된 범주 중 하나로 데이터를 분류합니다.

클러스터링 학습 머신 러닝 모델 학습을 통해 유사한 특징을 가진 그룹을 분리하여 클러스터에 지정합니다.
다중 분류자 학습 머신 러닝 모델 학습을 통해 세 개 이상의 미리 정의된 범주로 데이터를 분류합니다.
수치 예측 학습 머신 러닝 모델 학습을 통해 알려진 데이터 값을 기반으로 숫자 값을 예측합니다.

예측 모델 검사

예측 모델을 생성하고 데이터 흐름을 실행한 후 모델에 대한 정보를 검토하여 정확도를 확인할 수 있습니다. 이 정보를 바탕으로 모델 설정을 반복적으로 조정하여 정확도를 높이고 더 나은 결과를 예측할 수 있습니다.

예측 모델의 세부정보 보기

예측 모델의 세부정보를 확인하여 모델을 이해하고 데이터 예측에 적합한지 결정할 수 있습니다. 모델 세부정보에는 모델 클래스, 알고리즘, 입력 열, 출력 열이 포함됩니다.

  1. 페이지에서 네비게이터를 누르고 머신 러닝을 누릅니다.
  2. 학습 모델의 메뉴 아이콘을 누르고 검사를 선택합니다.
  3. 세부정보를 눌러 모델의 정보를 봅니다.

예측 모델의 품질 평가

예측 모델의 품질을 이해하는 데 도움이 되는 정보를 봅니다. 예를 들어 모델 정확도, 정밀도, 재현율, F1 값, 가양성 비율 등의 정확도 측정항목을 검토할 수 있습니다.

Oracle Analytics는 모델 생성에 사용된 알고리즘에 관계없이 유사한 측정항목을 제공하므로 각 모델들을 쉽게 비교할 수 있습니다. 모델 생성 프로세스 동안 입력 데이터 집합이 두 부분으로 분할되어 [학습 파티션 퍼센트] 매개변수를 기반으로 모델을 학습하고 테스트합니다. 모델은 데이터 집합의 테스트 부분을 사용하여 구축된 모델의 정확도를 테스트합니다.
품질 탭의 발견사항을 기반으로 모델 매개변수를 조정하고 재학습해야 할 수도 있습니다.
  1. 페이지에서 네비게이터를 누르고 머신 러닝을 누릅니다.
  2. 학습 모델의 메뉴 아이콘을 누르고 검사를 선택합니다.
  3. 품질 탭을 눌러 모델의 품질 측정항목을 검토하고 모델을 평가합니다. 예를 들어, 모델 정확도 점수를 검토합니다.

: 모델에 대해 생성된 뷰의 세부정보를 검토하려면 더 보기를 누르십시오.

예측 모델의 관련 데이터 집합이란?

데이터 흐름을 실행하여 Oracle Analytics 예측 모델의 학습 모델을 생성하는 경우 Oracle Analytics는 일련의 관련 데이터 집합을 생성합니다. 이 데이터 집합에서 워크북을 열고 생성하여 모델의 정확도를 알아볼 수 있습니다.

모델에 대해 선택한 알고리즘에 따라 관련 데이터 집합에는 예측 규칙, 정확도 측정항목, 혼동 행렬, 예측의 핵심 동인과 같은 모델 세부정보가 포함됩니다. 이 정보를 바탕으로 모델을 미세 조정하여 더 나은 결과를 얻을 수 있으며, 관련 데이터 집합을 사용하여 모델을 비교하고 더 정확한 모델을 결정할 수 있습니다.

예를 들어, 동인 데이터 집합을 열어 어떤 열이 모델에 강한 긍정적 또는 부정적 영향을 주는지 발견할 수 있습니다. 해당 열을 조사하면 일부 열은 실질적 입력이 아니거나 예측하기에 너무 미세하기 때문에 모델 변수로 취급되지 않습니다. 데이터 흐름 편집기를 사용하여 모델을 열고 발견한 정보를 기반으로 관련이 없거나 너무 미세한 열을 제거하고 모델을 재생성합니다. 품질 및 결과 탭을 확인하고 모델 정확도가 향상되었는지 확인합니다. 모델 정확도에 만족하고 새 데이터 집합을 채점할 준비가 될 때까지 이 프로세스를 계속합니다.

서로 다른 알고리즘이 유사한 관련 데이터 집합을 생성합니다. 알고리즘 유형에 따라 데이터 집합에서 개별 매개변수와 열 이름이 변경될 수 있지만, 데이터 집합의 기능은 동일하게 유지됩니다. 예를 들어, 통계 데이터 집합의 열 이름은 선형 회귀에서 로지스틱 회귀로 변경될 수 있지만, 통계 데이터 집합에는 모델의 정확도 측정항목이 포함됩니다.

AutoML 모델의 관련 데이터 집합

AutoML을 사용하여 예측 모델을 학습할 때 Oracle Analytics는 모델에 대한 유용한 정보가 포함된 추가 데이터 집합을 생성합니다. 생성된 데이터 집합 수는 모델 알고리즘에 따라 다릅니다. 예를 들어, Naive Bayes 모델의 경우 Oracle Analytics는 조건부 확률에 대한 정보를 제공하는 데이터 집합을 생성합니다. 의사결정 트리 모델의 경우 데이터 집합은 의사결정 트리 통계에 대한 정보를 제공합니다. GLM 알고리즘을 사용하여 AutoML로 생성된 모델을 검사하면 모델에 대한 메타데이터 정보가 포함된 모델별 데이터 집합 항목(GLM* 접두어가 붙음)이 표시됩니다.
GUID-1A190D76-82D5-4BEC-82C4-D881CFECA14D-default.png에 대한 설명이 이어집니다.
.png''

관련 데이터 집합

CARTree

이 데이터 집합은 대상 열 값을 예측하기 위해 계산된 CART(의사결정 트리)를 표 형식으로 나타낸 것입니다. 의사결정 트리의 조건과 조건 기준을 나타내는 열, 각 그룹에 대한 예측 및 예측 신뢰도가 포함됩니다. 내장 트리 다이어그램 시각화를 사용하여 이 의사결정 트리를 시각화할 수 있습니다.

다음 모델과 알고리즘 조합을 선택하면 CARTree 데이터 집합이 출력됩니다.

모델 알고리즘
수치 수치 예측용 CART
이진 분류 CART(의사결정 트리)
다중 분류 CART(의사결정 트리)

분류 보고서

이 데이터 집합은 대상 열의 각 고유 값에 대한 정확도 측정항목을 표 형식으로 나타낸 것입니다. 예를 들어, 대상 열이 두 개의 고유 값 Yes 및 No를 가질 수 있으면 이 데이터 집합은 대상 열의 모든 고유 값에 대해 F1, 정밀도, 재현율, 지지도(이 값을 가진 학습 데이터 집합의 행 수)와 같은 정확도 측정항목을 보여줍니다.

다음 모델과 알고리즘 조합을 선택하면 분류 데이터 집합이 출력됩니다.

모델 알고리즘
이진 분류

Naive Bayes

신경망

Support Vector Machine

다중 분류

Naive Bayes

신경망

Support Vector Machine

혼동 행렬

이 데이터 집합(오차 행렬이라고도 함)은 피벗 테이블 레이아웃입니다. 각 행은 예측 클래스의 인스턴스를 나타내고, 각 열은 실제 클래스의 인스턴스를 나타냅니다. 이 테이블은 정밀도, 재현율 및 F1 정확도 측정항목을 계산하는 데 사용되는 가양성, 가음성, 진양성, 진음성 수를 보고합니다.

다음 모델과 알고리즘 조합을 선택하면 혼동 행렬 데이터 집합이 출력됩니다.

모델 알고리즘
이진 분류

로지스틱 회귀

CART(의사결정 트리)

Naive Bayes

신경망

랜덤 포레스트

Support Vector Machine

다중 분류

CART(의사결정 트리)

Naive Bayes

신경망

랜덤 포레스트

Support Vector Machine

동인

이 데이터 집합은 대상 열 값을 결정하는 열에 대한 정보를 제공합니다. 선형 회귀를 사용하여 해당 열을 식별합니다. 각 열에는 계수 및 상관 값이 지정됩니다. 계수 값은 대상 열 값을 결정하는 데 사용된 열의 가중치를 설명합니다. 상관 값은 대상 열과 종속 열 간의 관계 방향을 나타냅니다. 예를 들어, 대상 열 값이 종속 열에 따라 증가하거나 감소하는 경우가 있습니다.

다음 모델과 알고리즘 조합을 선택하면 동인 데이터 집합이 출력됩니다.

모델 알고리즘
수치

선형 회귀

Elastic Net 선형 회귀

이진 분류

로지스틱 회귀

Support Vector Machine

다중 분류 Support Vector Machine

힛맵

이 데이터 집합에는 의사결정 트리의 최하위 노드에 대한 정보가 포함됩니다. 테이블의 각 행은 최하위 노드를 나타내며 해당 최하위 노드가 무엇을 나타내는지(예: 세그먼트 크기, 신뢰도, 예상 행 수) 설명하는 정보가 포함됩니다. 예를 들어, 예상한 정확한 예측 수 = 세그먼트 크기 * 신뢰도입니다.

다음 모델과 알고리즘 조합을 선택하면 힛맵 데이터 집합이 출력됩니다.

모델 알고리즘
수치 수치 예측용 CART

잔차

이 데이터 집합은 잔차 예측의 품질에 대한 정보를 제공합니다. 잔차는 회귀 모델에서 측정 값과 예측 값 사이의 차이입니다. 이 데이터 집합에는 데이터 집합의 모든 열에 대한 실제 값과 예측 값 사이의 절대차를 집계한 합산 값이 포함됩니다.

다음 모델과 알고리즘 조합을 선택하면 잔차 데이터 집합이 출력됩니다.

모델 알고리즘
수치

선형 회귀

Elastic Net 선형 회귀

수치 예측용 CART

이진 분류 CART(의사결정 트리)
다중 분류 CART(의사결정 트리)

통계

이 데이터 집합의 측정항목은 생성 시 사용된 알고리즘에 따라 다릅니다. 다음은 알고리즘에 기반한 측정항목 목록입니다.

  • 선형 회귀, 수치 예측용 CART, Elastic Net 선형 회귀 - 이 알고리즘에는 R-제곱, R-제곱 조정, MAE(평균 절대 오차), MSE(평균 제곱 오차), RAE(상대 절대 오차), RSE(관련 제곱 오차), RMSE(평균 제곱근 오차)가 포함됩니다.
  • CART(분류 및 회귀 트리), Naive Bayes 분류, 신경망, SVM(Support Vector Machine), 랜덤 포레스트, 로지스틱 회귀 - 이 알고리즘에는 정확도, 합계 F1이 포함됩니다.

다음 모델과 알고리즘 조합을 선택하면 이 데이터 집합이 출력됩니다.

모델 알고리즘
수치

선형 회귀

Elastic Net 선형 회귀

수치 예측용 CART

이진 분류

로지스틱 회귀

CART(의사결정 트리)

Naive Bayes

신경망

랜덤 포레스트

Support Vector Machine

다중 분류

Naive Bayes

신경망

랜덤 포레스트

Support Vector Machine

요약

이 데이터 집합에는 대상 이름 및 모델 이름과 같은 정보가 포함됩니다.

다음 모델과 알고리즘 조합을 선택하면 요약 데이터 집합이 출력됩니다.

모델 알고리즘
이진 분류

Naive Bayes

신경망

Support Vector Machine

다중 분류

Naive Bayes

신경망

Support Vector Machine

예측 모델의 관련 데이터 집합 찾기

예측 모델을 학습할 때 관련 데이터 집합이 생성됩니다.

알고리즘에 따라 관련 데이터 집합에는 예측 규칙, 정확도 측정항목, 혼동 행렬, 예측의 핵심 동인과 같은 모델 세부정보가 포함됩니다. 이 매개변수를 통해 모델이 예측 및 분류를 결정하는 데 사용한 규칙을 이해할 수 있습니다.
  1. 페이지에서 네비게이터를 누르고 머신 러닝을 누릅니다.
  2. 학습 모델의 메뉴 아이콘을 누르고 검사를 선택합니다.
  3. 관련 항목 탭을 눌러 모델의 관련 데이터 집합에 액세스합니다.
  4. 관련 데이터 집합을 두 번 눌러 보거나 워크북에서 사용합니다.

워크북에 예측 모델 추가

워크북에 시나리오를 생성할 때 워크북의 데이터 집합에 예측 모델을 적용하여 모델에 설계된 추세 및 패턴을 나타냅니다.

주:

Oracle 머신 러닝 모델을 워크북 데이터에 적용할 수 없습니다.
워크북에 모델을 추가하고 모델 입력을 데이터 집합 열에 매핑한 후에는 데이터 패널에 모델 객체가 포함되어 캔버스로 끌어 놓을 수 있습니다. 머신 러닝은 시각화의 해당 데이터 열을 기반으로 모델 값을 생성합니다.
  1. 페이지에서 생성을 누른 다음 워크북을 누릅니다.
  2. 워크북 생성에 사용할 데이터 집합을 선택하고 워크북에 추가를 누릅니다.
  3. 데이터 창에서 추가를 누르고 시나리오 생성을 선택합니다.
  4. 시나리오 생성 - 모델 선택 대화상자에서 모델을 선택하고 확인을 누릅니다.
    예측 모델만 적용할 수 있습니다. Oracle 머신 러닝 모델은 적용할 수 없습니다.
    각 모델 입력을 데이터 요소에 일치시킬 수 없는 경우 데이터를 모델에 매핑 대화상자가 표시됩니다.
  5. 데이터를 모델에 매핑 대화상자가 표시되면 데이터 집합 필드에서 모델에 사용할 데이터 집합을 선택합니다.
  6. 필요에 따라 모델 입력과 데이터 요소를 일치시킵니다. 완료를 누릅니다.
    시나리오가 데이터 요소 창에 데이터 집합으로 표시됩니다.
  7. 데이터 집합 및 모델의 요소를 시각화 캔버스로 끌어 놓습니다.
  8. 시나리오를 조정하려면 데이터 요소 창에서 시나리오를 마우스 오른쪽 단추로 누르고 시나리오 편집을 선택합니다.
  9. 데이터 집합을 변경하고 필요에 따라 모델 입력과 데이터 요소 매핑을 업데이트합니다.
  10. 저장을 눌러 워크북을 저장합니다.