Oracle Analytics 예측 모델은 포함된 여러 Oracle Machine Learning 알고리즘을 사용하여 데이터 집합을 마이닝하거나 목표 값을 예측하거나 레코드 클래스를 식별합니다. 데이터 흐름 편집기를 사용하여 예측 모델을 생성, 학습하고 데이터에 적용합니다.
Oracle Analytics 예측 모델은 특정 알고리즘을 데이터 집합에 적용하여 값을 예측하거나 클래스를 예측하거나 데이터의 그룹을 식별합니다.
Oracle 머신 러닝 모델을 사용하여 데이터를 예측할 수도 있습니다.
Oracle Analytics에는 다양한 목적으로 예측 모델을 학습할 수 있는 알고리즘이 포함되어 있습니다. 알고리즘의 예로는 CART(분류 및 회귀 트리), 로지스틱 회귀, K-평균이 있습니다.
데이터 흐름 편집기를 사용하여 먼저 학습 데이터 집합의 모델을 학습합니다. 예측 모델이 학습된 후에 예측할 데이터 집합에 적용합니다.
학습된 모델을 다른 사용자에게 제공하면 그들의 데이터에 적용하여 값을 예측할 수 있습니다. 경우에 따라 어떤 사용자는 모델을 학습하고 다른 사용자는 모델을 적용합니다.
주:
데이터에서 무엇을 찾아야 할지 확실치 않으면 머신 러닝을 사용하여 추세 및 패턴을 식별하는 Explain 사용부터 시작할 수 있습니다. 그런 다음 데이터 흐름 편집기를 사용하여 예측 모델을 생성 및 학습하고 Explain이 발견한 추세 및 패턴에 주입할 수 있습니다.완성된 모델을 사용하여 알 수 없는(또는 레이블이 없는) 데이터를 채점하여 데이터 흐름 내에 데이터 집합을 생성하거나 예측 시각화를 워크북에 추가할 수 있습니다.
예제
심장병 발병 위험이 높은 환자를 예측하기 위해 다중 분류 모델을 생성 및 학습한다고 가정해 보겠습니다.
Oracle Analytics는 수치 예측, 다중 분류자, 이진 분류, 클러스터링 등 모든 머신 러닝 모델링 요구에 맞는 알고리즘을 제공합니다.
Oracle 머신 러닝 기능은 데이터에서 무엇을 찾아야 할지 확신하고 예측 분석을 다루는 데 익숙하며 알고리즘 간의 차이점을 이해하는 고급 데이터 분석가를 위한 것입니다.
주:
Oracle 자율운영 데이터 웨어하우스(ADW)에서 가져온 데이터를 사용하는 경우 AutoML 기능을 사용하여 머신 러닝 기술 없이도 예측 모델을 빠르고 쉽게 학습할 수 있습니다. 자율운영 데이터 웨어하우스(ADW)에서 AutoML을 사용하여 예측 모델 학습을(를) 참조하십시오.일반적으로 사용자는 여러 예측 모델을 생성하여 비교하고 기준 및 요구사항을 충족하는 결과를 제공할 가능성이 높은 것을 선택하려고 합니다. 이 기준은 다양할 수 있습니다. 예를 들어, 사용자는 전체 정확도가 높은 모델을 선택하기도 하고, 최저 유형 I (가양성) 및 유형 II (가음성) 오차를 가진 모델을 선택하기도 하며, 결과가 이상적이지 않더라도 수용 가능한 정확도 수준으로 더 빠르게 결과를 반환하는 모델을 선택하기도 합니다.
Oracle Analytics에는 각 종류의 예측 또는 분류에 맞는 여러 머신 러닝 알고리즘이 있습니다. 이 알고리즘을 통해 사용자는 둘 이상의 모델을 생성하거나, 다양한 미세 조정된 매개변수를 사용하거나, 다양한 입력 학습 데이터 집합을 사용하여 최상의 모델을 선택할 수 있습니다. 사용자는 고유 기준과 모델을 비교하고 가중치를 적용하여 최상의 모델을 선택할 수 있습니다. 최상의 모델을 결정하기 위해 사용자는 모델을 적용하고 계산 결과를 시각화하여 정확도를 결정하거나, Oracle Analytics가 모델을 사용하여 출력할 관련 데이터 집합을 열어 탐색할 수 있습니다.
이 표를 참조하여 제공된 알고리즘에 대해 알아보십시오.
이름 | 유형 | 범주 | 함수 | 설명 |
---|---|---|---|---|
CART |
분류 회귀 |
이진 분류 다중 분류자 수치 |
- | 의사결정 트리를 사용하여 개별 및 연속 값을 모두 예측합니다.
대량의 데이터 집합에 사용됩니다. |
Elastic Net 선형 회귀 | 회귀 | 수치 | ElasticNet | 고급 회귀 모델. 추가 정보(정규화)를 제공하고 변수 선택을 수행하며 선형 조합을 수행합니다. Lasso 및 Ridge 회귀 방식을 결합한 패널티 함수입니다.
공선성(여러 속성이 완벽히 상관되는 경우) 및 과적합을 피하기 위해 대량의 속성과 함께 사용됩니다. |
계층형 | 클러스터링 | 클러스터링 | AgglomerativeClustering | 상향식(각 관찰이 고유의 클러스터이고 나중에 병합됨) 또는 하향식(모든 관찰이 하나의 클러스터로 시작함) 및 거리 측정항목을 사용하여 클러스터링 계층을 구축합니다.
데이터 집합이 크지 않고 클러스터 수를 미리 알 수 없을 때 사용됩니다. |
K-평균 | 클러스터링 | 클러스터링 | k-means | k개의 클러스터로 레코드를 반복적으로 분할하며 여기서 각 관찰은 최근접 평균이 있는 클러스터에 속하게 됩니다.
필요한 클러스터 수가 정해진 상태로 클러스터링 측정항목 열에 사용됩니다. 대량의 데이터 집합과 잘 작동합니다. 결과는 각 실행마다 다릅니다. |
선형 회귀 | 회귀 | 수치 | 범용 최소 제곱법
Ridge Lasso |
대상 변수와 데이터 집합의 다른 속성 간의 모델링 관계에 대한 선형 접근법입니다.
속성이 완벽히 상관되지 않을 때 수치 값을 예측하는 데 사용됩니다. |
로지스틱 회귀 | 회귀 | 이진 분류 | LogisticRegressionCV | 범주형 종속 변수의 값을 예측하는 데 사용됩니다. 종속 변수는 1 또는 0으로 코딩된 데이터가 있는 이진 변수입니다. |
Naive Bayes | 분류 |
이진 분류 다중 분류자 |
GaussianNB | 특성 간 종속성이 없다고 가정한 베이즈 정리에 기반한 확률적 분류입니다.
입력 차원 수가 많을 때 사용됩니다. |
신경망 | 분류 |
이진 분류 다중 분류자 |
MLPClassifier | 분류 결과를 실제 값과 비교하여 학습한 후 네트워크에 반환하여 추후 반복을 위해 알고리즘을 수정하는 반복 분류 알고리즘입니다.
텍스트 분석에 사용됩니다. |
랜덤 포레스트 | 분류 |
이진 분류 다중 분류자 수치 |
- | 여러 의사결정 트리를 구성하고 모든 의사결정 트리를 집합적으로 나타내는 값을 출력하는 앙상블 학습 방식입니다.
수치 및 범주형 변수를 예측하는 데 사용됩니다. |
SVM | 분류 |
이진 분류 다중 분류자 |
LinearSVC, SVC | 공간에 레코드를 매핑하고 분류에 사용할 수 있는 초평면을 구성하여 레코드를 분류합니다. 새 레코드(점수 데이터)는 공간으로 매핑되고 자신이 속한 초평면 측면에 따라 범주에 속할 것으로 예측됩니다. |
Oracle 자율운영 데이터 웨어하우스(ADW)의 데이터를 사용할 경우 AutoML 기능을 사용하여 예측 모델을 추천 및 학습할 수 있습니다. 데이터를 예측할 수 있도록 AutoML은 데이터를 분석하고, 사용할 최상의 알고리즘을 계산하고, Oracle Analytics에서 예측 모델을 등록합니다.
OML_Developer
롤을 가지며 'admin' 수퍼 유저가 아닌지 확인합니다. 그렇지 않으면 저장 또는 실행을 시도할 때 데이터 흐름이 실패합니다.해결할 문제에 따라 고급 데이터 분석가는 예측 모델을 학습할 적절한 알고리즘을 선택한 다음 모델의 결과를 평가합니다.
정확한 모델에 도달하는 과정은 반복적 프로세스로, 고급 데이터 분석가는 다양한 모델을 시도하고 그 결과를 비교하며 시행착오를 거쳐 매개변수를 미세 조정할 수 있습니다. 데이터 분석가는 완성된 정확한 예측 모델을 사용하여 다른 데이터 집합의 추세를 예측하거나 워크북에 모델을 추가할 수 있습니다.
주:
Oracle 자율운영 데이터 웨어하우스(ADW)에서 가져온 데이터를 사용하는 경우 AutoML 기능을 사용하여 머신 러닝 기술 없이도 예측 모델을 빠르고 쉽게 학습할 수 있습니다. 자율운영 데이터 웨어하우스(ADW)에서 AutoML을 사용하여 예측 모델 학습을(를) 참조하십시오.Oracle Analytics는 수치 예측, 다중 분류, 이진 분류 및 클러스터링을 위한 알고리즘을 제공합니다.
Oracle Analytics에서는 데이터 흐름의 단계를 사용하여 머신 러닝 모델을 학습할 수 있습니다. 머신 러닝 모델을 학습한 경우 모델 적용 단계를 사용하여 데이터에 적용합니다.
단계 이름 | 설명 |
---|---|
AutoML(Oracle 자율운영 데이터 웨어하우스(ADW) 필요) | Oracle 자율운영 데이터 웨어하우스(ADW)의 AutoML 기능을 사용하여 예측 모델을 추천 및 학습할 수 있습니다. AutoML 단계는 데이터를 분석하고, 사용할 최상의 알고리즘을 계산하고, Oracle Analytics에서 예측 모델을 등록합니다. |
이진 분류 학습 |
머신 러닝 모델 학습을 통해 두 개의 미리 정의된 범주 중 하나로 데이터를 분류합니다. |
클러스터링 학습 | 머신 러닝 모델 학습을 통해 유사한 특징을 가진 그룹을 분리하여 클러스터에 지정합니다. |
다중 분류자 학습 | 머신 러닝 모델 학습을 통해 세 개 이상의 미리 정의된 범주로 데이터를 분류합니다. |
수치 예측 학습 | 머신 러닝 모델 학습을 통해 알려진 데이터 값을 기반으로 숫자 값을 예측합니다. |
예측 모델을 생성하고 데이터 흐름을 실행한 후 모델에 대한 정보를 검토하여 정확도를 확인할 수 있습니다. 이 정보를 바탕으로 모델 설정을 반복적으로 조정하여 정확도를 높이고 더 나은 결과를 예측할 수 있습니다.
예측 모델의 세부정보를 확인하여 모델을 이해하고 데이터 예측에 적합한지 결정할 수 있습니다. 모델 세부정보에는 모델 클래스, 알고리즘, 입력 열, 출력 열이 포함됩니다.
예측 모델의 품질을 이해하는 데 도움이 되는 정보를 봅니다. 예를 들어 모델 정확도, 정밀도, 재현율, F1 값, 가양성 비율 등의 정확도 측정항목을 검토할 수 있습니다.
데이터 흐름을 실행하여 Oracle Analytics 예측 모델의 학습 모델을 생성하는 경우 Oracle Analytics는 일련의 관련 데이터 집합을 생성합니다. 이 데이터 집합에서 워크북을 열고 생성하여 모델의 정확도를 알아볼 수 있습니다.
모델에 대해 선택한 알고리즘에 따라 관련 데이터 집합에는 예측 규칙, 정확도 측정항목, 혼동 행렬, 예측의 핵심 동인과 같은 모델 세부정보가 포함됩니다. 이 정보를 바탕으로 모델을 미세 조정하여 더 나은 결과를 얻을 수 있으며, 관련 데이터 집합을 사용하여 모델을 비교하고 더 정확한 모델을 결정할 수 있습니다.
예를 들어, 동인 데이터 집합을 열어 어떤 열이 모델에 강한 긍정적 또는 부정적 영향을 주는지 발견할 수 있습니다. 해당 열을 조사하면 일부 열은 실질적 입력이 아니거나 예측하기에 너무 미세하기 때문에 모델 변수로 취급되지 않습니다. 데이터 흐름 편집기를 사용하여 모델을 열고 발견한 정보를 기반으로 관련이 없거나 너무 미세한 열을 제거하고 모델을 재생성합니다. 품질 및 결과 탭을 확인하고 모델 정확도가 향상되었는지 확인합니다. 모델 정확도에 만족하고 새 데이터 집합을 채점할 준비가 될 때까지 이 프로세스를 계속합니다.
서로 다른 알고리즘이 유사한 관련 데이터 집합을 생성합니다. 알고리즘 유형에 따라 데이터 집합에서 개별 매개변수와 열 이름이 변경될 수 있지만, 데이터 집합의 기능은 동일하게 유지됩니다. 예를 들어, 통계 데이터 집합의 열 이름은 선형 회귀에서 로지스틱 회귀로 변경될 수 있지만, 통계 데이터 집합에는 모델의 정확도 측정항목이 포함됩니다.
AutoML 모델의 관련 데이터 집합
AutoML을 사용하여 예측 모델을 학습할 때 Oracle Analytics는 모델에 대한 유용한 정보가 포함된 추가 데이터 집합을 생성합니다. 생성된 데이터 집합 수는 모델 알고리즘에 따라 다릅니다. 예를 들어, Naive Bayes 모델의 경우 Oracle Analytics는 조건부 확률에 대한 정보를 제공하는 데이터 집합을 생성합니다. 의사결정 트리 모델의 경우 데이터 집합은 의사결정 트리 통계에 대한 정보를 제공합니다. GLM 알고리즘을 사용하여 AutoML로 생성된 모델을 검사하면 모델에 대한 메타데이터 정보가 포함된 모델별 데이터 집합 항목(GLM* 접두어가 붙음)이 표시됩니다.
.png''
관련 데이터 집합
CARTree
이 데이터 집합은 대상 열 값을 예측하기 위해 계산된 CART(의사결정 트리)를 표 형식으로 나타낸 것입니다. 의사결정 트리의 조건과 조건 기준을 나타내는 열, 각 그룹에 대한 예측 및 예측 신뢰도가 포함됩니다. 내장 트리 다이어그램 시각화를 사용하여 이 의사결정 트리를 시각화할 수 있습니다.
다음 모델과 알고리즘 조합을 선택하면 CARTree 데이터 집합이 출력됩니다.
모델 | 알고리즘 |
---|---|
수치 | 수치 예측용 CART |
이진 분류 | CART(의사결정 트리) |
다중 분류 | CART(의사결정 트리) |
분류 보고서
이 데이터 집합은 대상 열의 각 고유 값에 대한 정확도 측정항목을 표 형식으로 나타낸 것입니다. 예를 들어, 대상 열이 두 개의 고유 값 Yes 및 No를 가질 수 있으면 이 데이터 집합은 대상 열의 모든 고유 값에 대해 F1, 정밀도, 재현율, 지지도(이 값을 가진 학습 데이터 집합의 행 수)와 같은 정확도 측정항목을 보여줍니다.
다음 모델과 알고리즘 조합을 선택하면 분류 데이터 집합이 출력됩니다.
모델 | 알고리즘 |
---|---|
이진 분류 |
Naive Bayes 신경망 Support Vector Machine |
다중 분류 |
Naive Bayes 신경망 Support Vector Machine |
혼동 행렬
이 데이터 집합(오차 행렬이라고도 함)은 피벗 테이블 레이아웃입니다. 각 행은 예측 클래스의 인스턴스를 나타내고, 각 열은 실제 클래스의 인스턴스를 나타냅니다. 이 테이블은 정밀도, 재현율 및 F1 정확도 측정항목을 계산하는 데 사용되는 가양성, 가음성, 진양성, 진음성 수를 보고합니다.
다음 모델과 알고리즘 조합을 선택하면 혼동 행렬 데이터 집합이 출력됩니다.
모델 | 알고리즘 |
---|---|
이진 분류 |
로지스틱 회귀 CART(의사결정 트리) Naive Bayes 신경망 랜덤 포레스트 Support Vector Machine |
다중 분류 |
CART(의사결정 트리) Naive Bayes 신경망 랜덤 포레스트 Support Vector Machine |
동인
이 데이터 집합은 대상 열 값을 결정하는 열에 대한 정보를 제공합니다. 선형 회귀를 사용하여 해당 열을 식별합니다. 각 열에는 계수 및 상관 값이 지정됩니다. 계수 값은 대상 열 값을 결정하는 데 사용된 열의 가중치를 설명합니다. 상관 값은 대상 열과 종속 열 간의 관계 방향을 나타냅니다. 예를 들어, 대상 열 값이 종속 열에 따라 증가하거나 감소하는 경우가 있습니다.
다음 모델과 알고리즘 조합을 선택하면 동인 데이터 집합이 출력됩니다.
모델 | 알고리즘 |
---|---|
수치 |
선형 회귀 Elastic Net 선형 회귀 |
이진 분류 |
로지스틱 회귀 Support Vector Machine |
다중 분류 | Support Vector Machine |
힛맵
이 데이터 집합에는 의사결정 트리의 최하위 노드에 대한 정보가 포함됩니다. 테이블의 각 행은 최하위 노드를 나타내며 해당 최하위 노드가 무엇을 나타내는지(예: 세그먼트 크기, 신뢰도, 예상 행 수) 설명하는 정보가 포함됩니다. 예를 들어, 예상한 정확한 예측 수 = 세그먼트 크기 * 신뢰도입니다.
다음 모델과 알고리즘 조합을 선택하면 힛맵 데이터 집합이 출력됩니다.
모델 | 알고리즘 |
---|---|
수치 | 수치 예측용 CART |
잔차
이 데이터 집합은 잔차 예측의 품질에 대한 정보를 제공합니다. 잔차는 회귀 모델에서 측정 값과 예측 값 사이의 차이입니다. 이 데이터 집합에는 데이터 집합의 모든 열에 대한 실제 값과 예측 값 사이의 절대차를 집계한 합산 값이 포함됩니다.
다음 모델과 알고리즘 조합을 선택하면 잔차 데이터 집합이 출력됩니다.
모델 | 알고리즘 |
---|---|
수치 |
선형 회귀 Elastic Net 선형 회귀 수치 예측용 CART |
이진 분류 | CART(의사결정 트리) |
다중 분류 | CART(의사결정 트리) |
통계
이 데이터 집합의 측정항목은 생성 시 사용된 알고리즘에 따라 다릅니다. 다음은 알고리즘에 기반한 측정항목 목록입니다.
다음 모델과 알고리즘 조합을 선택하면 이 데이터 집합이 출력됩니다.
모델 | 알고리즘 |
---|---|
수치 |
선형 회귀 Elastic Net 선형 회귀 수치 예측용 CART |
이진 분류 |
로지스틱 회귀 CART(의사결정 트리) Naive Bayes 신경망 랜덤 포레스트 Support Vector Machine |
다중 분류 |
Naive Bayes 신경망 랜덤 포레스트 Support Vector Machine |
요약
이 데이터 집합에는 대상 이름 및 모델 이름과 같은 정보가 포함됩니다.
다음 모델과 알고리즘 조합을 선택하면 요약 데이터 집합이 출력됩니다.
모델 | 알고리즘 |
---|---|
이진 분류 |
Naive Bayes 신경망 Support Vector Machine |
다중 분류 |
Naive Bayes 신경망 Support Vector Machine |
예측 모델을 학습할 때 관련 데이터 집합이 생성됩니다.