데이터에 유사성 분석 모델 적용

데이터 흐름을 사용하여 데이터에 유사성 분석을 적용합니다. 이렇게 하면 지정된 레코드와 유사한 레코드를 식별할 수 있습니다.

시작하기 전에 이 유형의 분석을 수행하기 위한 필수 구성요소가 있는지 확인합니다. Oracle Analytics에서 유사성 분석을 수행하기 위한 필수 구성요소를 참조하십시오.

홈 페이지에서 생성, 데이터 흐름을 차례로 누릅니다.
데이터 추가에서 데이터 집합을 선택한 다음 추가를 누릅니다.

Oracle Database 또는 Oracle Autonomous AI Lakehouse V23ai 이상을 사용해야 합니다.
열 목록에서 분석하지 않을 열을 선택 해제합니다(기본적으로 모두 선택됨). 고유한 ID를 가진 열을 포함해야 합니다. 10개에서 15개 사이의 열을 선택하는 것이 좋습니다. 15개 이상의 열을 선택하면 성능에 부정적인 영향을 줄 수 있습니다.

.png''
데이터 집합 노드 위로 커서를 가져가서 단계 추가를 선택한 다음 유사성 분석을 누릅니다.

.png''
사용할 모델을 선택하고 확인을 누릅니다.

.png''
출력 섹션을 확장하고 Profile_expression을 선택합니다.
이렇게 하면 선택된 모든 데이터의 연결된 출력 열이 추가됩니다.
매개변수 섹션을 확장합니다.

.png''
다음과 같이 매개변수를 구성합니다.
- 소스 - 값 선택을 누른 다음 데이터 열 및 값을 선택하여 데이터 집합의 다른 항목과 비교할 레코드를 고유하게 식별합니다. 예를 들어, ID를 지정하고 ID가 "100002"인 환자를 선택할 수 있습니다.
- 최상위(최근접) 또는 최하위(맨 끝) - 가장 유사한 레코드를 찾으려면 "최상위"를 선택하고 가장 유사하지 않은 레코드를 찾으려면 "최하위"를 선택합니다.
- 결과 수 - 반환할 일치하는 레코드 수를 지정합니다. 예를 들어, "100"을 선택하여 대상 레코드에 가장 가까운 상위 100개 일치 레코드를 찾습니다.
- (선택사항) 참조 열1, 2 및 3 - 소스 값을 비교할 레코드를 고유하게 식별하는 열 또는 열 조합을 지정합니다. 예를 들어, 의료 환자의 경우 "ID", "연령", "약물"을 선택할 수 있습니다. 참조 열에서 선택할 필요가 없습니다.
- 프로파일링에 대한 참조 열 포함 - 프로파일링에서 참조 열 1, 2 및 3에 지정된 참조 열을 제외하려면 [아니오]를 선택하고, 프로파일링에 포함하려면 [예]를 선택합니다.
다이어그램에서 유사성 분석 노드 옆에 있는 +를 누른 다음 단계 추가를 누르고 데이터 저장을 선택합니다.
다음과 같이 데이터 저장 단계를 구성합니다.

.png''
- 데이터 집합 - 기본값을 보다 의미 있는 이름으로 변경합니다. "Similarity Analysis Top 10"을 예로 들 수 있습니다.
- 테이블 - 기본값을 변경하지 않습니다. Oracle Analytics는 지정된 데이터 집합 이름을 기반으로 데이터 흐름이 실행될 때 새 값을 생성합니다.
- (선택사항) 기본 집계 - 기본 집계를 변경합니다. 예를 들어, 평균으로 변경할 수 있습니다.
모델 저장을 누르고 생성된 예측 모델의 이름을 지정합니다.
저장을 누르고 데이터 흐름에 대한 이름을 지정합니다.
실행을 눌러 데이터를 분석하고 예측 모델을 생성합니다.

Oracle Analytics가 생성하는 데이터 집합은 데이터 페이지의 데이터 집합 탭에서 찾을 수 있습니다. 유사성 분석 모델에서 결과 해석을 참조하십시오.