데이터 흐름을 통해 데이터 집합에 벡터 임베딩 모델을 적용하여 유사성 분석을 수행합니다. 이 분석은 지정된 레코드와 유사한 레코드를 식별합니다.
- 홈 페이지에서 생성을 누르고 데이터 흐름을 누릅니다.
- 데이터 추가에서 분석할 데이터가 포함된 데이터 집합을 선택한 다음 추가를 누릅니다.
데이터 집합은 Oracle Database 또는 Oracle Autonomous Data Warehouse를 기반으로 해야 합니다.
- 오른쪽의 열 목록에서 분석할 열을 선택합니다. 고유한 ID를 가진 열을 포함해야 합니다.
- 데이터 단계 옆에 있는 단계 추가를 누른 다음 유사성 분석을 누릅니다.
- 사용할 모델을 선택하고 확인을 누릅니다.
- 출력 섹션을 확장하고 Profile_expression을 선택합니다.
이렇게 하면 선택된 모든 데이터의 연결된 출력 열이 추가됩니다.
- 매개변수 섹션을 확장합니다.
- 다음과 같이 매개변수를 구성합니다.
- 소스 - 값 선택을 누른 다음 데이터 열 및 값을 선택하여 데이터 집합의 다른 항목과 비교할 레코드를 고유하게 식별합니다. 예를 들어, ID를 지정하고 ID가 "100002"인 환자를 선택할 수 있습니다.
- 최상위(최근접) 또는 최하위(맨 끝) - 가장 유사한 레코드를 찾으려면 "최상위"를 선택하고 가장 유사하지 않은 레코드를 찾으려면 "최하위"를 선택합니다.
- 결과 수 - 반환할 일치하는 레코드 수를 지정합니다. 예를 들어, "100"을 선택하여 대상 레코드에 가장 가까운 상위 100개 일치 레코드를 찾습니다.
- (선택사항) 참조 열1, 2 및 3 - 소스 값을 비교할 레코드를 고유하게 식별하는 열 또는 열 조합을 지정합니다. 예를 들어, 의료 환자의 경우 "ID", "연령", "약물"을 선택할 수 있습니다. 참조 열에서 선택할 필요가 없습니다.
- 프로파일링에 대한 참조 열 포함 - 프로파일링에서 참조 열 1, 2 및 3에 지정된 참조 열을 제외하려면 [아니오]를 선택하고, 프로파일링에 포함하려면 [예]를 선택합니다.
- 다이어그램에서 유사성 분석 노드 옆에 있는 +를 누른 다음 단계 추가를 누르고 데이터 저장을 선택합니다.
- 다음과 같이 데이터 저장 단계를 구성합니다.
- 데이터 집합 - 기본값을 보다 의미 있는 이름으로 변경합니다. "Similarity Analysis Top 10"을 예로 들 수 있습니다.
- 테이블 - 기본값을 변경하지 않습니다. Oracle Analytics는 지정된 데이터 집합 이름을 기반으로 데이터 흐름이 실행될 때 새 값을 생성합니다.
- (선택사항) 기본 집계 - 기본 집계를 변경합니다. 예를 들어, 평균으로 변경할 수 있습니다.
- 모델 저장을 누르고 생성된 예측 모델의 이름을 지정합니다.
- 저장을 누르고 데이터 흐름에 대한 이름을 지정합니다.
- 실행을 눌러 데이터를 분석하고 예측 모델을 생성합니다.
Oracle Analytics가 생성하는 데이터 집합은
데이터 페이지의
데이터 집합 탭에서 찾을 수 있습니다.
유사성 분석 모델에서 결과 해석을(를) 참조하십시오.