데이터에 유사성 분석 모델 적용

데이터 흐름을 통해 데이터 집합에 벡터 임베딩 모델을 적용하여 유사성 분석을 수행합니다. 이 분석은 지정된 레코드와 유사한 레코드를 식별합니다.

시작하기 전에 이 유형의 분석을 수행하기 위한 필수 구성요소가 있는지 확인합니다. Oracle Analytics에서 유사성 분석을 수행하기 위한 필수 구성요소을(를) 참조하십시오.
  1. 페이지에서 생성을 누르고 데이터 흐름을 누릅니다.
  2. 데이터 추가에서 분석할 데이터가 포함된 데이터 집합을 선택한 다음 추가를 누릅니다.
    데이터 집합은 Oracle Database 또는 Oracle Autonomous Data Warehouse를 기반으로 해야 합니다.
  3. 오른쪽의 열 목록에서 분석할 열을 선택합니다. 고유한 ID를 가진 열을 포함해야 합니다.

  4. 데이터 단계 옆에 있는 단계 추가를 누른 다음 유사성 분석을 누릅니다.

  5. 사용할 모델을 선택하고 확인을 누릅니다.

  6. 출력 섹션을 확장하고 Profile_expression을 선택합니다.
    이렇게 하면 선택된 모든 데이터의 연결된 출력 열이 추가됩니다.
  7. 매개변수 섹션을 확장합니다.

  8. 다음과 같이 매개변수를 구성합니다.
    • 소스 - 값 선택을 누른 다음 데이터 열 및 값을 선택하여 데이터 집합의 다른 항목과 비교할 레코드를 고유하게 식별합니다. 예를 들어, ID를 지정하고 ID가 "100002"인 환자를 선택할 수 있습니다.
    • 최상위(최근접) 또는 최하위(맨 끝) - 가장 유사한 레코드를 찾으려면 "최상위"를 선택하고 가장 유사하지 않은 레코드를 찾으려면 "최하위"를 선택합니다.
    • 결과 수 - 반환할 일치하는 레코드 수를 지정합니다. 예를 들어, "100"을 선택하여 대상 레코드에 가장 가까운 상위 100개 일치 레코드를 찾습니다.
    • (선택사항) 참조 열1, 2 및 3 - 소스 값을 비교할 레코드를 고유하게 식별하는 열 또는 열 조합을 지정합니다. 예를 들어, 의료 환자의 경우 "ID", "연령", "약물"을 선택할 수 있습니다. 참조 열에서 선택할 필요가 없습니다.
    • 프로파일링에 대한 참조 열 포함 - 프로파일링에서 참조 열 1, 2 및 3에 지정된 참조 열을 제외하려면 [아니오]를 선택하고, 프로파일링에 포함하려면 [예]를 선택합니다.
  9. 다이어그램에서 유사성 분석 노드 옆에 있는 +를 누른 다음 단계 추가를 누르고 데이터 저장을 선택합니다.
  10. 다음과 같이 데이터 저장 단계를 구성합니다.

    • 데이터 집합 - 기본값을 보다 의미 있는 이름으로 변경합니다. "Similarity Analysis Top 10"을 예로 들 수 있습니다.
    • 테이블 - 기본값을 변경하지 않습니다. Oracle Analytics는 지정된 데이터 집합 이름을 기반으로 데이터 흐름이 실행될 때 새 값을 생성합니다.
    • (선택사항) 기본 집계 - 기본 집계를 변경합니다. 예를 들어, 평균으로 변경할 수 있습니다.
  11. 모델 저장을 누르고 생성된 예측 모델의 이름을 지정합니다.
  12. 저장을 누르고 데이터 흐름에 대한 이름을 지정합니다.
  13. 실행을 눌러 데이터를 분석하고 예측 모델을 생성합니다.
Oracle Analytics가 생성하는 데이터 집합은 데이터 페이지의 데이터 집합 탭에서 찾을 수 있습니다. 유사성 분석 모델에서 결과 해석을(를) 참조하십시오.