일치 및 병합에 관한 자주 묻는 질문(FAQ)

일치 점수는 어떻게 계산되며, 어떻게 사용합니까?

일치 점수를 계산하는 정확한 메커니즘은 데이터 유형(문자열, 정수, 날짜 등), 일치 유형(다음 포함, 다음과 유사, 다음 사이), 일치 작업의 결합 여부 등 여러 요소에 따라 달라집니다. 하지만 일반적으로 일치 점수가 높을수록 후보에 대해 더 많은 일치 기준이 충족되었음을 나타냅니다.

일치 점수 계산 방식을 더 잘 이해하기 위해 몇 가지 예를 살펴보겠습니다.

예 1

이 예에서 일치 규칙은 문자열인 Name 속성을 기준으로 일치시킵니다.


일치 점수 예 1

일치시킬 타겟 이름은 "Atkins Pearson International"이고, 일치시키려는 소스 이름은 "Baker H. International"입니다.

이 예에서 타겟 이름은 28자로 구성되며, 소스 이름은 그 중 17개("a", "k", 공백 두 개, "International" 전체)와 일치합니다. 따라서 약 61%(28개 중 17개)의 문자가 일치하여 일치 점수는 61입니다.

예 2

두번째 예에서는 Name과 Industry라는 두 문자열 속성을 기준으로 일치시킵니다.


일치 점수 예 2

일치시킬 타겟 이름은 "Andrews Corporation"이고 타겟 산업은 "Diagnostics & Research"입니다. 소스 이름은 "Andrews"이고 소스 산업은 "Diagnostics & Research"입니다.

이 경우, 소스 이름은 타겟 이름의 37%(19개 중 7개)와 일치하고, 소스 산업은 타겟 산업의 100%와 일치합니다. 이는 결합된 일치이므로 (37+100)/2로 평균을 계산하여 일치 점수는 68점이 됩니다.

다른 데이터 유형과 일치 연산자는 유사한 계산을 수행하여 일치 점수를 결정합니다.

로드 파일에 코드 이름을 사용해야 합니까, 아니면 데이터 소스 이름을 사용해야 합니까?

데이터 소스 정보가 포함된 요청 파일이 처리될 때 각 노드의 데이터 소스는 두 가지 방법으로 확인됩니다.

  • 데이터 소스에 대해 코드가 구성된 경우 해당 코드가 사용됩니다. 데이터 소스 생성, 편집 및 삭제를 참조하십시오.
  • 데이터 소스에 대해 코드가 구성되지 않은 경우 데이터 소스 이름이 사용됩니다.

데이터 소스 이름은 시간에 따라 변경될 수 있으므로 항상 데이터 소스에 대해 코드를 구성하고 요청 파일에서 데이터 소스 이름 대신 해당 코드를 사용하는 것이 가장 좋습니다.

등록된 데이터 소스에 대한 보존 규칙을 생성할 수 있습니까?

보존 규칙은 수락된 일치 후보 중 노드 유형의 일치하는 노드에 병합할 등록되지 않은 데이터 소스의 속성 및 관계를 결정합니다. 등록된 데이터 소스의 경우 노드 유형 변환기를 사용하여 일치 후보의 속성과 관계가 일치하는 타겟 노드에 병합되는 방식을 결정합니다. 노드 유형 변환기 작업을 참조하십시오. 등록된 데이터 소스에 대해서는 보존 규칙을 생성할 필요가 없습니다.

Tip:

등록된 데이터 소스의 노드 유형 변환기는 수락된 일치 후보에서 노드 유형의 일치하는 노드에 병합할 수 있는 속성을 결정하지만, 해당 속성 중 어떤 속성을 병합할지 사용자가 계속 결정할 수 있습니다. [일치 결과] 패널에서 [소스 노드] 및 [타겟 노드] 라디오 버튼을 사용하여 유지할 값을 결정합니다. 병합 중 유지할 속성 선택을 참조하십시오.

일치 규칙을 생성할 때, 규칙에 여러 기준을 추가하는 것이 더 좋습니까, 아니면 별도의 규칙을 생성하는 것이 더 좋습니까?

특정 확인 속성에 대해 별도의 일치 규칙을 사용할지, 아니면 단일 규칙 내에서 여러 기준으로 사용할지는 구현 조직에서 실험을 통해 결정하는 것이 가장 좋습니다. 테스트 환경에서 규칙을 조정할 때 관리자는 어떤 규칙이 오탐지율을 줄이는 데 더 효과적인지 평가할 수 있습니다.

원칙적으로, 여러 확인 속성을 단일 일치 규칙에 결합하면 "AND" 연산이 수행되는 반면, 특정 확인 속성에 대해 별도의 규칙을 사용하면 일치 결정 요소로 해당 속성 값을 개별적으로 평가합니다. 따라서 노드 유형과 데이터 소스의 단일 조합에 대해 여러 규칙이 평가되므로 잠재적으로 "OR" 연산이 수행됩니다.

결합된 단일 규칙에 여러 기준을 추가하는 대신 여러 개의 별도 일치 규칙을 생성하는 것이 타당한 한 가지 시나리오는 특정 일치 점수 임계값을 초과하는 일치 규칙을 자동으로 수락하고 일부 기준은 해당 임계값을 충족하지만 다른 기준은 충족하지 못할 것으로 예상되는 경우입니다.

예를 들어, 90% 이상 일치하는 항목을 자동으로 수락하고, 두 가지 일치 기준(하나는 100% 일치, 다른 하나는 50% 일치)이 있는 시나리오를 고려해 보겠습니다.

  • 두 개의 개별 일치 규칙이 있는 경우, 100% 일치하는 일치 규칙은 자동으로 수락됩니다.
  • 두 기준이 모두 포함된 하나의 일치 규칙이 있는 경우, 평균 일치 점수는 75%로, 일치 항목을 자동으로 수락하는 임계값인 90%보다 낮습니다. 해당 일치 항목은 자동으로 수락되지 않습니다.

따라서 이 예에서 기준을 결합할지 또는 별도의 일치 규칙을 생성할지는 특정 임계값 이상 일치하는 항목을 자동으로 수락할지 여부에 따라 결정됩니다.

실수로 의도치 않게 일치를 수락했습니다. 이전에 수락한 일치를 검토하고 실행취소할 수 있습니까?

일치 및 병합된 항목이 있는 요청이 완료되고 마감된 후에는 기존 노드에 대한 해당 일치 및 병합 작업을 실행취소할 수 없습니다. 요청이 완료되고 마감되기 전에 다음과 같은 방법으로 기존 노드에 대한 일치를 실행취소할 수 있습니다.

  • 변경사항을 적용하기 전(일치하는 워크벤치에서 [거부] 또는 [건너뛰기]를 누름)
  • 변경사항을 적용한 후 요청이 완료되기 전(요청 항목을 삭제하고 별도로 재생성함)

하지만 요청이 완료되고 마감된 후에는 해당 일치를 더 이상 실행취소할 수 없습니다. 저장된 일치 정보를 삭제하려면 기존 타겟 노드를 삭제한 후 다시 추가해야 합니다.

노드 간에 노드 링크는 언제 설정됩니까?

기존 타겟 노드가 정의된 데이터 소스가 있는 들어오는 소스 노드로 업데이트되는 경우 소스 노드와 타겟 노드 간에 노드 링크가 설정됩니다. 자세한 내용은 노드 링크 및 데이터 소스 이해를 참조하십시오.