데이터 프로파일 및 의미 권장사항

데이터 집합을 생성할 때 Oracle Analytics는 열 레벨 프로파일링을 수행하여 데이터를 복구/강화하는 일련의 의미 권장사항을 생성합니다. 워크북을 생성할 때 데이터 패널에서 지식 개선사항을 추가하여 시각화에 포함할 수도 있습니다.

이러한 권장사항은 프로파일 단계 중 특정 의미 유형을 자동으로 감지하는 시스템에 기반합니다. 예를 들어, 간단한 최상위 N 샘플을 사용하여 로컬 주제 영역에 기반한 데이터 집합이 프로파일링됩니다.

도시 이름으로 식별된 지리적 위치와 신용 카드, 전자메일 주소, 주민등록번호에서와 같은 인식 가능한 패턴, 날짜 및 반복 패턴 등 의미 유형의 범주가 있습니다. 고유의 사용자정의 의미 유형을 생성할 수도 있습니다.

의미 유형 범주

프로파일링은 다양한 의미 유형에 적용됩니다.

다음을 식별하도록 의미 유형 범주가 프로파일링됩니다.

  • 도시 이름과 같은 지리적 위치
  • 신용 카드 번호 또는 전자메일 주소와 같은 패턴
  • 하이픈으로 연결된 문구 데이터와 같은 반복 패턴

의미 유형 권장사항

데이터 집합을 복구, 향상, 강화하는 권장사항은 데이터 유형에 따라 결정됩니다.

의미 유형 권장사항의 예:

  • 강화 - 지리적 위치와 같이 감지된 특정 유형에 해당하는 새 열을 데이터에 추가합니다. 예를 들어, 도시의 인구 데이터를 추가합니다.
  • 열 연결 - 하나는 이름을 포함하고 다른 하나는 성을 포함하는 두 개의 열이 데이터 집합에서 감지되면 시스템은 이름들을 단일 열로 연결할 것을 권장합니다. 예를 들어 first_name_last_name 열입니다.
  • 의미 추출 - 의미 유형이 하위 유형(예: 지역 번호가 포함된 us_phone 번호)으로 구성된 경우 시스템은 하위 유형을 고유 열로 추출할 것을 권장합니다.
  • 부분 추출 - 일반 패턴 구분 기호가 데이터에서 감지되면 시스템은 해당 패턴의 일부를 추출할 것을 권장합니다. 예를 들어, 시스템이 데이터에서 반복 하이픈을 감지하면 잠재적으로 분석에 더 유용한 데이터를 만들기 위해 부분을 개별 열로 추출할 것을 권장합니다.
  • 날짜 추출 - 날짜가 감지되면 시스템은 데이터 분석을 보강할 수 있는 날짜의 일부를 추출할 것을 권장합니다. 예를 들어, 송장 또는 구매 날짜에서 요일을 추출할 수 있습니다.
  • 전체 또는 부분 난독화/마스킹/삭제 - 신용 카드 번호와 같은 중요한 필드가 감지되면 시스템은 해당 열의 전체 또는 부분 마스킹이나, 심지어 제거를 권장합니다.

인식된 패턴 기반 의미 유형

데이터에서 발견한 패턴에 준하여 의미 유형이 식별됩니다.

다음 의미 유형에 대한 권장사항이 제공됩니다.

  • 날짜(30개 이상의 형식)
  • 미국 사회 보장 번호(SSN)
  • 신용 카드 번호
  • 신용 카드 속성(CVV 및 만료 날짜)
  • 전자메일 주소
  • 북미 계획 전화 번호
  • 미국 주소

참조 기반 의미 유형

의미 유형 인식은 서비스와 함께 제공되는 로드된 참조 지식에 따라 결정됩니다.

다음 의미 유형에 대한 참조 기반 권장사항이 제공됩니다.

  • 국가 이름
  • 국가 코드
  • 시/도 이름
  • 시/도 코드
  • 구/군 이름(관할지)
  • 도시 이름(현지화된 이름)
  • 우편 번호

권장 강화

권장 강화는 의미 유형에 기반합니다.

강화는 지리적 위치 계층에 따라 결정됩니다.

  • 국가
  • 시/도
  • 관할지(구/군)
  • 경도
  • 위도
  • 인구
  • 고도(미터)
  • 시간대
  • ISO 국가 코드
  • 연방 정보 처리 계열(FIPS)
  • 국가 이름
  • 수도
  • 대륙
  • GeoNames ID
  • 사용 언어
  • 전화 국가 코드
  • 우편 번호 형식
  • 우편 번호 패턴
  • 전화 국가 코드
  • 통화 이름
  • 통화 약어
  • 지리적 최상위 도메인(GeoLTD)
  • 평방 킬로미터

필요한 임계값

프로파일링 프로세스는 특정 의미 유형에 대한 의사결정을 위해 특정 임계값을 사용합니다.

일반적으로 시스템이 분류 결정을 내리려면 열에 있는 데이터 값의 85%가 단일 의미 유형에 대한 조건을 충족해야 합니다. 그 결과, 70% 이름과 30% "기타"가 포함된 열은 임계값 요구사항을 충족하지 않으므로 권장사항이 제공되지 않습니다.

사용자정의 지식 권장사항

사용자정의 지식 권장사항을 통해 Oracle Analytics 시스템 지식을 보강할 수 있습니다. 사용자정의 지식을 통해 Oracle Analytics 의미 프로파일러는 더 많은 비즈니스 특정 의미 유형을 식별하고 강화 권장사항의 관련성과 관리성을 향상시킬 수 있습니다. 예를 들어, 처방약을 진통제 또는 오피오이드라는 USP 약품 범주로 분류하는 사용자정의 지식 참조를 추가할 수 있습니다.

자습서 아이콘 자습서