데이터 프로파일 및 의미 권장사항

데이터 집합을 생성할 때 Oracle Analytics는 열 레벨 프로파일링을 수행하여 데이터를 복구/강화하는 일련의 의미 권장사항을 생성합니다. 워크북을 생성할 때 데이터 패널에서 지식 개선사항을 추가하여 시각화에 포함할 수도 있습니다.

주:

주로 지식 강화는 기본적으로 사용으로 설정되어 있지만, 워크북 편집자가 소유하거나 편집 권한이 있는 데이터 집합에 대해 사용 또는 사용 안함으로 설정할 수 있습니다. Oracle Analytics는 데이터 흐름에서 생성된 데이터 집합에 대한 강화 권장사항을 자동으로 제공하지 않습니다. 이 경우 데이터 집합 소유자 또는 관리자가 먼저 데이터 집합에 대한 지식 강화 옵션을 사용으로 설정해야 합니다. 데이터 집합에 대한 지식 강화 사용을(를) 참조하십시오.

이러한 권장사항은 프로파일 단계 중 특정 의미 유형을 자동으로 감지하는 시스템에 기반합니다. 예를 들어, 간단한 최상위 N 샘플을 사용하여 로컬 주제 영역에 기반한 데이터 집합이 프로파일링됩니다.

도시 이름으로 식별된 지리적 위치와 신용 카드, 전자메일 주소, 주민등록번호에서와 같은 인식 가능한 패턴, 날짜 및 반복 패턴 등 의미 유형의 범주가 있습니다. 고유의 사용자정의 의미 유형을 생성할 수도 있습니다.

의미 유형 범주

프로파일링은 다양한 의미 유형에 적용됩니다.

다음을 식별하도록 의미 유형 범주가 프로파일링됩니다.

  • 도시 이름과 같은 지리적 위치
  • 신용 카드 번호 또는 전자메일 주소와 같은 패턴
  • 하이픈으로 연결된 문구 데이터와 같은 반복 패턴

의미 유형 권장사항

데이터 집합을 복구, 향상, 강화하는 권장사항은 데이터 유형에 따라 결정됩니다.

의미 유형 권장사항의 예:

  • 강화 - 지리적 위치와 같이 감지된 특정 유형에 해당하는 새 열을 데이터에 추가합니다. 예를 들어, 도시의 인구 데이터를 추가합니다.
  • 열 연결 - 하나는 이름을 포함하고 다른 하나는 성을 포함하는 두 개의 열이 데이터 집합에서 감지되면 시스템은 이름들을 단일 열로 연결할 것을 권장합니다. 예를 들어 first_name_last_name 열입니다.
  • 의미 추출 - 의미 유형이 하위 유형(예: 지역 번호가 포함된 us_phone 번호)으로 구성된 경우 시스템은 하위 유형을 고유 열로 추출할 것을 권장합니다.
  • 부분 추출 - 일반 패턴 구분 기호가 데이터에서 감지되면 시스템은 해당 패턴의 일부를 추출할 것을 권장합니다. 예를 들어, 시스템이 데이터에서 반복 하이픈을 감지하면 잠재적으로 분석에 더 유용한 데이터를 만들기 위해 부분을 개별 열로 추출할 것을 권장합니다.
  • 날짜 추출 - 날짜가 감지되면 시스템은 데이터 분석을 보강할 수 있는 날짜의 일부를 추출할 것을 권장합니다. 예를 들어, 송장 또는 구매 날짜에서 요일을 추출할 수 있습니다.
  • 전체 또는 부분 난독화/마스킹/삭제 - 신용 카드 번호와 같은 중요한 필드가 감지되면 시스템은 해당 열의 전체 또는 부분 마스킹이나, 심지어 제거를 권장합니다.

인식된 패턴 기반 의미 유형

데이터에서 발견한 패턴에 준하여 의미 유형이 식별됩니다.

다음 의미 유형에 대한 권장사항이 제공됩니다.

  • 날짜(30개 이상의 형식)
  • 미국 사회 보장 번호(SSN)
  • 신용 카드 번호
  • 신용 카드 속성(CVV 및 만료 날짜)
  • 전자메일 주소
  • 북미 계획 전화 번호
  • 미국 주소

참조 기반 의미 유형

의미 유형 인식은 서비스와 함께 제공되는 로드된 참조 지식에 따라 결정됩니다.

다음 의미 유형에 대한 참조 기반 권장사항이 제공됩니다.

  • 국가 이름
  • 국가 코드
  • 시/도 이름
  • 시/도 코드
  • 구/군 이름(관할지)
  • 도시 이름(현지화된 이름)
  • 우편 번호

권장 강화

권장 강화는 의미 유형에 기반합니다.

강화는 지리적 위치 계층에 따라 결정됩니다.

  • 국가
  • 시/도
  • 관할지(구/군)
  • 경도
  • 위도
  • 인구
  • 고도(미터)
  • 시간대
  • ISO 국가 코드
  • 연방 정보 처리 계열(FIPS)
  • 국가 이름
  • 수도
  • 대륙
  • GeoNames ID
  • 사용 언어
  • 전화 국가 코드
  • 우편 번호 형식
  • 우편 번호 패턴
  • 전화 국가 코드
  • 통화 이름
  • 통화 약어
  • 지리적 최상위 도메인(GeoLTD)
  • 평방 킬로미터

필요한 임계값

프로파일링 프로세스는 특정 의미 유형에 대한 의사결정을 위해 특정 임계값을 사용합니다.

일반적으로 시스템이 분류 결정을 내리려면 열에 있는 데이터 값의 85%가 단일 의미 유형에 대한 조건을 충족해야 합니다. 그 결과, 70% 이름과 30% "기타"가 포함된 열은 임계값 요구사항을 충족하지 않으므로 권장사항이 제공되지 않습니다.

사용자정의 지식 권장사항

사용자정의 지식 권장사항을 통해 Oracle Analytics 시스템 지식을 보강할 수 있습니다. 사용자정의 지식을 통해 Oracle Analytics 의미 프로파일러는 더 많은 비즈니스 특정 의미 유형을 식별하고 강화 권장사항의 관련성과 관리성을 향상시킬 수 있습니다. 예를 들어, 처방약을 진통제 또는 오피오이드라는 USP 약품 범주로 분류하는 사용자정의 지식 참조를 추가할 수 있습니다.

자습서 아이콘 자습서

관리자에게 사용자정의 지식 파일을 Oracle Analytics로 업로드하도록 요청하십시오. 데이터 집합을 강화하면 Oracle Analytics는 이 의미 데이터를 기반으로 강화 권장사항을 제공합니다. 워크북을 생성할 때 데이터 패널에서 지식 개선사항을 추가하여 시각화에 포함할 수도 있습니다.

고유의 사용자정의 지식 파일 생성

의미 파일을 생성할 때 다음 지침을 따르십시오.

  • CSV 또는 Microsoft Excel(XLSX) 형식으로 데이터 파일을 생성합니다. 업로드할 수 있는 최대 파일 크기는 250MB입니다.
  • Oracle Analytics가 데이터 프로파일링에 사용하는 키로 첫번째 열을 채웁니다. 예를 들어, 키는 회계 연도별로 데이터를 분석할 수 있도록 단위가 일인 날짜일 수 있습니다.
  • 강화 값으로 다른 열을 채웁니다.

관리자에게 사용자정의 지식 파일을 Oracle Analytics로 업로드하도록 요청하십시오.

예제 - 비즈니스 기간을 데이터에 통합

이 예에서는 원래 데이터 집합에 회계 데이터가 포함되지 않은 경우 비즈니스 기간을 판매 데이터에 추가하고 회계 연도별 판매 분석을 사용으로 설정하는 방법을 보여줍니다.

이 예제 시각화는 2019년, 2020년, 2021년, 2022년, 2023년의 분기별 판매를 보여줍니다. 여기서 각 연도는 다른 색상으로 표시됩니다. 소스 판매 데이터에 회계 데이터가 없으므로 추가 사용자정의 지식을 배치하여 회계 데이터를 데이터 집합에 추가합니다.

먼저 Fiscal Calendar.xlsx 파일에서 회계 데이터를 준비합니다. 파일에 날짜(dd-mm-yyyy), 회계 연도, 회계 월 및 회계 주가 포함됩니다. 예를 들어, 소스 파일의 날짜 열에는 01-23-2025, 회계 연도 열에는 2025가 포함되고 나머지 열을 완료하는 속성이 포함될 수 있습니다.

관리자에게 문의하여 콘솔의 사용자정의 지식 영역에 Fiscal Calendar.xlsx을 업로드하십시오.

그런 다음 Sales 및 ORDER_DATE를 포함하는 데이터 집합을 생성하고, 데이터 집합 편집기를 통해 강화 권장사항에서 회계 연도로 ORDER_DATE 강화회계 월로 ORDER_DATE 강화를 선택합니다. Oracle Analytics는 이러한 두 가지 강화를 데이터 집합에 추가합니다.

마지막으로 워크북을 생성하고 Fiscal Year, Fiscal Qtr(ORDER_DATE 아래) 및 Sales를 시각화에 추가합니다. : 원래 ORDER_DATE 열을 추가하지 않고도 Fiscal YearFiscal Qtr를 직접 추가할 수 있습니다.