참조 강화 및 변환

이 참조 정보를 사용하여 데이터를 강화하고 변환할 수 있습니다.

변환 참조

데이터 집합 열을 마우스 오른쪽 단추로 눌러 변환 편집기에서 액세스할 수 있는 데이터 변환 옵션을 확인합니다. 예를 들어, 데이터 집합 열에서 레이싱 랩 타임을 분류하려는 경우 'Lap Time' 열을 마우스 오른쪽 단추로 누르고 Bin을 선택할 수 있습니다.

옵션 설명
Bin 숫자 범위에 대한 고유의 사용자정의 그룹을 생성합니다. 예를 들어, 사용자정의 요구사항에 따라 연령대가 Pre-Teen, Young Adult, Adult, Senior로 구간화된 Age 열에 대한 bin을 생성할 수 있습니다.
날짜로 변환 열 데이터 유형을 날짜로 변경하고 열에서 날짜가 아닌 값은 삭제합니다.
숫자로 변환 열 데이터 유형을 숫자로 변경하고 열에서 숫자가 아닌 값은 삭제합니다.
텍스트로 변환 열의 데이터 유형을 텍스트로 변경합니다.
생성 함수를 기반으로 열을 생성합니다.
복제 선택된 열의 동일한 콘텐츠로 열을 생성합니다.
편집 열을 편집합니다. 예를 들어, 이름을 변경하거나 다른 열을 선택하거나 함수를 업데이트할 수 있습니다.
그룹, 조건 그룹 그룹을 선택하여 고유한 사용자정의 그룹을 생성합니다. 예를 들어, 시/도 그룹을 사용자정의 영역으로 그룹화할 수 있으며 금액을 작음, 중간, 큼을 나타내는 그룹으로 범주화할 수 있습니다.
숨기기 데이터 패널과 시각화에서 열을 숨깁니다. 숨겨진 열을 표시하려면 페이지 바닥글에서 숨겨진 열(유령 아이콘)을 누릅니다. 개별 열을 숨김 해제하거나 모든 숨겨진 열을 한 번에 숨김 해제할 수 있습니다.
로그 표현식의 자연 로그를 계산합니다.
소문자 열 내용을 모두 소문자 값으로 업데이트합니다.
제곱 열 값을 지정된 거듭제곱으로 제곱합니다. 기본 제곱은 2입니다.
이름 바꾸기 열 이름을 변경하도록 허용합니다.
바꾸기 선택한 열의 특정 텍스트를 지정된 값으로 변경합니다. 예를 들어, 열에서 Mister의 모든 인스턴스를 Mr.로 변경할 수 있습니다.
문장의 첫글자 대문자 문장의 첫번째 단어의 첫글자가 대문자가 되도록 열 내용을 업데이트합니다.
분할 특정 열 값을 부분으로 분할합니다. 예를 들어, Name이라는 열을 이름과 성으로 나눌 수 있습니다.
제곱근 선택한 열 값의 제곱근으로 채워진 열을 생성합니다.
대문자 열 내용을 모두 대문자 값으로 업데이트합니다.

데이터 프로파일 및 의미 권장사항

데이터 집합을 생성할 때 Oracle Analytics는 열 레벨 프로파일링을 수행하여 데이터를 복구/강화하는 일련의 의미 권장사항을 생성합니다. 워크북을 생성할 때 데이터 패널에서 지식 개선사항을 추가하여 시각화에 포함할 수도 있습니다.

이러한 권장사항은 프로파일 단계 중 특정 의미 유형을 자동으로 감지하는 시스템에 기반합니다. 예를 들어, 간단한 최상위 N 샘플을 사용하여 로컬 주제 영역에 기반한 데이터 집합이 프로파일링됩니다.

도시 이름으로 식별된 지리적 위치와 신용 카드, 전자메일 주소, 주민등록번호에서와 같은 인식 가능한 패턴, 날짜 및 반복 패턴 등 의미 유형의 범주가 있습니다. 고유의 사용자정의 의미 유형을 생성할 수도 있습니다.

의미 유형 범주

프로파일링은 다양한 의미 유형에 적용됩니다.

다음을 식별하도록 의미 유형 범주가 프로파일링됩니다.

  • 도시 이름과 같은 지리적 위치
  • 신용 카드 번호 또는 전자메일 주소와 같은 패턴
  • 하이픈으로 연결된 문구 데이터와 같은 반복 패턴

의미 유형 권장사항

데이터 집합을 복구, 향상, 강화하는 권장사항은 데이터 유형에 따라 결정됩니다.

의미 유형 권장사항의 예:

  • 강화 - 지리적 위치와 같이 감지된 특정 유형에 해당하는 새 열을 데이터에 추가합니다. 예를 들어, 도시의 인구 데이터를 추가합니다.
  • 열 연결 - 하나는 이름을 포함하고 다른 하나는 성을 포함하는 두 개의 열이 데이터 집합에서 감지되면 시스템은 이름들을 단일 열로 연결할 것을 권장합니다. 예를 들어 first_name_last_name 열입니다.
  • 의미 추출 - 의미 유형이 하위 유형(예: 지역 번호가 포함된 us_phone 번호)으로 구성된 경우 시스템은 하위 유형을 고유 열로 추출할 것을 권장합니다.
  • 부분 추출 - 일반 패턴 구분 기호가 데이터에서 감지되면 시스템은 해당 패턴의 일부를 추출할 것을 권장합니다. 예를 들어, 시스템이 데이터에서 반복 하이픈을 감지하면 잠재적으로 분석에 더 유용한 데이터를 만들기 위해 부분을 개별 열로 추출할 것을 권장합니다.
  • 날짜 추출 - 날짜가 감지되면 시스템은 데이터 분석을 보강할 수 있는 날짜의 일부를 추출할 것을 권장합니다. 예를 들어, 송장 또는 구매 날짜에서 요일을 추출할 수 있습니다.
  • 전체 또는 부분 난독화/마스킹/삭제 - 신용 카드 번호와 같은 중요한 필드가 감지되면 시스템은 해당 열의 전체 또는 부분 마스킹이나, 심지어 제거를 권장합니다.

인식된 패턴 기반 의미 유형

데이터에서 발견한 패턴에 준하여 의미 유형이 식별됩니다.

다음 의미 유형에 대한 권장사항이 제공됩니다.

  • 날짜(30개 이상의 형식)
  • 미국 사회 보장 번호(SSN)
  • 신용 카드 번호
  • 신용 카드 속성(CVV 및 만료 날짜)
  • 전자메일 주소
  • 북미 계획 전화 번호
  • 미국 주소

참조 기반 의미 유형

의미 유형 인식은 서비스와 함께 제공되는 로드된 참조 지식에 따라 결정됩니다.

다음 의미 유형에 대한 참조 기반 권장사항이 제공됩니다.

  • 국가 이름
  • 국가 코드
  • 시/도 이름
  • 시/도 코드
  • 구/군 이름(관할지)
  • 도시 이름(현지화된 이름)
  • 우편 번호

권장 강화

권장 강화는 의미 유형에 기반합니다.

강화는 지리적 위치 계층에 따라 결정됩니다.

  • 국가
  • 시/도
  • 관할지(구/군)
  • 경도
  • 위도
  • 인구
  • 고도(미터)
  • 시간대
  • ISO 국가 코드
  • 연방 정보 처리 계열(FIPS)
  • 국가 이름
  • 수도
  • 대륙
  • GeoNames ID
  • 사용 언어
  • 전화 국가 코드
  • 우편 번호 형식
  • 우편 번호 패턴
  • 전화 국가 코드
  • 통화 이름
  • 통화 약어
  • 지리적 최상위 도메인(GeoLTD)
  • 평방 킬로미터

필요한 임계값

프로파일링 프로세스는 특정 의미 유형에 대한 의사결정을 위해 특정 임계값을 사용합니다.

일반적으로 시스템이 분류 결정을 내리려면 열에 있는 데이터 값의 85%가 단일 의미 유형에 대한 조건을 충족해야 합니다. 그 결과, 70% 이름과 30% "기타"가 포함된 열은 임계값 요구사항을 충족하지 않으므로 권장사항이 제공되지 않습니다.

사용자정의 지식 권장사항

사용자정의 지식 권장사항을 통해 Oracle Analytics 시스템 지식을 보강할 수 있습니다. 사용자정의 지식을 통해 Oracle Analytics 의미 프로파일러는 더 많은 비즈니스 특정 의미 유형을 식별하고 강화 권장사항의 관련성과 관리성을 향상시킬 수 있습니다. 예를 들어, 처방약을 진통제 또는 오피오이드라는 USP 약품 범주로 분류하는 사용자정의 지식 참조를 추가할 수 있습니다.

자습서 아이콘 자습서

USP(Unsupervised Semantic Parsing) 파일과 같은 기존 의미 파일을 사용할 수도 있고, 고유의 의미 파일을 생성할 수도 있습니다. 관리자에게 사용자정의 지식 파일을 Oracle Analytics로 업로드하도록 요청하십시오. 데이터 집합을 강화하면 Oracle Analytics는 이 의미 데이터를 기반으로 강화 권장사항을 제공합니다. 워크북을 생성할 때 데이터 패널에서 지식 개선사항을 추가하여 시각화에 포함할 수도 있습니다.

고유의 사용자정의 지식 파일 생성

고유의 의미 파일을 생성할 때 다음 지침을 따르십시오.

  • CSV 또는 Microsoft Excel(XLSX) 형식으로 데이터 파일을 생성합니다. 업로드할 수 있는 최대 파일 크기는 250MB입니다.
  • Oracle Analytics가 데이터 프로파일링에 사용하는 키로 첫번째 열을 채웁니다.
  • 강화 값으로 다른 열을 채웁니다.

관리자에게 사용자정의 지식 파일을 Oracle Analytics로 업로드하도록 요청하십시오.

일반 사용자정의 형식 문자열

일반적인 사용자정의 형식 문자열로 사용자정의 시간 또는 날짜 형식을 생성할 수 있습니다.

이 테이블에서는 일반 사용자정의 형식 문자열과 표시 결과를 보여줍니다. 사용자 로케일로 날짜 및 시간 필드를 표시할 수 있습니다.

일반 형식 문자열 결과

[FMT:dateShort]

로케일의 간단한 날짜 형식으로 날짜를 지정합니다. [FMT:date]를 입력할 수도 있습니다.

[FMT:dateLong]

로케일의 자세한 날짜 형식으로 날짜를 지정합니다.

[FMT:dateInput]

시스템에 다시 입력 가능한 형식으로 날짜를 지정합니다.

[FMT:time]

로케일의 시간 형식으로 시간을 지정합니다.

[FMT:timeHourMin]

로케일의 시간 형식으로 시간을 지정하되, 초는 생략합니다.

[FMT:timeInput]

시스템에 다시 입력 가능한 형식으로 시간을 지정합니다.

[FMT:timeInputHourMin]

시스템에 다시 입력 가능한 형식으로 시간을 지정하되, 초는 생략합니다.

[FMT:timeStampShort]

[FMT:dateShort] [FMT:time]을 입력하는 것과 같습니다. 로케일의 간단한 날짜 형식으로 날짜를 지정하고, 로케일의 시간 형식으로 시간을 지정합니다. [FMT:timeStamp]를 입력할 수도 있습니다.

[FMT:timeStampLong]

[FMT:dateLong] [FMT:time]을 입력하는 것과 같습니다. 로케일의 자세한 날짜 형식으로 날짜를 지정하고, 로케일의 시간 형식으로 시간을 지정합니다.

[FMT:timeStampInput]

[FMT:dateInput] [FMT:timeInput]과 같습니다. 시스템에 다시 입력 가능한 형식으로 날짜 및 시간을 지정합니다.

[FMT:timeHour]

로케일의 형식으로 시 필드만 지정합니다(예: 8 PM).

YY 또는 yy

연도의 마지막 두 자릿수를 표시합니다(예: 2011년의 경우 11).

YYY 또는 yyy

연도의 마지막 세 자릿수를 표시합니다(예: 2011년의 경우 011).

YYYY 또는 yyyy

4자리 연도를 표시합니다(예: 2011).

M

숫자 월을 표시합니다(예: February의 경우 2).

MM

숫자 월을 표시하고, 단자리 월의 경우 왼쪽을 0으로 채웁니다(예: February의 경우 02).

MMM

월의 약어 이름을 사용자의 로케일로 표시합니다(예: Feb).

MMMM

월의 전체 이름을 사용자의 로케일로 표시합니다(예: February).

D 또는 d

월의 일을 표시합니다(예: 1).

DD 또는 dd

월의 일을 표시하고, 단자리 일의 경우 왼쪽을 0으로 채웁니다(예: 01).

DDD 또는 ddd

요일의 약어 이름을 사용자의 로케일로 표시합니다(예: Thursday의 경우 Thu).

DDDD 또는 dddd

요일의 전체 이름을 사용자의 로케일로 표시합니다(예: Thursday).

DDDDD 또는 ddddd

요일 이름의 첫 글자를 사용자의 로케일로 표시합니다(예: Thursday의 경우 T).

r

연도의 일을 표시합니다(예: 1).

rr

연도의 일을 표시하고, 단자리 일의 경우 왼쪽을 0으로 채웁니다(예: 01).

rrr

연도의 일을 표시하고, 단자리 일 또는 두자리 일의 경우 왼쪽을 0으로 채웁니다(예: 001).

w

연도의 주를 표시합니다(예: 1).

ww

연도의 주를 표시하고, 단자리 주의 경우 왼쪽을 0으로 채웁니다(예: 01).

q

연도의 분기를 표시합니다(예: 4).

h

12시간제로 시를 표시합니다(예: 2).

H

24시간제로 시를 표시합니다(예: 23).

hh

12시간제로 시를 표시하고, 단자리 시의 경우 왼쪽을 0으로 채웁니다(예: 01).

HH

24시간제로 시를 표시하고, 단자리 시의 경우 왼쪽을 0으로 채웁니다(예: 23).

m

분을 표시합니다(예: 7).

mm

분을 표시하고, 단자리 분의 경우 왼쪽을 0으로 채웁니다(예: 07).

s

초를 표시합니다(예: 2).

s.# 또는 s.00과 같이 문자열에 소수점을 포함할 수도 있습니다. 여기서 #은 선택적 자릿수를 의미하고 0은 필수 자릿수를 의미합니다.

ss

초를 표시하고, 단자리 초의 경우 왼쪽을 0으로 채웁니다(예: 02).

ss.# 또는 ss.00과 같이 문자열에 소수점을 포함할 수도 있습니다. 여기서 #은 선택적 자릿수를 의미하고 0은 필수 자릿수를 의미합니다.

S

밀리초를 표시합니다(예: 2).

SS

밀리초를 표시하고, 단자리 밀리초의 경우 왼쪽을 0으로 채웁니다(예: 02).

SSS

밀리초를 표시하고, 단자리 밀리초의 경우 왼쪽을 0으로 채웁니다(예: 002).

tt

오전 또는 오후에 대한 약어를 사용자의 로케일로 표시합니다(예: pm).

gg

연대를 사용자의 로케일로 표시합니다.