데이터베이스 분석 함수를 통해 변형 감지, 데이터 클러스터화, 데이터 샘플링, 선호도 분석과 같은 고급 분석 및 데이터 마이닝 분석을 수행할 수 있습니다. Oracle Database 또는 Oracle Autonomous Data Warehouse에 접속하면 분석 함수를 사용할 수 있습니다.
데이터 흐름 편집기에서 데이터베이스 분석 단계를 표시하려면 Oracle Database 또는 Oracle Autonomous Data Warehouse에 접속해야 합니다.
함수 유형 | 설명 |
---|---|
동적 변형 감지 |
미리 정의된 모델 없이 입력 데이터의 변형을 감지합니다. 예를 들어, 비정상적인 금융 거래를 강조 표시할 수 있습니다. 대량의 데이터 집합과 함께 이 함수를 배치하는 경우 성능이 최대화되도록 분할 영역 열을 구성합니다. |
동적 클러스터화 |
미리 정의된 모델 없이 입력 데이터를 클러스터링합니다. 예를 들어, 마케팅 목적상 고객 세그먼트를 특성화하고 발견할 수 있습니다. 대량의 데이터 집합과 함께 이 함수를 배치하는 경우 성능이 최대화되도록 분할 영역 열을 구성합니다. |
빈발 항목 집합 |
자주 함께 나타나는 항목 집합을 식별하여 데이터의 관계를 발견합니다. 이 데이터 마이닝 기법은 연관 규칙 학습, 선호도 분석, 또는 소매업에서 장바구니 분석이라고도 합니다. 장바구니 분석 도구로 빈발 항목 집합을 사용하면 샴푸를 사는 고객이 헤어 컨디셔너도 구입하는 것을 알 수 있습니다. 이 작업은 리소스 집약적이며 그 성능은 입력 데이터 집합 볼륨, 트랜잭션 ID의 카디널리티, 항목 값 열의 카디널리티와 같은 여러 요인에 따라 달라집니다. 데이터베이스에서 잠재적 성능 저하를 피하려면 최소 지지율(기본값 0.25)의 상한 값으로 시작해서 점진적으로 줄여나가 출력에 더 많은 항목 집합을 수용하십시오. |
데이터 샘플링 |
테이블에서 데이터의 임의 샘플 백분율을 선택합니다. 샘플링할 데이터의 백분율을 지정하면 됩니다. 예를 들어, 데이터의 10%를 무작위로 샘플링할 수 있습니다. |
텍스트 토큰화 |
텍스트 데이터를 개별 단어로 분리하고 각 단어의 발생 횟수를 세서 분석합니다. 데이터 흐름을 실행할 때 Oracle Analytics는 DR$IndexName$I라는 데이터베이스에 테이블을 생성하고, 여기에 토큰 텍스트 및 토큰 수 관련 세부정보가 포함됩니다. DR$IndexName$I 테이블을 사용하여 데이터 집합을 생성합니다.
데이터 흐름에 사용되는 데이터베이스 접속에는 특별한 데이터베이스 권한이 필요합니다. 다음 사항을 관리자에게 확인하십시오.
|
시계열 |
시계열은 알려진 대상 값 내역을 기반으로 대상 값을 예측하는 데이터 마이닝 기술입니다. 시계열 분석에 대한 입력은 일련의 대상 값입니다. 과거 데이터를 넘어 최대 30개 기간을 포함할 수 있는 시간 범위의 각 기간에 대한 대상 값 추정치를 제공합니다. 또한 이 모델은 과거 데이터에 대한 적합도를 측정하는 다양한 통계를 계산합니다. 해당 통계는 매개변수 설정을 통해 추가 출력 데이터 집합으로 사용할 수 있습니다. 주: 시계열 알고리즘은 Oracle Database 버전 18c 이상에서만 제공됩니다. |
데이터 피벗 해제 |
열에 저장된 데이터를 행 형식으로 치환합니다. 예를 들어, 각 연도의 매출 측정항목 값을 보여주는 다중 열을 연도 차원의 여러 값 행이 있는 단일 매출 열로 치환할 수 있습니다. 치환할 측정항목 열을 선택하고 새 열의 이름을 지정하기만 하면 더 적은 열과 더 많은 행이 있는 새 데이터 집합을 얻게 됩니다. |
주: 분석 함수를 사용하려면 관리자가 콘솔, [시스템 설정], [성능 및 호환성], [데이터 흐름에서 데이터베이스 분석 노드 사용]을 통해 분석 함수를 사용으로 설정했어야 합니다.