데이터베이스 분석 함수

데이터베이스 분석 함수를 통해 변형 감지, 데이터 클러스터화, 데이터 샘플링, 선호도 분석과 같은 고급 분석 및 데이터 마이닝 분석을 수행할 수 있습니다. 분석 기능을 사용하려면 Oracle Database 또는 Oracle Autonomous AI Database에 접속합니다(분석이 Oracle Analytics가 아닌 데이터베이스에서 계산됨).

LiveLabs Sprint

데이터 흐름 편집기에서 데이터베이스 분석 단계를 표시하려면 Oracle Database 또는 Oracle Autonomous AI Database에 접속해야 합니다.

함수 유형	설명
동적 변형 감지	미리 정의된 모델 없이 입력 데이터의 변형을 감지합니다. 예를 들어, 비정상적인 금융 거래를 강조 표시할 수 있습니다. 대량의 데이터 집합과 함께 이 함수를 배치하는 경우 성능이 최대화되도록 분할 영역 열을 구성합니다.
동적 클러스터화	미리 정의된 모델 없이 입력 데이터를 클러스터링합니다. 예를 들어, 마케팅 목적상 고객 세그먼트를 특성화하고 발견할 수 있습니다. 대량의 데이터 집합과 함께 이 함수를 배치하는 경우 성능이 최대화되도록 분할 영역 열을 구성합니다.
빈발 항목 집합	자주 함께 나타나는 항목 집합을 식별하여 데이터의 관계를 발견합니다. 이 데이터 마이닝 기법은 연관 규칙 학습, 선호도 분석, 또는 소매업에서 장바구니 분석이라고도 합니다. 장바구니 분석 도구로 빈발 항목 집합을 사용하면 샴푸를 사는 고객이 헤어 컨디셔너도 구입하는 것을 알 수 있습니다. 이 작업은 리소스 집약적이며 그 성능은 입력 데이터 집합 볼륨, 트랜잭션 ID의 카디널리티, 항목 값 열의 카디널리티와 같은 여러 요인에 따라 달라집니다. 데이터베이스에서 잠재적 성능 저하를 피하려면 최소 지지율(기본값 0.25)의 상한 값으로 시작해서 점진적으로 줄여나가 출력에 더 많은 항목 집합을 수용하십시오.
데이터 샘플링	테이블에서 데이터의 임의 샘플 백분율을 선택합니다. 샘플링할 데이터의 백분율을 지정하면 됩니다. 예를 들어, 데이터의 10%를 무작위로 샘플링할 수 있습니다.
텍스트 토큰화	텍스트 데이터를 개별 단어로 분리하고 각 단어의 발생 횟수를 세서 분석합니다. 데이터 흐름을 실행할 때 Oracle Analytics는 DR$IndexName$I라는 데이터베이스에 테이블을 생성하고, 여기에 토큰 텍스트 및 토큰 수 관련 세부정보가 포함됩니다. DR$IndexName$I 테이블을 사용하여 데이터 집합을 생성합니다. 출력 아래의 각 필드 옆에 있는 생성 옵션을 사용하여 인덱스화할 열을 선택합니다. 매개변수 아래의 텍스트 열에서 열 선택을 눌러 개별 단어로 분리할 필드를 선택합니다. 참조 열<number> 옵션을 사용하여 하나 이상의 열을 출력 데이터 집합에 포함합니다. 특수 언어 렉서 사용 옵션을 사용하여 특수 렉서에 대해 특정 언어(예: 중국어, 덴마크어, 네덜란드어, 영어, 핀란드어, 독일어, 노르웨이어, 일본어, 한국어 및 스웨덴어)를 선택합니다. 지원되는 언어에 대한 자세한 내용은 Oracle Database 설명서를 참조하십시오. 데이터 흐름에 사용되는 데이터베이스 접속에는 특별한 데이터베이스 권한이 필요합니다. 다음 사항을 관리자에게 확인하십시오. 데이터베이스 계정에 `grant EXECUTE on CTXSYS.CTX_DDL to schema name`이 있습니다. 소스 테이블이 있는 스키마와 동일한 사용자 이름으로 Oracle Analytics 접속을 사용합니다. 이것이 데이터 흐름을 실행할 때 액세스 권한 문제를 피하는 가장 좋은 방법입니다. 분석 중인 데이터베이스 테이블 열에 기존 CONTEXT 인덱스가 없습니다. 분석 중인 데이터베이스 테이블에 기존 CONTEXT 인덱스가 있으면 텍스트 토큰화 데이터 흐름을 실행하기 전에 해당 인덱스를 제거하십시오.
시계열	시계열은 알려진 대상 값 내역을 기반으로 대상 값을 예측하는 데이터 마이닝 기술입니다. 시계열 분석에 대한 입력은 일련의 대상 값입니다. 과거 데이터를 넘어 최대 30개 기간을 포함할 수 있는 시간 범위의 각 기간에 대한 대상 값 추정치를 제공합니다. 또한 이 모델은 과거 데이터에 대한 적합도를 측정하는 다양한 통계를 계산합니다. 해당 통계는 매개변수 설정을 통해 추가 출력 데이터 집합으로 사용할 수 있습니다. 주: 시계열 알고리즘은 Oracle Database 버전 18c 이상에서만 제공됩니다.
데이터 피벗 해제	열에 저장된 데이터를 행 형식으로 치환합니다. 예를 들어, 각 연도의 매출 측정항목 값을 보여주는 다중 열을 연도 차원의 여러 값 행이 있는 단일 매출 열로 치환할 수 있습니다. 치환할 측정항목 열을 선택하고 새 열의 이름을 지정하기만 하면 더 적은 열과 더 많은 행이 있는 새 데이터 집합을 얻게 됩니다.

주: 분석 함수를 사용하려면 관리자가 콘솔, [고급 시스템 설정], [성능 및 호환성], [데이터 흐름에서 데이터베이스 분석 노드 사용]을 통해 분석 함수를 사용으로 설정했어야 합니다.