이 아키텍처는 데이터 레이크하우스 OCI(Oracle Cloud Infrastructure)를 사용하여 구조적/비구조적 소스로부터 데이터를 입수, 처리, 저장, 제공 및 시각화할 수 있는 최신 데이터 플랫폼을 생성하는 방법을 보여줍니다.
아키텍처 구성 요소는 4단계로 나누어 기능 데이터 흐름으로 제시됩니다.
- 데이터 생산자: 스트리밍 데이터 생산자에는 가격 및 환율 데이터에 대한 Kafka 생산자와 거래 데이터에 대한 이벤트 생산자가 포함됩니다. 구조화되지 않은 데이터는 객체 스토리지에 직접 연결됩니다("브론즈" 데이터 레이크). 예약된 또는 이벤트 트리거된 데이터 생산자에는 파일 스토리지의 일괄 처리 데이터와 데이터베이스 시스템의 참조 데이터가 포함됩니다.
- 수집/로드: 영구 스트리밍 데이터가 "브론즈" 오브젝트 스토리지로 전달됩니다. 스트리밍 데이터는 이례적인 거래 데이터 및 실시간 자금 통찰력으로 처리됩니다. 예약된 또는 이벤트 트리거된 데이터는 데이터 통합에 의해 처리되며 "브론즈" 오브젝트 스토리지로 전달됩니다.
- 지속/변환/컴퓨트:
- 스트리밍 데이터는 Kafka Connect에서 처리하여 실시간 자금 통찰력 및 스트리밍 애널리틱스를 생성합니다. 서비스 커넥터 허브는 비정상적인 거래 데이터를 조정하고 Oracle Cloud Infrastructure Notifications를 통해 사용자 통찰력을 확보합니다.
- Oracle Cloud Infrastructure Events, Oracle Functions 및 OCI Vision은 청동 오브젝트 스토리지에서 팩스 이미지에 대한 OCR 및 텍스트 추출을 제공하고 결과 데이터를 "실버" 오브젝트 스토리지로 전달합니다.
- 데이터 레이크하우스 내에서 Oracle Cloud Infrastructure Data Flow는 청동 오브젝트 스토리지에서 데이터를 정리하고 은색 오브젝트 스토리지로 전달합니다. 데이터 플로우도 실버 오브젝트 스토리지에서 데이터를 처리하고 "골드" 오브젝트 스토리지로 전달합니다. Oracle Autonomous Data Warehouse(ADW) 및 Oracle Cloud Infrastructure Data Catalog는 최종 사용자 및 애널리틱스에 대한 "골드" 데이터를 제공합니다.
- 서비스/시각화: 일반 사용자는 비정상적인 데이터 스트리밍에 접근하거나 OpenSearch를 사용하여 실시간 애널리틱스 및 통찰력을 얻을 수 있습니다. 사용자는 Oracle Analytics Cloud 또는 타사 애널리틱스를 사용하여 데이터 레이크하우스의 데이터를 활용할 수 있습니다. 데이터 과학자들은 Oracle Cloud Infrastructure Data Science로 데이터 레이크하우스의 데이터를 활용할 수도 있습니다.