데이터 플랫폼 - Data Lakehouse

기능 구조

데이터 레이크와 데이터 웨어하우스의 기능을 결합하여 비즈니스 분석, 머신 러닝, 데이터 서비스 및 데이터 제품에 데이터를 활용할 수 있도록 광범위한 엔터프라이즈 데이터 리소스에서 스트리밍 및 기타 유형의 데이터를 처리하는 최신 데이터 레이크하우스 플랫폼을 제공할 수 있습니다.

데이터 레이크하우스 아키텍처는 데이터 레이크와 데이터 웨어하우스의 기능을 결합하여 운영 효율성을 높이고 다음과 같은 향상된 기능을 제공합니다.

데이터 레이크 및 데이터 웨어하우스 전반에서 데이터를 복제할 필요 없이 원활한 데이터 및 정보 사용
향상된 다중 모델 및 다중 언어 아키텍처에서 다양한 데이터 유형 지원
실시간, 스트리밍, 배치, API(애플리케이션 프로그래밍 인터페이스) 및 대량 수집 메커니즘을 사용하여 모든 소비자로부터 원활한 데이터 수집
AI(인공 지능), 생성형 AI 및 ML(머신 러닝) 서비스를 사용하여 데이터에서 지속적으로 인텔리전스 추출
API, 사용자 인터페이스, 스트리밍 및 통합 메커니즘을 사용하여 모든 데이터 소비자에게 인텔리전스를 주입하고 제공하는 기능
제로 트러스트 보안 모델을 활용하는 거버넌스 및 세분화된 데이터 보안
스토리지 및 컴퓨팅 리소스를 완전히 분리하고 특정 시점에 필요한 리소스만 소비하는 기능
오픈 소스 엔진을 포함한 여러 컴퓨팅 엔진을 활용하여 다양한 사용 사례에 대해 동일한 데이터를 처리함으로써 데이터 용도 변경, 유동성 및 사용량을 극대화할 수 있습니다.
다양한 열린 파일 및 테이블 형식을 사용하여 데이터 레이크에 데이터를 저장하는 기능
Oracle에서 관리하는 Oracle Cloud Infrastructure(OCI) 네이티브 서비스를 활용하고 운영 오버헤드를 줄일 수 있는 기능
실제 수요에 맞게 클라우드 리소스 인프라를 조정하는 자동 크기 조정을 통해 클라우드 경제성 향상
서비스 사용 사례 기반 모듈화
개방형 표준을 준수하는 모든 시스템 또는 클라우드와의 상호 운용성
스트리밍, 분석, 데이터 과학, 머신 러닝 등 다양한 사용 사례 지원
중앙 집중식 레이크하우스에서 분산형 데이터 메시에 이르는 다양한 아키텍처 접근 방식 지원

다음 다이어그램은 기능적 구조를 보여 줍니다.

Lakehouse-functional.png에 대한 설명은 다음과 같습니다.

그림 lakehouse-functional.png에 대한 설명

레이크하우스-기능-oracle.zip

이 아키텍처는 다음과 같은 논리적 부문에 중점을 둡니다.

연결, 수집, 변환
데이터 소스에 연결하고, 수집하고, 아키텍처의 각 데이터 계층에서 사용할 데이터를 세분화합니다.
유지, 선별, 생성
현재 비즈니스 뷰를 표시할 수 있도록 데이터 접근 및 탐색을 지원합니다. 관계형 기술의 경우 데이터는 단순한 관계형, 종단, 치수 또는 OLAP 형식으로 논리적으로 또는 물리적으로 구조화될 수 있습니다. 비관계형 데이터의 경우 이 계층에는 분석 프로세스의 출력 또는 특정 분석 작업에 최적화된 데이터 중 하나 이상의 데이터 풀이 포함됩니다.
분석, 학습, 예측
소비자의 데이터에 대한 논리적 비즈니스 뷰를 추상화합니다. 이 추상화는 개발에 대한 민첩한 접근 방식, 대상 아키텍처로의 마이그레이션 및 여러 통합 소스에서 단일 보고 계층을 프로비저닝하는 데 도움이 됩니다.

구조에는 다음과 같은 기능 구성 요소가 있습니다.

뱃치 수집
일괄 수집은 실시간으로 수집할 수 없거나 실시간 수집에 적응하기에는 너무 많은 비용이 드는 데이터에 유용합니다. 데이터를 신뢰할 수 있고 신뢰할 수 있는 정보로 변환하여 정기적인 소비를 위해 선별 및 유지할 수도 있습니다. 다음 서비스를 함께 또는 독립적으로 사용하여 매우 유연하고 효과적인 데이터 통합 및 변환 워크플로우를 달성할 수 있습니다.
- Oracle Cloud Infrastructure Data Integration은 다양한 데이터 소스에서 Autonomous Data Warehouse 및 Oracle Cloud Infrastructure Object Storage와 같은 대상 Oracle Cloud Infrastructure 서비스로 데이터를 추출, 로드, 변환, 정리 및 재구성하는 완전 관리형 서버리스 클라우드 네이티브 서비스입니다. 사용자는 통합 흐름을 최적화하여 가장 효율적인 엔진 및 통합관리를 생성하고 실행 환경을 자동으로 할당 및 확장하는 직관적인 코드 없는 사용자 인터페이스를 사용하여 데이터 통합 프로세스를 설계합니다.
  
  ETL(변환 로드 추출)은 Spark에서 완전 관리형 스케일 아웃 처리를 활용하고, ELT(로드 변환 추출)는 Autonomous Data Warehouse의 전체 SQL 푸시 다운 기능을 활용하여 데이터 이동을 최소화하고 새로 수집된 데이터의 가치 실현 시간을 개선합니다.
  
  Oracle Cloud Infrastructure Data Integration은 대화식 탐색 및 데이터 준비를 제공하며, 스키마 변경을 처리하는 규칙을 정의하여 데이터 엔지니어가 스키마 드리프트로부터 데이터를 보호할 수 있도록 지원합니다.
- Oracle Data Integrator는 대용량 및 고성능 일괄 처리 로드에서 이벤트 중심의 트릭 피드 통합 프로세스, SOA 지원 데이터 서비스에 이르기까지 포괄적인 데이터 통합을 제공합니다. 선언적 설계 방식은 보다 빠르고 간단한 개발 및 유지 관리를 보장하며, 데이터 변환 및 검증 프로세스에 가능한 최고 수준의 성능을 보장하는 고유한 ELT(로드 변환) 추출 접근 방식을 제공합니다. Oracle 데이터 변환은 웹 인터페이스를 사용하여 ELT의 구성 및 실행을 단순화하고 사용자가 선언적 설계 방식을 사용하여 데이터 및 작업 흐름을 작성하고 일정을 잡을 수 있도록 지원합니다.
- Oracle Data Transforms는 지원되는 선택한 기술에 대해 ELT를 사용으로 설정하여 사용자가 선언적으로 데이터 플로우 및 워크플로우를 구축하고 일정을 잡을 수 있는 웹 사용자 인터페이스를 사용하여 데이터 파이프라인 구성 및 실행을 간소화합니다. Oracle Data Transforms은 Oracle Autonomous Data Warehouse(ADW) 내에서 완전 관리형 환경으로 제공되어 여러 데이터 소스의 데이터를 ADW 인스턴스로 로드 및 변환합니다.
사용 사례에 따라 이러한 구성 요소를 독립적으로 또는 함께 사용하여 매우 유연하고 성능이 뛰어난 데이터 통합 및 변환을 달성할 수 있습니다.
API 기반 수집
API 기반 수집을 통해 애플리케이션 및 시스템은 API 또는 Webhook을 사용하여 이벤트 데이터를 푸시할 수 있습니다.
- Oracle Integration은 클라우드 및 온프레미스 애플리케이션을 통합하고, 비즈니스 프로세스를 자동화하고, 시각적 애플리케이션을 개발할 수 있도록 사전 구성된 전담 관리 환경입니다. SFTP 호환 파일 서버를 사용하여 파일을 저장 및 검색하고, 수백 개의 어댑터 및 레시피 포트폴리오를 사용하여 Oracle 및 타사 애플리케이션과 연결하여 B2B 거래 파트너와 문서를 교환할 수 있습니다.
- Oracle Cloud Infrastructure API Gateway를 사용하면 네트워크 내에서 액세스할 수 있고 필요한 경우 공용 인터넷에 노출할 수 있는 전용 엔드포인트가 있는 API를 게시할 수 있습니다. 엔드포인트는 API 검증, 요청 및 응답 변환, CORS, 인증 및 권한 부여, 요청 제한을 지원합니다.
  
  OCI API Gateway는 API 관찰 기능을 통해 사용량을 모니터링하고 SLA를 보장합니다. 또한 사용 계획을 사용하여 API 소비자 및 클라이언트를 모니터링 및 관리하고 다양한 고객에 대해 다양한 API 액세스 계층을 설정할 수 있습니다. 사용 계획은 데이터 수익 창출을 지원하는 핵심 기능입니다.
  
  사용 계획은 계층화된 사용 계획을 생성하여 API 소비자 및 클라이언트를 관리하고 데이터 사용량을 추적함으로써 데이터 수익 창출을 지원합니다.
- Oracle Cloud Infrastructure Functions는 확장성이 뛰어난 완전 관리형 멀티테넌트 온디맨드 Functions-as-a-Service(FaaS) 플랫폼입니다. 그것은 Fn 프로젝트 오픈 소스 엔진에 의해 구동 됩니다. 함수를 사용하면 코드를 배치하고 직접 호출하거나 이벤트에 대한 응답으로 트리거할 수 있습니다. Oracle Functions는 Oracle Cloud Infrastructure Registry에서 호스팅되는 Docker 컨테이너를 사용합니다.
- ORDS(Oracle REST Data Services)는 모든 개발자가 SQL 및 데이터베이스 기술을 사용하여 Oracle Database용 REST API를 개발할 수 있도록 하는 Java 애플리케이션입니다. 모든 애플리케이션 개발자는 가장 널리 사용되는 API 기술인 REST를 사용하여 다른 외부 서비스에 액세스하는 것과 동일한 방식으로 클라이언트 드라이버를 설치 및 유지 관리하지 않고 모든 언어 환경에서 이러한 API를 사용할 수 있습니다.
  
  ORDS는 Oracle Autonomous Data Warehouse에서 완전 관리형 기능으로 배포되며, 데이터 소비자에게 API를 사용하여 레이크하우스 정보를 노출하는 데 사용될 수 있습니다.
실시간 수집

Oracle Cloud Infrastructure GoldenGate는 온프레미스 또는 모든 클라우드에 상주하는 소스로부터 데이터를 수집할 수 있는 완전 관리형 서비스입니다. GoldenGate CDC 기술을 활용하여 비침입적이고 효율적인 데이터 캡처 및 Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage 또는 Oracle Cloud Infrastructure Streaming에 실시간으로 대규모로 전달함으로써 소비자가 관련 정보를 최대한 빨리 이용할 수 있습니다.
대량 이전
대량 전송을 사용하면 다양한 방법을 사용하여 대량의 일괄 데이터를 이동할 수 있습니다. 대규모 데이터 레이크하우스의 경우 Oracle Cloud Infrastructure FastConnect 및 데이터 전송 서비스를 권장합니다.
- Oracle Cloud Infrastructure FastConnect는 데이터 센터 및 Oracle Cloud Infrastructure 간 전용, 개인 연결을 생성할 수 있는 쉬운 방법을 제공합니다. FastConnect는 인터넷 기반 연결과 비교할 때 더 높은 대역폭 옵션과 더 안정적인 네트워킹 환경을 제공합니다.
- Oracle Cloud Infrastructure(OCI) CLI(명령행 인터페이스)를 사용하면 Oracle Cloud Infrastructure FastConnect 전용 회로를 활용하여 온프레미스에서 OCI로의 데이터 전송을 실행하고 자동화할 수 있습니다. OCI SDK를 사용하면 Python, Java 또는 Go to name과 같은 다양한 프로그래밍 언어를 활용하여 온프레미스 또는 다른 클라우드에서 Oracle Cloud Infrastructure Object Storage로 데이터 및 파일을 복사하거나 동기화하는 코드를 작성할 수 있습니다. REST API를 사용하면 오브젝트 스토리지 서비스 API를 사용하여 데이터를 오브젝트 스토리지로 이동하는 등 OCI 서비스와 인터페이스하고 제어할 수 있습니다.
- Oracle Cloud Infrastructure 데이터 전송은 페타바이트 단위의 데이터세트를 고객의 데이터 센터에서 Oracle Cloud Infrastructure Object Storage 또는 아카이브 스토리지로 안전하게 전송할 수 있는 오프라인 데이터 마이그레이션 서비스입니다. 공용 인터넷을 사용하여 데이터를 클라우드로 전송하는 것은 높은 네트워크 비용, 신뢰할 수 없는 네트워크 연결, 긴 전송 시간, 보안 문제 등으로 인해 항상 가능하지는 않습니다. 데이터 전송 서비스는 이러한 문제를 해결하며 데이터를 클라우드로 마이그레이션하는 데 소요되는 시간을 크게 단축할 수 있습니다. 데이터 전송은 디스크 또는 어플라이언스를 통해 사용할 수 있습니다. 둘 중 하나를 선택하는 것은 대개 데이터 양에 따라 달라집니다. Data Transfer Appliance는 각 어플라이언스에 대해 더 큰 데이터 세트를 지원합니다.
스트리밍 수집
스트리밍 수집은 광범위한 데이터 생산자로부터 대규모 데이터 세트를 실시간으로 수집할 수 있는 OCI 네이티브 서비스를 사용하여 지원됩니다. 스트리밍 수집은 데이터 레이크하우스의 핵심인 객체 스토리지의 데이터를 지속하고 동기화합니다. 데이터를 오브젝트 스토리지에 동기화하면 선별 및 추가로 변환할 수 있는 과거 데이터를 보유하여 귀중한 통찰력을 얻을 수 있습니다.
- Oracle Cloud Infrastructure Streaming은 실시간으로 소비하고 처리할 수 있는 대용량의 연속 데이터 스트림을 수집할 수 있는 확장 가능하며 내구성이 뛰어난 완전 관리형 스토리지 솔루션을 제공합니다. 스트리밍은 메시징, 대용량 애플리케이션 로그, 운영 원격 측정, 웹 클릭-스트림 데이터 또는 데이터가 연속적이고 순차적으로 생성되고 처리되는 기타 게시-구독 메시징 모델 사용 사례에 사용할 수 있습니다. 데이터는 Oracle Cloud Infrastructure Object Storage와 동기화되며 선별되고 추가로 변환되어 중요한 통찰력을 추출할 수 있습니다.
- Oracle Cloud Infrastructure Queue는 시스템을 분리하고 비동기 작업을 지원하는 완전 관리형 서버리스 서비스입니다. 대기열은 손실 또는 복제 없이 독립적으로 처리된 메시지가 필요한 대용량 트랜잭션 데이터를 처리합니다.
- Oracle Cloud Infrastructure Service Connector Hub는 Oracle Cloud Infrastructure의 서비스 간 데이터 이동을 설명, 실행 및 모니터링하기 위한 단일 창을 제공하는 클라우드 메시지 버스 플랫폼입니다. 이 특정 참조 아키텍처의 경우 Oracle Cloud Infrastructure Streaming 또는 OCI Queue에서 Oracle Cloud Infrastructure Object Storage로 데이터를 이동하여 원시 및 준비된 데이터를 데이터 레이크하우스 지속성 계층에 유지하는 데 사용됩니다.
스트리밍 처리

스트리밍 처리는 스트리밍 데이터를 강화하고, 이벤트 패턴을 감지하고, 데이터 레이크하우스에 지속되는 다양한 스트림 세트를 생성합니다.
- Oracle Cloud Infrastructure GoldenGate Stream Analytics는 정교한 상관 관계 패턴, 데이터 보강 및 머신 러닝을 사용하여 대규모 실시간 정보를 처리하고 분석합니다. 사용자는 라이브 차트, 맵, 시각화를 통해 실시간 데이터를 탐색할 수 있으며, 수동 코딩 없이도 그래픽으로 스트리밍 파이프라인을 구축할 수 있습니다. 이러한 파이프라인은 확장 가능한 완전 관리형 서비스로 실행되어 모던 기업의 중요한 실시간 사용 사례를 해결합니다.
- Oracle Cloud Infrastructure Data Flow는 인프라를 배포하거나 관리할 필요 없이 Apache Spark 및 Spark Streaming 애플리케이션을 실행할 수 있는 완전 관리형 빅데이터 서비스입니다. 운영 관리 없이도 애플리케이션에 집중할 수 있기 때문에 빅 데이터 및 AI 애플리케이션을 더 빠르게 제공할 수 있습니다. 데이터 플로우 애플리케이션은 Spark 애플리케이션과 해당 종속성, 기본 매개변수 및 기본 런타임 리소스 사양으로 구성된 재사용 가능한 템플리트입니다.
오픈 소스 에코시스템
오픈 소스 에코시스템을 사용할 수 있습니다.
- Hadoop, Spark, Flink, Trino 등 널리 사용되는 여러 오픈 소스 엔진을 활용한 일괄 처리 및 스트림 처리
- 프로듀서이자 소비자로서의 Oracle Cloud Infrastructure Streaming 활용
- Oracle Cloud Infrastructure Object Storage를 사용하면 데이터를 지속하고 데이터를 소비할 수 있습니다.
Oracle Cloud Infrastructure Object Storage를 데이터 레이크로 사용하여 서로 다른 시간에 서로 다른 Oracle Cloud Infrastructure 서비스 간에 공유할 데이터 세트를 유지할 수 있습니다.
빅데이터 서비스는 온디맨드 방식으로 완전히 구성되고, 안전하고, 가용성이 높으며, 전용 Hadoop, Spark 또는 Flink 클러스터를 프로비저닝합니다. 소규모 테스트 및 개발 클러스터에서 대규모 프로덕션 클러스터에 이르는 모든 것을 지원하는 다양한 Oracle Cloud Infrastructure 컴퓨트 구성을 사용하여 빅데이터 및 분석 워크로드에 맞게 클러스터를 확장할 수 있습니다. 측정지표 또는 일정에 따라 자동 확장 구성을 활용하여 비즈니스 수요에 맞게 신속하게 조정하고 비용을 최적화합니다. 클러스터 프로파일을 활용하여 특정 워크로드 또는 기술에 맞는 최적의 클러스터를 생성할 수 있습니다.
일괄처리 수행 중
일괄 처리는 데이터 레이크하우스에 저장된 대규모 데이터 세트를 변환합니다. 일괄 처리는 Oracle Cloud Infrastructure Object Storage와 원활하게 통합되는 Oracle Cloud Infrastructure 네이티브 서비스를 활용하며, 데이터 집계 및 보강, 데이터 웨어하우스 수집, 머신 러닝 및 AI 데이터 대규모 사용과 같은 사용 사례에 대해 선별된 데이터를 생성할 수 있습니다.
- 위에서 설명한 Oracle Cloud Infrastructure Data Integration은 다양한 데이터 소스에서 Autonomous Data Warehouse 및 Oracle Cloud Infrastructure Object Storage와 같은 대상 Oracle Cloud Infrastructure 서비스로 데이터를 추출, 로드, 변환, 정리 및 재구성하는 완전 관리형 서버리스 클라우드 전용 서비스입니다.
- Oracle Cloud Infrastructure Data Flow는 인프라를 배포하거나 관리할 필요 없이 Apache Spark 및 Spark Streaming 애플리케이션을 실행할 수 있는 완전 관리형 빅데이터 서비스입니다. 운영 관리 없이도 애플리케이션에 집중할 수 있기 때문에 빅 데이터 및 AI 애플리케이션을 더 빠르게 제공할 수 있습니다. 데이터 플로우 애플리케이션은 Spark 애플리케이션과 해당 종속성, 기본 매개변수 및 기본 런타임 리소스 사양으로 구성된 재사용 가능한 템플리트입니다.
- Oracle Data Transforms는 선택된 지원 기술에 대해 ELT(추출 로드 변환)를 사용으로 설정하여 사용자가 선언적으로 데이터 플로우 및 작업 플로우를 구축하고 일정을 잡을 수 있는 웹 사용자 인터페이스를 사용하여 데이터 파이프라인의 구성 및 실행을 단순화합니다. Oracle Data Transforms은 Oracle Autonomous Data Warehouse(ADW) 내에서 완전 관리형 환경으로 제공되어 여러 데이터 소스의 데이터를 ADW 인스턴스로 로드 및 변환합니다.
  
  사용 사례에 따라 이러한 구성 요소를 독립적으로 또는 함께 사용하여 매우 유연하고 성능이 뛰어난 데이터 처리를 수행할 수 있습니다.
제공
Oracle Autonomous Data Warehouse는 데이터 웨어하우징 워크로드에 최적화된 자가 구동, 자가 보안 및 자가 복구 데이터베이스 서비스입니다. 하드웨어를 구성 또는 관리하거나 소프트웨어를 설치할 필요가 없습니다. Oracle Cloud Infrastructure는 데이터베이스 생성, 백업, 패치, 업그레이드 및 튜닝을 처리합니다.

프로비저닝 후에는 가용성 또는 성능에 영향을 주지 않고 언제든지 CPU 코어 수 또는 데이터베이스의 스토리지 용량을 확장할 수 있습니다.

Oracle Autonomous Data Warehouse는 오브젝트 스토리지에 있는 데이터를 외부 및 하이브리드 분할 테이블로 가상화하여 웨어하우스 데이터를 사용하여 다른 소스에서 파생된 데이터를 조인하고 소비할 수도 있습니다. 또한 기록 데이터를 웨어하우스에서 오브젝트 스토리지로 이동한 다음 하이브리드 분할 테이블을 사용하여 원활하게 사용할 수 있습니다.

Oracle Autonomous Data Warehouse는 이전에 수집된 데이터 카탈로그에 저장된 메타데이터를 사용하여 외부 테이블을 생성할 수 있으며, 데이터 카탈로그의 메타데이터 업데이트를 외부 테이블 정의와 자동으로 동기화하여 일관성을 유지하고 관리를 간소화하며 작업을 줄일 수 있습니다.

벡터는 관계형, JSON, 공간 및 그래프와 같은 여러 데이터 유형을 지원하는 다중 모델 데이터베이스이기 때문에 Autonomous Database에서 지원됩니다. 벡터 데이터 유형을 사용하면 벡터 임베딩을 로드 및 저장할 수 있을 뿐만 아니라 단일 클라우드 Autonomous Data Warehouse 인스턴스에서 검색 증강 생성(RAG) 애플리케이션에 사용할 수 있는 벡터 인덱스를 생성할 수 있습니다. 이 다중 모델 기능을 사용하면 단일 쿼리에 결합할 수 있는 모든 데이터 유형을 사용하여 분석을 수행할 수 있으므로 데이터 유형당 특수 사일로화된 데이터베이스를 사용하는 데 따른 복잡성과 위험을 줄이는 동시에 보안, 안정성, 확장성 및 모든 데이터를 쉽게 분석할 수 있습니다.

Autonomous Database 기능인 AI를 선택하면 LLM을 통해 자연어를 사용하여 데이터를 쿼리하고, 사용자의 입력 텍스트를 Oracle SQL로 변환할 수 있습니다. Select AI는 자연어 프롬프트를 처리하고, 메타데이터로 프롬프트를 보완한 후 SQL 질의를 생성 및 실행합니다.

Autonomous Database 기능인 데이터 공유를 사용하면 Autonomous Database 또는 Delta-Sharing 호환 기술을 사용하는 타사의 데이터와 메타데이터를 안전하게 제공하고 소비할 수 있습니다. 데이터 공유를 사용하면 기본 공유 테이블을 추상화하는 뷰로서 공유 제공자의 데이터를 간편하게 사용할 수 있습니다. 또한 제공자와 수신자가 모두 Autonomous Database를 사용할 때 수신자가 실시간 및 신규 데이터를 사용할 수 있도록 해주는 라이브 공유도 사용할 수 있습니다.

Autonomous Database 기능인 분석 뷰를 통해 기존 데이터베이스 테이블 및 뷰에 저장된 데이터의 분석 쿼리를 빠르고 효율적으로 생성할 수 있습니다. 분석 뷰는 차원 모델을 사용하여 데이터를 구성합니다. 데이터 집합에 집계 및 계산을 쉽게 추가하고 비교적 간단한 SQL을 통해 질의될 수 있도록 뷰에 데이터를 표시할 수 있습니다. 이 기능을 사용하면 내부 및 외부에 저장된 데이터를 사용하여 ADW에서 직접 스타 또는 눈송이 스키마를 의미상으로 모델링할 수 있으며 SQL 및 SQL 준수 데이터 소비자를 사용하여 모델을 사용할 수 있습니다.

또한 Autonomous Database의 구성요소인 Autonomous Data Lake Accelerator는 객체 스토리지 데이터를 원활하게 소비하고, 빠른 쿼리를 제공하기 위해 프로세싱을 확장하고, 필요할 때 데이터베이스 컴퓨트 인스턴스를 자동 스케일링하고, 데이터베이스 컴퓨트 인스턴스에서 객체 스토리지 쿼리를 분리하여 데이터베이스 워크로드에 미치는 영향을 줄일 수 있습니다.
클라우드 스토리지
Oracle Cloud Infrastructure Object Storage는 안정적이고 비용 효율적인 데이터 내구성을 제공하는 인터넷 규모의 고성능 스토리지 플랫폼입니다. Oracle Cloud Infrastructure Object Storage는 분석 데이터를 포함하여 모든 콘텐츠 유형의 비구조적 데이터를 무제한으로 저장할 수 있습니다. 인터넷 또는 클라우드 플랫폼 내에서 직접 안전하고 안전하게 데이터를 저장 또는 검색할 수 있습니다. 여러 관리 인터페이스를 통해 성능 또는 서비스 안정성이 저하되지 않고도 소규모로 쉽게 시작하고 원활하게 확장할 수 있습니다.

Oracle Cloud Infrastructure Object Storage는 자주 사용되지 않는 데이터를 저장한 후 Oracle Autonomous Data Warehouse의 하이브리드 테이블을 사용하여 가장 최근 데이터와 원활하게 조인함으로써 데이터 웨어하우스의 콜드 스토리지 계층으로 사용될 수도 있습니다.

객체 레벨 세분화된 액세스 제어를 객체에 대한 IAM 정책을 사용하여 적용할 수 있으므로 데이터 레이크 직접 액세스에 대한 데이터 보안이 향상됩니다.
시각화 및 학습
Oracle Analytics Cloud는 확장이 가능한 보안 퍼블릭 클라우드 서비스로, 사용자, 사용자의 작업 그룹 및 기업에 대한 협업 분석을 탐색하고 수행할 수 있는 모든 기능을 제공합니다. 시민 데이터 과학자, 고급 비즈니스 분석가 교육 및 머신 러닝(ML) 모델 실행을 지원합니다. 머신 러닝 모델은 분석 서비스에서 또는 Oracle Autonomous Data Warehouse에서 Oracle Cloud Infrastructure Vision과 같은 웨어하우스 및 OCI AI 서비스의 처리 능력, 확장성, 탄력성을 활용하는 대규모 배치 예측을 위한 OML 내장 모델로 직접 실행할 수 있습니다.

또한 Oracle Analytics Cloud를 사용하면 빠른 설정, 손쉬운 확장 및 패치 적용, 자동화된 라이프사이클 관리 등 유연한 서비스 관리 기능을 이용할 수 있습니다.
학습 및 예측
- 데이터 과학은 데이터 과학 팀이 Oracle Cloud Infrastructure에서 머신 러닝(ML) 모델을 구축, 교육 및 관리할 수 있는 인프라, 오픈 소스 기술, 라이브러리, 패키지 및 데이터 과학 툴을 제공합니다. 협업 및 프로젝트 기반 작업영역은 엔드투엔드 통합 사용자 경험을 제공하고 예측 모델의 수명 주기를 지원합니다. Data Science를 사용하면 데이터 과학자 및 머신 러닝 엔지니어가 Anaconda Repository에서 패키지를 무료로 직접 다운로드하여 설치할 수 있으므로 머신 러닝 라이브러리의 선별된 데이터 과학 에코시스템을 통해 프로젝트를 혁신할 수 있습니다.
  
  데이터 과학 작업 기능을 사용하면 데이터 과학자가 완전 관리형 인프라에서 반복 가능한 머신 러닝 작업을 정의하고 실행할 수 있습니다.
  
  데이터 과학 모델 배포 기능을 통해 데이터 과학자는 학습된 모델을 완전 관리형 HTTP 엔드포인트로 배포하여 실시간으로 예측을 제공하고, 프로세스 및 애플리케이션에 인텔리전스를 주입하고, 관련 이벤트가 발생할 때 관련 이벤트에 대응할 수 있습니다.
- Oracle Machine Learning은 Python 및 AutoML을 지원하며 Autonomous Database에 긴밀하게 통합된 강력한 머신 러닝 기능을 제공합니다. 오픈 소스 및 확장 가능한 데이터베이스 내 알고리즘을 사용하여 데이터 준비 및 이동을 줄이는 모델을 지원합니다. AutoML는 데이터 과학자가 자동 알고리즘 선택, 적응형 데이터 샘플링, 자동 기능 선택 및 자동 모델 튜닝을 사용하여 회사의 머신 러닝 이니셔티브 가치 실현 시간을 단축할 수 있도록 지원합니다. Oracle Autonomous Data Warehouse에서 사용할 수 있는 Oracle Machine Learning 서비스를 사용하면 모델을 관리할 수 있을 뿐만 아니라, 기업 내 실시간 예측을 민주화하기 위해 해당 모델을 REST 엔드포인트로 배포할 수도 있습니다. 이를 통해 기업은 관련 이벤트가 발생한 후가 아니라 발생할 때 대응할 수 있습니다.
AI 및 생성형 AI 서비스
Oracle Cloud Infrastructure AI 서비스는 텍스트 분석에서 예측 유지 관리에 이르는 다양한 사용 사례를 지원하는 데 사용할 수 있는 즉시 사용 가능한 AI 서비스 세트를 제공합니다. 이러한 서비스에는 API를 사용하여 데이터 파이프라인, 분석 및 애플리케이션에 통합할 수 있는 사전 구축되고 세밀하게 조정된 모델이 있습니다.
- Oracle Cloud Infrastructure Language는 정교한 텍스트 분석 및 번역을 대규모로 수행합니다. 사전 학습 및 커스터마이징 모델을 통해 개발자는 데이터 과학 전문 지식 없이도 비정형 텍스트를 처리하고 인사이트를 추출할 수 있습니다. 감정 분석, 핵심 문구 추출, 텍스트 분류, 명명된 개체 인식을 수행하고 텍스트에서 PII 데이터를 감지합니다. 도메인별 작업에 맞게 모델을 조정하고 다양한 언어로 텍스트를 손쉽게 번역할 수 있습니다. Oracle Cloud Infrastructure Language는 대용량 워크로드를 효율적으로 처리하기 위한 문서 변환 및 비동기 작업도 지원합니다.
- Oracle Cloud Infrastructure Speech는 사람의 음성이 들어 있는 미디어 파일을 매우 정확한 텍스트 번역본으로 쉽게 변환할 수 있도록 하여 음성 언어의 위력을 활용합니다. OCI 음성을 사용하면 고객 서비스 통화를 필사하고, 자막을 자동화하고, 미디어 자산의 메타데이터를 생성하여 완전히 검색 가능한 아카이브를 생성할 수 있습니다. OCI Speech는 일괄 처리 및 실시간 필사 작업을 지원합니다.
- OCI Vision은 이미지 분류, 객체 및 얼굴 감지, 텍스트 추출과 같은 이미지 인식 및 비디오 분석 작업을 수행합니다. 사전 학습된 모델을 활용하거나 산업 및 고객별 시나리오에 맞는 맞춤형 비전 모델을 손쉽게 생성할 수 있습니다. OCI Vision은 모든 일반적인 컴퓨터 비전 작업에 도움이 되는 완전 관리형, 멀티테넌트, 네이티브 클라우드 서비스입니다.
- Oracle Cloud Infrastructure Document Understanding은 텍스트, 키 값 및 테이블 추출과 같은 문서 분류 및 문서 분석 작업을 수행합니다. OCI Document Understanding 서비스는 모든 공통 문서 분석 작업을 지원하는 완전 관리형 멀티테넌트 네이티브 클라우드 서비스입니다.
- Oracle Cloud Infrastructure Generative AI는 채팅, 텍스트 생성, 요약, 텍스트 포함 생성 등 광범위한 사용 사례를 다루는 최첨단 커스터마이징 가능한 대규모 언어 모델(LLM) 세트를 제공하는 전담 관리 모델입니다. 플레이그라운드를 사용하여 바로 사용할 수 있는 사전 학습 모델을 시도하거나 전용 AI 클러스터의 고유 데이터를 기반으로 미세 조정된 사용자정의 모델을 생성 및 호스팅할 수 있습니다.
데이터 보강
데이터 보강은 머신 러닝 모델을 학습시키는 데 사용되는 데이터를 개선하여 더 정확하고 더 나은 예측 결과를 얻을 수 있습니다.
Oracle Cloud Infrastructure Data Labeling을 사용하면 AI/ML 모델 구축을 위해 데이터 세트를 생성 및 탐색하고, 데이터 레코드(텍스트 또는 이미지)를 확인하고, 레이블을 적용할 수 있습니다. 또한 이 서비스는 레이블 지정 프로세스를 지원하도록 설계된 대화식 사용자 인터페이스를 제공합니다. 레코드 레이블이 지정된 후 AI/ML 모델 개발에 사용할 수 있도록 데이터 세트를 라인 구분 JSON으로 익스포트할 수 있습니다.
검색
검색 기능을 보완 기능으로 사용하여 사전 인덱스화되어 짧은 대기 시간으로 제공되는 운영 분석 데이터가 필요한 최종 사용자에게 데이터를 노출할 수 있습니다.
Oracle Cloud Infrastructure Search with OpenSearch는 배포된 완전 관리형 유지보수가 필요 없는 전체 텍스트 검색 엔진입니다. OpenSearch를 사용하면 빠른 응답 시간으로 대용량 데이터를 신속하게 저장, 검색 및 분석할 수 있습니다. 이 서비스는 오픈 소스 OpenSearch API 및 OpenSearch 대시보드 데이터 시각화를 지원합니다.
스트리밍 분석
스트리밍 분석은 데이터 레이크하우스에 저장된 선별 및 마스터 데이터로 컨텍스트화된 스트리밍 데이터에 대한 실시간 분석을 제공하는 대시보드를 제공하여 관심 패턴을 감지하여 사용자, 애플리케이션 및 사물에 제공할 수 있습니다.

Oracle Cloud Infrastructure GoldenGate Stream Analytics는 정교한 상관 관계 패턴, 데이터 보강 및 머신 러닝을 사용하여 대규모 실시간 정보를 처리하고 분석합니다. 사용자는 라이브 차트, 지도, 시각화를 통해 실시간 데이터를 탐색할 수 있으며, 수동 코딩 없이도 그래픽으로 스트리밍 파이프라인을 구축할 수 있습니다. 이러한 파이프라인은 확장 가능한 완전 관리형 서비스로 실행되어 모던 기업의 중요한 실시간 사용 사례를 해결합니다.
역방향 ETL/쓰기백
역방향 ETL(쓰기라고도 함)을 통해 운영 시스템 및 장치에 데이터를 활성화하여 데이터에서 파생된 인텔리전스를 비즈니스 프로세스를 지원하는 데 사용되는 애플리케이션 및 장치에 직접 주입할 수 있습니다.

데이터는 거의 실시간으로 정보를 가져오는 많은 소비자를 지원하는 스트림 및 대기열을 통해 소비자에게 제공되며, 거의 실시간으로 분리됩니다. 애플리케이션 또는 데이터 통합을 통해 복원력과 확장성을 높이고, 사전 구축된 어댑터를 통해 데이터를 푸시하거나, 서버리스 기능을 통해 거의 모든 애플리케이션 또는 장치 엔드포인트를 호출하기 위한 스트리밍 분석 시스템입니다.
- Oracle Cloud Infrastructure Streaming 서비스는 실시간으로 소비하고 처리할 수 있는 대용량의 연속 데이터 스트림을 수집할 수 있는 확장 가능하며 내구성이 뛰어난 완전 관리형 스토리지 솔루션을 제공합니다. 스트리밍은 메시징, 대용량 애플리케이션 로그, 운영 원격 측정, 웹 클릭-스트림 데이터 또는 데이터가 연속적이고 순차적으로 생성되고 처리되는 기타 게시-구독 메시징 모델 사용 사례에 사용할 수 있습니다.
- Oracle Cloud Infrastructure Queue는 시스템을 분리하고 비동기 작업을 지원하는 완전 관리형 서버리스 서비스입니다. 대기열은 손실 또는 복제 없이 독립적으로 처리된 메시지가 필요한 대용량 트랜잭션 데이터를 처리합니다.
- Oracle Integration Cloud는 클라우드 및 온프레미스 애플리케이션을 통합하고, 비즈니스 프로세스를 자동화하고, 시각적 애플리케이션을 개발하고, SFTP 호환 파일 서버를 사용하여 파일을 저장 및 검색하고, 수백 개의 어댑터 및 레시피 포트폴리오를 사용하여 B2B 거래 파트너와 비즈니스 문서를 교환하여 Oracle 및 타사 애플리케이션과 연결할 수 있는 사전 구성된 전담 관리 환경입니다.
- Oracle Data Transforms는 지원되는 선택한 기술에 대해 ELT를 사용으로 설정하여 사용자가 선언적으로 데이터 플로우 및 워크플로우를 구축하고 일정을 잡을 수 있는 웹 사용자 인터페이스를 사용하여 데이터 파이프라인 구성 및 실행을 간소화합니다. Oracle Data Transforms은 Oracle Autonomous Data Warehouse(ADW) 내에서 완전 관리형 환경으로 제공되어 여러 데이터 소스의 데이터를 로드하고 ADW 인스턴스로 변환합니다.
- Oracle Cloud Infrastructure Functions는 확장성이 뛰어난 완전 관리형 멀티테넌트 온디맨드 FaaS(Functions-as-a-Service) 플랫폼입니다. 엔터프라이즈급 Oracle Cloud Infrastructure를 기반으로 구축되었으며 Fn Project 오픈 소스 엔진을 기반으로 합니다.
API
API 계층을 사용하면 Data Science 및 Oracle Machine Learning에서 파생된 인텔리전스를 애플리케이션, 비즈니스 프로세스 및 작업에 영향을 미치고 운영 및 기능을 개선할 수 있습니다. API 계층은 Data Science에서 배포한 모델을 Oracle Machine Learning REST 엔드포인트에 안전하게 사용하고 시스템을 제어하여 런타임 환경의 가용성을 보장할 수 있는 기능을 제공합니다. 함수를 활용하여 필요에 따라 추가 논리를 수행할 수도 있습니다.
- Oracle Cloud Infrastructure API 게이트웨이를 사용하면 네트워크 내에서 액세스할 수 있는 프라이빗 끝점이 있는 API를 게시할 수 있으며, 인터넷 트래픽을 허용하려면 퍼블릭 IP 주소로 API를 노출할 수 있습니다. 엔드포인트는 API 검증, 요청 및 응답 변환, CORS, 인증 및 권한 부여, 요청 제한을 지원합니다. API 관찰을 통해 사용량을 모니터링하고 SLA를 보장할 수 있습니다. 또한 사용 계획은 API에 액세스하는 API 소비자 및 API 클라이언트를 모니터링 및 관리하고 API를 사용하여 소비되는 데이터 사용을 추적하기 위해 서로 다른 고객에 대해 서로 다른 액세스 계층을 설정하는 데 사용될 수 있습니다. 사용 계획은 데이터 수익 창출을 지원하는 핵심 기능입니다.
- Oracle Cloud Infrastructure Functions는 확장성이 뛰어난 완전 관리형 멀티테넌트 온디맨드 FaaS(Funitenant) 플랫폼입니다. 엔터프라이즈급 Oracle Cloud Infrastructure를 기반으로 구축되었으며 Fn Project 오픈 소스 엔진을 기반으로 합니다.
- ORDS(Oracle REST Data Services)는 개발자가 SQL 및 데이터베이스 기술을 사용하여 Oracle Database용 REST API를 개발할 수 있도록 하는 Java 애플리케이션입니다. 모든 애플리케이션 개발자는 가장 널리 사용되는 API 기술인 REST를 사용하여 다른 외부 서비스에 액세스하는 것과 동일한 방식으로 클라이언트 드라이버를 설치 및 유지 관리하지 않고 모든 언어 환경에서 이러한 API를 사용할 수 있습니다. ORDS는 ADW에서 완전 관리형 기능으로 배포되며, 데이터 소비자에게 API를 사용하여 레이크하우스 정보를 노출하는 데 사용될 수 있습니다.
데이터 거버넌스
Oracle Cloud Infrastructure Data Catalog는 메타데이터 및 해당 속성과 같은 기술 자산이 상주하는 위치를 파악하고 해당 기술 메타데이터에 매핑된 비즈니스 용어집을 유지 관리할 수 있는 기능을 제공합니다. 데이터 카탈로그는 데이터 웨어하우스에서 외부 테이블을 쉽게 생성할 수 있도록 Oracle Autonomous Data Warehouse에 메타데이터를 제공할 수도 있습니다.
데이터 보안

데이터 보안은 레이크하우스 데이터를 최대한 탐색하고 사용하는 데 중요합니다. 심층 방어 및 RBAC 기능을 갖춘 제로 트러스트 보안 모델을 활용하고, 가장 엄격한 규제 준수를 보장하는 데이터 보안은 예방적, 탐정적, 시정적 보안 제어를 제공하여 데이터 유출 및 침해를 방지합니다.
- Oracle Data Safe는 데이터 보안에 집중된 완전히 통합된 Oracle Cloud 서비스입니다. Oracle Cloud 데이터베이스(예: Oracle Autonomous Data Warehouse)에서 민감하고 규제된 데이터를 보호하기 위한 완전하고 통합된 기능 집합을 제공합니다. 기능에는 보안 평가, 사용자 평가, 데이터 검색, 데이터 마스킹 및 작업 감사가 포함됩니다.
- Oracle Cloud Infrastructure Audit은 Oracle Cloud Infrastructure(OCI) 리소스 및 테넌시와 관련된 작업에 대한 가시성을 제공합니다. 감사 로그 이벤트를 보안 감사에 사용하면 OCI 리소스 사용량 및 변경사항을 추적하고 표준 및 규정 준수 여부를 확인할 수 있습니다.
- Oracle Cloud Infrastructure Logging은 감사 로그를 포함하여 테넌시의 모든 로그에 대해 확장성이 뛰어나고 완전 관리형 단일 인터페이스를 제공합니다. OCI Logging을 사용하여 모든 OCI 리소스의 로그에 액세스하면 이를 사용, 관리 및 검색할 수 있습니다.
- Oracle Cloud Infrastructure Vault는 리소스에 안전하게 액세스하기 위해 암호화 키와 암호를 저장 및 관리하는 암호화 관리 서비스입니다. 유휴 데이터 보호를 강화하기 위해 고객 관리 키를 Oracle Autonomous Data Warehouse 및 데이터 레이크 암호화에 사용할 수 있습니다. 보안 상태를 개선하고 인증서가 손상되지 않고 부적절하게 사용되는지 확인하기 위해 보안에서 서비스 및 사용자 인증서를 안전하게 저장할 수 있습니다.

물리적 구조

이 데이터 레이크하우스의 물리적 아키텍처는 다음을 지원합니다.

관계형 및 비관계형 데이터 소스의 마이크로 일괄 처리, 스트리밍, API 및 파일을 사용하여 안전하게 데이터 수집
데이터는 Oracle Cloud Infrastructure Data Integration과 Oracle Cloud Infrastructure Data Flow의 조합을 활용하여 처리됩니다.
데이터는 Oracle Autonomous Data Warehouse 및 Oracle Cloud Infrastructure Object Storage에 저장되며 품질 및 가치에 따라 구성됩니다.
Oracle Autonomous Data Warehouse는 소비자에게 웨어하우스 및 레이크 데이터 서비스를 안전하게 제공합니다.
Oracle Analytics Cloud는 시각화를 사용하여 비즈니스 사용자에게 데이터를 표시합니다.
Oracle Analytics Cloud는 Oracle Cloud Infrastructure Web Application Firewall(WAF)에 의해 보호되는 Oracle Cloud Infrastructure Load Balancing을 사용하여 인터넷을 통해 액세스를 제공하는 방식으로 노출됩니다.
Oracle Cloud Infrastructure Data Science는 머신 러닝(ML) 모델을 구축, 교육 및 배포하는 데 사용됩니다.
Oracle Cloud Infrastructure API 게이트웨이는 Data Science ML 모델 배포를 관리하는 데 활용됩니다.
Oracle Cloud Infrastructure Data Catalog는 Oracle Autonomous Data Warehouse 및 객체 스토리지에서 메타데이터를 수집합니다.
Oracle Data Safe는 데이터 위험을 평가하고, 보안 제어를 구현 및 모니터링하고, 사용자 보안을 평가하고, 사용자 활동을 모니터링하고, 데이터 보안 준수 요구 사항을 해결합니다.
Oracle Cloud Infrastructure Bastion은 관리자가 프라이빗 클라우드 리소스를 관리하는 데 사용됩니다.

다음 다이어그램은 이 참조 아키텍처를 보여 줍니다.

Lakehouse-architecture.png에 대한 설명은 다음과 같습니다.

그림 lakehouse-architecture.png에 대한 설명

레이크하우스 아키텍처-oracle.zip

물리적 구조 설계:

허브 및 워크로드 자체에 대해 각각 2개의 VCN을 활용합니다.
온프레미스 연결은 리던던시를 위해 Oracle Cloud Infrastructure FastConnect 및 사이트 간 VPN을 모두 활용합니다.
온프레미스 및 인터넷에서 수신되는 모든 트래픽은 먼저 허브 VCN으로 라우팅된 다음 워크로드 VCN으로 라우팅됩니다.
전송 중 및 미사용 상태의 모든 데이터 보안
서비스는 보안 상태를 높이기 위해 프라이빗 끝점으로 배치됩니다.
VCN은 보안 상태를 높이기 위해 여러 전용 서브넷으로 분리됩니다.
레이크 데이터는 메달리온 아키텍처를 활용하여 객체 스토리지의 여러 버킷으로 분리됩니다.

단순성을 위해 이 배치에 명시되지 않은 잠재적 설계 향상은 다음과 같습니다.

전체 CIS 호환 랜딩 존 활용
네트워크 방화벽을 활용하여 모든 트래픽을 검사하고 정책을 적용하여 전반적인 보안 상태를 개선합니다.

권장사항

다음 권장사항을 시작점으로 사용하여 스트리밍 데이터를 처리하고 비즈니스 분석 및 머신 러닝을 위한 광범위한 엔터프라이즈 데이터 리소스를 처리할 수 있습니다.

요구 사항은 여기에 설명된 아키텍처와 다를 수 있습니다.

Oracle Autonomous Data Warehouse
이 아키텍처는 공유 인프라에서 Oracle Autonomous Data Warehouse를 사용합니다.
- 자동 확장을 사용으로 설정하여 데이터베이스 작업 로드에 최대 3배의 처리 성능을 제공합니다.
- 퍼블릭 클라우드에서 실행되는 프라이빗 데이터베이스 클라우드 환경 내에서 셀프 서비스 데이터베이스 기능을 사용하려면 전용 인프라에서 Oracle Autonomous Data Warehouse를 사용하는 것이 좋습니다.
- Autonomous Data Warehouse의 하이브리드 분할 테이블 기능을 사용하여 데이터 파티션을 Oracle Cloud Infrastructure Object Storage로 이동하고 사용자 및 애플리케이션에 투명하게 서비스를 제공하는 것이 좋습니다. 자주 사용되지 않고 Autonomous Data Warehouse에 저장된 데이터와 동일한 성능이 필요하지 않은 데이터에 이 기능을 사용하는 것이 좋습니다.
- 외부 테이블 기능을 사용하여 Autonomous Data Warehouse에 복제할 필요 없이 실시간으로 Oracle Cloud Infrastructure Object Storage에 저장된 데이터를 소비하는 것이 좋습니다. 이 기능은 형식(parquet, avro, orc, json, csv 등)에 관계없이 Autonomous Data Warehouse 외부에서 선별된 데이터 세트를 Autonomous Data Warehouse에 상주하는 데이터와 투명하고 원활하게 결합합니다.
- 데이터베이스 인메모리 기능을 사용하여 실시간 분석 및 혼합 워크로드에 대한 성능을 크게 개선하는 것이 좋습니다. 대기 시간이 짧고 ADW 내부, 하이브리드 파티셔닝 또는 외부 테이블에 상주하는 레이크하우스 데이터를 메모리에 로드합니다.
- 오브젝트 스토리지 데이터를 소비할 때 자율운영 데이터 레이크 가속기를 사용하여 데이터 웨어하우스와 데이터 레이크 간의 데이터를 소비하고 결합하는 사용자에게 개선되고 빠른 경험을 제공하는 것을 고려하십시오.
- 관계형 데이터 또는 JSON 데이터와 같은 다른 데이터 유형과 함께 Autonomous Data Warehouse에 벡터 임베딩을 저장하여 모든 데이터에 대한 데이터 엔지니어링 및 분석을 단순화하고 모든 데이터를 사용하여 RAG 에이전트를 효율적으로 접지하는 것이 좋습니다.
- Select AI를 가속기로 사용하여 데이터 엔지니어링, 비즈니스 인텔리전스, 애플리케이션 개발 또는 SQL을 생성해야 하는 모든 작업에 사용할 수 있는 단순하고 복잡한 SQL을 생성하는 것이 좋습니다.
- 애플리케이션 계층을 더욱 단순화하려면 Select AI를 로우 코드 애플리케이션과 함께 사용하는 것이 좋습니다.
- 분석 뷰를 사용하여 ADW에서 직접 DW 스타 또는 눈송이 기본 스키마를 의미상으로 모델링하는 것이 좋습니다. 그래야 세분화된 데이터가 사전 집계 없이 자동으로 집계됩니다. 의미 모델은 SQL을 사용하여 Oracle Analytics Cloud를 포함한 모든 SQL 준수 클라이언트와 일관되게 SQL을 사용하여 팩트 및 KPI를 보장합니다. 클라이언트에 관계없이 일관성 있게 제공되며, ADW 또는 오브젝트 스토리지에 저장되어 있는지에 관계없이 의미 모델에 모든 데이터를 사용할 수 있으므로 이 기능은 사실과 차원이 DW와 레이크를 모두 통과할 수 있는 레이크하우스 아키텍처에 완벽한 의미 모델링 계층입니다.
- 회사 또는 규정 정책으로 인해 ADW 암호화 키를 완전히 제어해야 하는 경우 Vault 서비스를 활용하는 고객 관리 키를 사용하는 것이 좋습니다.
- ADW에서 Database Vault를 사용하여 권한이 부여되지 않은 사용자가 민감한 데이터에 액세스하지 못하도록 방지하고, 따라서 데이터 유출 및 데이터 침해를 방지할 수 있습니다.
- 동일한 리전 또는 다른 리전에서 대기 인스턴스에 복제된 데이터를 설정하고 유지하여 비즈니스 연속성 계획을 지원하려면 자율운영 Data Guard를 사용하는 것이 좋습니다.
- 동적 데이터 마스킹을 Data Redaction과 함께 사용하여 사용자의 역할에 따라 사용자에게 마스킹된 데이터를 제공하므로 데이터 복제 및 정적 마스킹 없이도 적절한 데이터 액세스를 보장하는 것이 좋습니다.
- ADW 복제본을 사용하여 다른 일시적 또는 일시적이지 않은 환경을 신속하게 생성해 보십시오. 대상 환경에 최신 데이터가 있어야 하는 경우 새로고침 가능 복제본을 사용합니다. Oracle Data Safe를 사용하여 보안 향상을 위해 복제본의 민감한 데이터를 정적으로 마스킹합니다.
- 데이터 공유를 다른 Autonomous Database 인스턴스 또는 모든 델타 공유 호환 기술과 함께 안전하고 손쉬운 데이터 소비 및 제공 방법으로 사용하는 것이 좋습니다.
- Autonomous Database 인스턴스 간 실시간 데이터 공유를 사용하여 실시간으로 데이터를 소비하고 제공하는 것이 좋습니다.
- 버전 지정된 데이터 공유를 사용하여 소비자와 데이터를 공유하는 것이 좋습니다. 따라서 제공자가 아닌 소비자가 데이터를 처리하므로 데이터 쿼리 비용이 발생하지 않습니다.
- ADW에서 읽기 전용 시간 제한 데이터 액세스를 위해 사전 인증된 요청 URL을 사용하여 소비자가 델타 공유를 지원하지 않는 사용 사례에 대해 중요하지 않은 데이터를 공유할 수 있습니다.
오브젝트 스토리지/데이터 레이크
이 아키텍처는 확장성이 뛰어나고 내구성이 뛰어난 클라우드 스토리지인 Oracle Cloud Infrastructure Object Storage를 레이크 스토리지로 사용합니다.
- 메달리온 아키텍처(브론즈, 실버, 골드) 또는 기타 파티셔닝 로직을 활용하여 다양한 버킷 세트에 걸쳐 레이크를 구성하여 품질과 보강을 기반으로 데이터를 분리하고, 데이터를 읽는 소비자에게 세분화된 보안을 적용하고, 다양한 계층에 다양한 라이프사이클 관리 정책을 적용할 수 있습니다.
- 다양한 객체 스토리지 계층 및 수명 주기 정책을 사용하여 레이크 데이터를 대규모로 저장하는 비용을 최적화하는 것이 좋습니다.
- 회사 또는 규정 정책으로 인해 오브젝트 스토리지 암호화 키를 완전히 제어해야 하는 경우 Vault 서비스를 활용하는 고객 관리 키를 사용하는 것이 좋습니다.
- 다른 영역으로 버킷 복제를 설정하여 비즈니스 연속성 계획을 지원하려면 오브젝트 스토리지 복제를 사용하는 것이 좋습니다. 오브젝트 스토리지는 내구성이 뛰어나고 동일한 리전 버킷 복제에 대한 복구를 위해 단일 리전에서 동일한 오브젝트의 여러 복사본을 유지 관리할 필요가 없기 때문입니다.
- 객체 이름 또는 패턴을 사용하여 객체에 Oracle Cloud Infrastructure Identity and Access Management(IAM) 정책을 사용하여 데이터 레이크 직접 액세스에 대한 데이터 보안을 높이는 것을 고려해 보십시오.
- Oracle Cloud Infrastructure Object Storage에서 프라이빗 끝점을 사용하여 데이터 플랫폼 VCN에서 데이터 레이크에 대한 보안 및 프라이빗 액세스를 보장하는 것이 좋습니다.
- 데이터 레이크 버킷 및 객체에 액세스할 수 있는 권한이 부여된 IP 주소를 관리하려면 네트워크 소스 및 IAM 정책을 참조해 보십시오.
- python 기반 유틸리티인 OCIFS를 사용하여 Oracle Cloud Infrastructure Object Storage 버킷을 파일 시스템으로 마운트하여 NFS에서만 작동하고 오브젝트 스토리지에 파일을 업로드해야 하는 애플리케이션을 지원할 수 있습니다.
Oracle Machine Learning 및 Oracle Cloud Infrastructure Data Science
이 아키텍처는 Oracle Machine Learning 및 Oracle Cloud Infrastructure Data Science를 활용하여 사람과 애플리케이션에 실시간으로 예측을 실행하고 제공합니다.
- ML 모델 개발 속도를 높이기 위해 OCI Data Science 또는 Oracle Machine Learning에서 AutoML을 사용하는 것이 좋습니다.
- 상호 운용성을 위해 ONNX(Open Neural Networks Exchange)를 사용하는 것이 좋습니다. ONNX 타사 모델을 OML에 배포하여 REST 엔드포인트 또는 OCI Data Science에 노출하고 HTTP 엔드포인트로 노출할 수 있습니다.
- 실시간 데이터 파이프라인에서 점수부여 및 예측을 실행하여 실시간 비즈니스 결과를 도출할 수 있는 보다 시기적절한 예측을 수행해야 하는 경우 OCI Data Science의 모델을 ONNX로 저장하고 OCI GoldenGate Stream Analytics로 임포트해 보십시오.
- Jupyter 노트북 세션 내에서 Python 종속성을 보다 효과적으로 관리 및 패키징하려면 OCI Data Science Conda 환경을 사용하는 것이 좋습니다. OCI Data Science 내에서 Anaconda가 선별한 패키지 저장소를 활용하여 선호하는 오픈 소스 툴을 사용하여 모델을 구축, 교육 및 배포할 수 있습니다.
- Oracle Cloud Infrastructure Data Science AI Quick Actions을 사용하여 OCI Data Science에서 기반 모델을 배포, 평가 및 미세 조정해 보세요. 모델 탐색기에서 사용할 수 있는 선별된 오픈 소스 LLM으로 작업하거나 자체 모델을 가져옵니다.
- Accelerated Data Science Python 패키지에서 제공되는 Data Science 로우 코드 AI 연산자를 사용하여 예측, 변형 감지를 빠르고 효율적으로 수행하거나 추천자 기능을 구축하는 것이 좋습니다.
- Data Science Jupyter 환경 내에서 OCI Data Flow를 사용하여 Spark 스케일 아웃 처리를 활용하여 대규모 탐색 데이터 분석, 데이터 프로파일링 및 데이터 준비를 수행하는 것이 좋습니다.
- 데이터 레이블링을 사용하여 이미지, 텍스트 또는 문서와 같은 데이터에 레이블을 지정하고 이를 사용하여 OCI Data Science 또는 OCI AI Services에 구축된 ML 모델을 학습시키고 예측 정확도를 개선하는 것이 좋습니다.
- 파트너 및 외부 엔티티가 실시간 예측을 소비하는 경우 API 게이트웨이를 배포하여 배포된 모델의 사용을 보호하고 관리하는 것이 좋습니다.
Oracle Cloud Infrastructure Data Integration
이 아키텍처는 Oracle Cloud Infrastructure Data Integration을 사용하여 선언 및 노코드 또는 로우 코드 ETL 및 데이터 파이프라인 개발을 지원합니다.
- Oracle Cloud Infrastructure Data Integration을 활용하여 Oracle Cloud Infrastructure Data Flow 애플리케이션 실행을 조정 및 스케줄링하고 선언적 ETL과 사용자정의 Spark 코드 논리를 혼합하고 일치시킬 수 있습니다. Oracle Cloud Infrastructure Data Integration 내에서 함수를 사용하여 데이터 파이프라인의 기능을 추가로 확장합니다.
- ETL에 비해 효율적이고 성능이 뛰어나며 안전한 ELT 접근 방식을 사용하려면 ADW를 대상으로 하는 변환에 SQL 푸시다운을 사용하는 것이 좋습니다.
- 데이터 소스 스키마 변경을 유지할 보다 탄력적이고 미래 지향적인 데이터 파이프라인을 확보하기 위해 OCI Data Integration이 데이터 소스 스키마 드리프트를 처리할 수 있도록 허용하는 것이 좋습니다.
Oracle Cloud Infrastructure Data Flow
이 아키텍처는 Oracle Cloud Infrastructure Data Flow를 사용하여 영구 클러스터를 보유 및 관리할 필요 없이 대규모 Spark 및 Spark 스트리밍 처리를 지원합니다.
- Oracle Cloud Infrastructure Data Catalog를 Oracle Cloud Infrastructure Data Flow용 Hive 메타스토어로 사용하여 Oracle Cloud Infrastructure Object Storage와 같은 비구조적 및 반구조적 데이터 자산의 객체에 대한 스키마 정의를 안전하게 저장하고 검색하는 것이 좋습니다.
- 레이크 데이터에 ACID 트랜잭션 및 스트리밍 및 일괄 처리 통합이 필요한 경우 OCI Data Flow에서 Delta Lake를 사용하는 것이 좋습니다.
Big Data Service
이 아키텍처는 Oracle Cloud Infrastructure 빅데이터 서비스를 활용하여 일괄 처리 및 스트리밍 데이터를 처리할 수 있는 Spark, Hadoop, Trino 또는 Flink와 같은 다양한 오픈 소스 기술의 고가용성 및 확장성 클러스터를 배포합니다. Big Data Service persists data in HDFS, persists and reads data from Oracle Cloud Infrastructure Object Storage, and can interchange data sets with other Oracle Cloud Infrastructure services such as Oracle Cloud Infrastructure Data Flow and Oracle Autonomous Data Warehouse.
- 자동 크기 조정을 사용하여 측정지표 또는 일정에 따라 작업자 노드를 수평 또는 수직으로 자동으로 확장하여 리소스 수요에 따라 비용을 지속적으로 최적화하는 것이 좋습니다.
- 오브젝트 스토리지용 OCI HDFS 커넥터를 사용하여 오브젝트 스토리지에서 데이터를 읽고 쓰는 것이 좋습니다. 따라서 데이터를 복제 및 복제할 필요 없이 다른 OCI 서비스와 공유되는 데이터를 생성/소비할 수 있는 메커니즘을 제공합니다.
- 레이크 데이터에 ACID 트랜잭션 및 스트리밍 및 일괄 처리 통합이 필요한 경우 OCI BDS에서 Delta Lake를 사용하는 것이 좋습니다.
- 다른 오픈 소스 소프트웨어를 사용해야 하는 경우 Oracle Cloud Infrastructure Registry, 컨테이너 인스턴스 또는 Oracle Cloud Infrastructure Kubernetes Engine을 사용하여 컨테이너화할 수 있는 오픈 소스 소프트웨어를 배포하는 것을 고려해 보십시오.
Oracle Cloud Infrastructure 스트리밍
이 아키텍처는 Oracle Cloud Infrastructure Streaming을 활용하여 소스의 스트리밍 데이터를 소비하고 소비자에게 스트리밍 데이터를 제공합니다.

Oracle Cloud Infrastructure Service Connector Hub를 활용하여 Oracle Cloud Infrastructure Streaming에서 데이터를 이동하고 Oracle Cloud Infrastructure Object Storage에 보관하여 추가 기록 데이터 분석을 지원하는 것을 고려해 보십시오.
Oracle Analytics Cloud
이 아키텍처는 최종 사용자에게 증강 분석을 제공하기 위해 Oracle Analytics Cloud(OAC)를 활용합니다.

OAC와 OCI AI 서비스(언어 및 비전 모델) 및 OML(모든 모델)의 사전 구축된 통합을 활용하여 최종 사용자가 사용하는 데이터 흐름 및 시각화에 인텔리전스를 내장하고 AI 및 ML 소비를 민주화하는 것을 고려해 보십시오.
Oracle Cloud Infrastructure AI 서비스
이 아키텍처는 배포된 사용 사례에 따라 Oracle Cloud Infrastructure AI 서비스를 활용할 수 있습니다.

Data Labeling을 사용하여 Vision, Document Understanding 및 Language와 같은 AI 서비스에 대한 보다 정확한 예측을 조정하고 얻는 데 사용될 학습 데이터에 레이블을 지정하는 것을 고려하십시오.
Oracle Cloud Infrastructure Generative AI 서비스
이 아키텍처는 배포된 사용 사례에 따라 Oracle Cloud Infrastructure Generative AI 서비스를 활용할 수 있습니다.
- 사전 학습된 LLM을 사용하는 온디맨드 플레이그라운드 및 API를 사용하여 텍스트 생성, 대화, 데이터 추출, 요약, 분류, 스타일 전송 또는 의미상 유사성을 해결하고, 생성형 AI를 파이프라인 및 프로세스에 신속하게 내장할 수 있습니다.
- 전용 AI 클러스터를 사용하여 기본 LLM을 효율적으로 조정하고 데이터에 맞게 미세 조정하여 완벽한 격리 및 데이터 보안을 보장하는 것이 좋습니다.
- 비용 효율성을 위해 조직 내 여러 팀 내에서 전용 AI 클러스터를 공유하는 것을 고려해 보세요. 단일 클러스터를 사용하여 여러 사용자정의 모델을 호스트할 수 있습니다. 이 모든 모델은 독립적인 엔드포인트로 제공될 수 있으며 전용 IAM 정책으로 보호될 수 있습니다.
API 게이트웨이
이 아키텍처는 API 게이트웨이를 활용하여 데이터 서비스 및 실시간 추론을 데이터 소비자에게 안전하게 노출합니다.
- Oracle Cloud Infrastructure Functions를 사용하여 결국 데이터 처리 및 액세스 및 해석 계층의 범위를 벗어난 특정 API 처리를 지원하는 데 필요한 런타임 논리를 추가하는 것이 좋습니다.
- 사용 계획을 사용하여 API에 대한 가입자 액세스를 관리하고, API 사용을 모니터링 및 관리하고, 다양한 소비자에 대해 서로 다른 액세스 계층을 설정하고, 외부 청구 시스템에 제공할 수 있는 사용량 측정항목을 추적하여 데이터 수익 창출을 지원하는 것이 좋습니다.
Oracle Cloud Infrastructure Data Catalog
플랫폼에 저장되고 흐르는 데이터에 대한 완전하고 총체적인 엔드 투 엔드 뷰를 확보하려면 데이터 지속성 계층을 지원하는 데이터 저장소뿐만 아니라 소스 데이터 저장소도 수집하는 것을 고려하십시오. 수집된 이 기술 메타데이터를 비즈니스 용어집에 매핑하고 사용자정의 속성으로 보완하면 비즈니스 개념을 매핑하고 보안 및 액세스 정의를 문서화 및 관리할 수 있습니다.
- Oracle Cloud Infrastructure Object Storage에 저장된 데이터를 가상화하는 Oracle Autonomous Data Warehouse 외부 테이블을 쉽게 생성하려면 Oracle Cloud Infrastructure Data Catalog에서 이전에 수집한 메타데이터를 활용합니다. 이를 통해 외부 테이블 생성이 간소화되고, 데이터 저장소 전체에서 메타데이터의 일관성이 유지되며, 인적 오류에 취약하지 않습니다.
- Oracle Cloud Infrastructure Data Integration 및 Oracle Cloud Infrastructure Data Flow에 계보 추적을 사용하여 데이터가 수집, 변환 및 저장되는 방식을 파악하는 것이 좋습니다. 적용 범위를 늘리려면 API 기반 수집을 사용하여 OpenLineage 오픈 프레임워크를 활용하여 모든 소스 및 시스템의 계보를 추적합니다.
Oracle Cloud Infrastructure 데이터 전송 서비스
공용 인터넷 연결을 사용하여 데이터를 업로드할 수 없는 경우 Oracle Cloud Infrastructure 데이터 전송 서비스를 사용합니다. 공용 인터넷을 통해 데이터를 업로드하는 데 1~2주 이상 소요되는 경우 데이터 전송을 사용하는 것이 좋습니다.
Data Safe 및 감사
감사 및 경고 기능을 활용하여 보안 태세를 늘리면 데이터 유출을 방지하고 데이터 유출이 발생할 경우 법의학 분석을 수행할 수 있습니다.
- Oracle Data Safe를 사용하여 데이터 웨어하우스의 작업을 감사하고 Oracle Cloud Infrastructure Audit을 사용하여 레이크 데이터에 대한 트래픽을 감사하는 것을 고려해 보십시오.
- ADW에서 중요한 데이터를 검색하는 데 Oracle Data Safe를 사용하고, 비운용 환경에 대해 ADW 복제본을 생성할 때 정적으로 마스킹하여 보안 위험을 방지하십시오.
- Oracle Data Safe SQL Firewall with ADW를 사용해 데이터 보안 태세를 높여 SQL 주입 공격 또는 손상된 계정과 같은 위험을 방지할 수 있습니다.
배포 및 자동화
이 물리적 아키텍처는 코드형 인프라(IaC) 자동화를 사용하여 배포되어 데이터 레이크하우스를 배포할 리소스를 생성합니다.

Oracle Cloud Infrastructure Resource Manager를 사용하면 배포 가능한 클라우드 리소스의 Terraform 스택을 생성하고, 인프라 구성을 공유 및 관리하고, 여러 팀 및 플랫폼 간에 파일을 명시할 수 있습니다. Oracle Cloud Infrastructure Resource Manager를 사용하여 비운용 환경 생성을 위한 배치 스택을 생성하고, 추가 서비스가 필요한 새 팀을 온보딩하고, 조직의 보안 및 거버넌스 정의 정책을 준수하는 일관된 IAM 정책 및 보안 가드레일을 표준화 및 내장하는 것이 좋습니다.
비즈니스 연속성
이 아키텍처는 단일 리전에서의 배포를 설명하고 재해 복구를 지원하고 비즈니스 연속성 계획을 활성화하기 위해 두 리전을 확장할 수 있습니다.
Oracle Cloud Infrastructure Full Stack Disaster Recovery Service는 장애 복구 조정 및 관리 서비스로, 인프라, 미들웨어, 데이터베이스, 애플리케이션 등 애플리케이션 스택의 모든 층에 대해 포괄적인 장애 복구 기능을 제공합니다.
전체 스택 재해 복구를 사용하여 데이터 레이크하우스에 대한 전환 및 복구 계획을 설정하여 재해 복구 작업을 자동화하고 대기 영역으로 계획되거나 계획되지 않은 전환이 발생할 경우 수동 단계를 줄이는 것이 좋습니다.
비용 최적화
Oracle Cloud Infrastructure 비용 및 사용량 추적과 비용 최적화 기능을 사용하여 재무 운영을 지속적으로 지원해 보십시오.
- 비용 및 사용량 보고서를 사용하여 클라우드 리소스 사용량 및 해당 비용을 확인하고 추적하는 것이 좋습니다. 타사 재무 운영 솔루션과 통합하기 위해 제작된 산업 표준 FOCUS CSV 비용 보고서를 활용합니다.
- 비용 분석을 사용하여 여러 팀, 프로젝트 및 환경에서 발생하는 비용을 추적하는 것이 좋습니다.
- 비용 추적 태그를 사용하여 특정 팀, 프로젝트 또는 환경에 대한 클라우드 리소스에 태그를 지정하는 것이 좋습니다.
- 예산을 사용하여 지출에 대한 부분 제한을 설정하고 프로젝트, 팀 또는 전체 지출에 대한 예산을 초과할 수 있는 시기를 알 수 있도록 경보를 설정하는 것이 좋습니다.
상호 운용성
이 아키텍처는 광범위한 산업 표준을 활용하여 모든 조직의 광범위한 IT 이기종 환경과 상호 운용되므로 모든 애플리케이션, 시스템 또는 개인에게 모든 데이터를 소비하고 제공할 수 있습니다.
아키텍처는 Parquet 또는 Avro와 같은 개방형 파일 형식을 지원하므로 각 사용 사례에 보다 적합한 형식으로 데이터를 저장할 수 있습니다. 또한 Oracle 기술 및 기타 타사 기술 간의 상호 운용성을 보장하기 위해 Iceberg 및 Delta Lake와 같은 개방형 테이블 형식을 지원합니다.
- Oracle Autonomous Data Warehouse Iceberg 지원을 사용하여 데이터 레이크에 보관된 Iceberg 테이블을 읽고 소비자에게 서비스를 제공할 수 있습니다. Iceberg 테이블은 External Table로 제공되거나 ADW로 로드될 수 있습니다.
- 데이터 플로우 델타 레이크 범용 형식 지원을 사용하여 데이터 레이크의 데이터를 읽고, 처리하고, 보존하는 것이 좋습니다. Iceberg 및 Hudi와 같은 다른 열린 테이블 형식에 대한 메타데이터를 생성하는 동안 Delta Lake를 사용하면 서로 다른 처리 엔진이 동일한 데이터를 읽을 수 있습니다.
조직적 접근 방식
이 아키텍처는 유연하며 중앙 집중식 접근 방식에서 완전히 분산 된 접근 방식에 이르기까지 다양한 유형의 조직 접근 방식을 지원할 수 있으므로 데이터에서 가치를 추출하려는 모든 조직에서 채택하고 사용할 수 있습니다.

이 아키텍처는 OCI IAM(Identity and Access Management)을 통해 인증 및 권한 부여를 위해 광범위하게 세분화된 제어를 활용합니다.

조직이 분산된 조직 접근 방식을 채택하려는 경우 IAM을 사용하여 레이크하우스를 사용하여 다양한 LOB 및 팀을 분리하여 데이터 제품 생성의 소유권을 분산시키고 데이터 도메인 분리를 적용하는 것이 좋습니다.

OCI는 Terraform 및 Ansible과 같은 프레임워크를 활용하여 성공적인 아키텍처 배포를 위한 키 기능으로 자동화 및 코드형 인프라를 제공합니다.

조직에서 분산 접근 방식을 채택하고 해당 접근 방식으로 데이터 도메인을 구현하는 경우 사전 구축된 Terraform 템플릿과 OCI Resource Manager를 활용하여 데이터 플랫폼에 빠르고 일관되게 데이터 도메인을 탑재할 수 있습니다.

고려사항

분석 및 머신 러닝을 위해 애플리케이션 데이터를 수집, 처리 및 선별할 때는 다음 구현 옵션을 고려하십시오.

지침	권장사항	기타 옵션	근거
데이터 변환기	Oracle Cloud Infrastructure Data Integration Oracle Cloud Infrastructure GoldenGate	Oracle Data Integrator Oracle Autonomous Database 데이터 변환	Oracle Cloud Infrastructure Data Integration은 확장 가능하고 비용 효율적인 클라우드 네이티브, 서버리스, 완전 관리형 ETL 플랫폼을 제공합니다. Oracle Cloud Infrastructure GoldenGate는 확장 가능하고 비용 효율적이며 하이브리드 환경에 배포할 수 있는 클라우드 네이티브, 서버리스, 완전 관리형, 비침입형 데이터 복제 플랫폼을 제공합니다.
데이터 지속성	Oracle Autonomous Data Warehouse Oracle Cloud Infrastructure Object Storage	Oracle Exadata Database Service	Oracle Autonomous Data Warehouse는 탄력적으로 확장되고 빠른 질의 성능을 제공하며 데이터베이스 관리가 필요하지 않은, 사용이 간편하고 완전히 자율적인 데이터베이스입니다. 또한 객체 스토리지 외부 또는 하이브리드 분할 테이블의 데이터에 직접 액세스할 수 있습니다. Oracle Cloud Infrastructure Object Storage는 원시 형식으로 무제한 데이터를 저장합니다.
데이터 처리	Oracle Cloud Infrastructure Data Integration Oracle Cloud Infrastructure Data Flow Oracle Cloud Infrastructure 빅데이터 서비스	타사 툴	Oracle Cloud Infrastructure Data Integration은 확장 가능하고 비용 효율적인 클라우드 네이티브, 서버리스, 완전 관리형 ETL 플랫폼을 제공합니다. Oracle Cloud Infrastructure Data Flow는 서버리스 Spark 환경을 제공하여 사용량 기준 과금, 매우 탄력적인 모델로 데이터를 대규모로 처리합니다. Oracle Cloud Infrastructure 빅데이터 서비스는 엔드투엔드 보안, 고성능, 간편한 관리 및 업그레이드 기능을 갖춘 엔터프라이즈급 Hadoop-as-a-service를 제공합니다.
액세스 및 해석	Oracle Analytics Cloud Oracle Cloud Infrastructure Data Science Oracle Machine Learning Oracle Cloud Infrastructure AI 서비스	타사 툴	Oracle Analytics Cloud는 전담 관리되며 Oracle Autonomous Data Warehouse에서 선별된 데이터와 긴밀하게 통합됩니다. 데이터 과학은 데이터 과학 팀이 Oracle Cloud Infrastructure에서 머신 러닝(ML) 모델을 구축, 교육 및 관리할 수 있는 완전 관리형 셀프 서비스 플랫폼입니다. 데이터 과학 서비스는 AutoML 및 모델 배치 기능과 같은 인프라 및 데이터 과학 툴을 제공합니다. Oracle Machine Learning은 Oracle Autonomous Data Warehouse에서 사용할 수 있는 데이터 과학을 위한 완전 관리형 셀프 서비스 플랫폼으로, 웨어하우스 외부로 데이터를 이동할 필요 없이 웨어하우스의 처리 능력을 활용하여 대규모 ML 모델을 구축, 교육, 테스트 및 배포합니다. Oracle Cloud Infrastructure AI 서비스는 잠재적 이상 징후 추론 또는 정서 감지와 같은 작업을 수행하도록 특별히 구축 및 훈련된 사전 구축 모델을 제공하는 서비스 세트입니다.

배치

이 참조 아키텍처의 Terraform 코드는 GitHub에서 확인할 수 있습니다. 클릭 한 번으로 코드를 Oracle Cloud Infrastructure Resource Manager로 풀링하고 스택을 생성한 후 배포할 수 있습니다. 또는 Terraform CLI를 사용하여 GitHub에서 컴퓨터로 코드를 다운로드하고, 코드를 사용자 정의하고, 아키텍처를 배치할 수 있습니다.

Oracle Cloud Infrastructure Resource Manager를 사용하여 배포:
1. 을 누릅니다.
  아직 사인인하지 않은 경우 테넌시 및 사용자 인증서를 입력합니다.
2. 조항 및 조건을 검토하고 이에 동의합니다.
3. 스택을 배치할 영역을 선택합니다.
4. 화면의 프롬프트 및 지침에 따라 스택을 만듭니다.
5. 스택을 생성한 후 Terraform 작업을 누르고 계획을 선택합니다.
6. 작업이 완료될 때까지 기다린 후 계획을 검토합니다.
  변경하려면 [스택 세부정보] 페이지로 돌아가서 스택 편집을 누르고 필요에 따라 변경합니다. 그런 다음 계획 작업을 다시 실행합니다.
7. 추가로 변경할 필요가 없으면 [스택 세부 정보] 페이지로 돌아가서 Terraform 작업을 누르고 적용을 선택합니다.
Terraform CLI를 사용하여 배포:
1. GitHub로 이동합니다.
2. 저장소를 복제하거나 로컬 컴퓨터에 다운로드합니다.
3. README 문서의 지침을 따릅니다.

추가 탐색

이 아키텍처의 기능과 관련 아키텍처에 대해 자세히 알아봅니다.

확인

Author: José Cruz

Contributors: Larry Fumagalli, Ionel Panaitescu, Mike Blackmore, Robert Lies

로그 변경

이 로그는 중요한 변경 사항을 나열합니다.

2024년 10월 28일

다음과 같은 확장된 제품 및 기능 오퍼링을 포함하도록 아키텍처의 기능 범위가 업데이트되었습니다.
- 데이터 소스 및 데이터 소비자로 데이터 공유를 추가했습니다.
- API 기반 수집이 추가되었습니다.
- AI(Language, Speech, Vision, Document Understanding) 및 생성형 AI 서비스를 위한 확장된 오퍼링이 추가되었습니다.
- 애플리케이션 및 디바이스에 직접 데이터 파생 인텔리전스를 제공하기 위해 역방향 ETL/쓰기 기능이 추가되었습니다.
Recommendations 및 Considerations 섹션에 해당 업데이트가 적용되었습니다.
많은 제품 관련 업데이트가 텍스트 전체에 걸쳐 이루어졌습니다.

2023년 6월 21일

Oracle Cloud Infrastructure Resource Manager를 사용하여 아키텍처 배포 지침을 추가했습니다.
GitHub 링크를 업데이트했습니다.
아키텍처 다이어그램이 업데이트되었습니다.