데이터 플랫폼 - 데이터 레이크 하우스
IoT(사물 인터넷) 및 소셜 미디어 소스에서 이벤트 데이터와 스트리밍 데이터를 효과적으로 수집 및 분석할 수 있지만 투자를 활용하고 원하는 통찰력을 얻기 위해 광범위한 엔터프라이즈 데이터 리소스와 어떻게 상호 연관시킬 수 있습니까?
데이터 레이크와 데이터 웨어하우스의 기능을 결합한 클라우드 데이터 레이크하우스를 활용하여 비즈니스 분석 및 머신 러닝을 위한 광범위한 엔터프라이즈 및 스트리밍 데이터를 처리합니다.
이 참조 아키텍처는 전략적 의도가 측정 가능한 전략적 결과를 창출하는 데 기여하는 전반적인 비즈니스 컨텍스트 내에서 기술 솔루션을 포지셔닝합니다. 이러한 결과는 새로운 전략적 의도를 생성하여 데이터 기반의 지속적인 비즈니스 개선을 효과적으로 제공합니다.
데이터 레이크를 사용하면 기업은 모든 데이터를 비용 효율적이고 탄력적인 환경에 저장하는 동시에 새로운 비즈니스 통찰력을 발견하는 데 필요한 처리, 지속성 및 분석 서비스를 제공할 수 있습니다. 데이터 레이크는 정형 및 비정형 데이터를 저장 및 선별하고 여러 소스의 매우 다양한 대용량 데이터를 구성하는 방법을 제공합니다.
데이터 웨어하우스를 사용하면 데이터를 웨어하우스로 커밋하기 전에 데이터 변형 및 정리를 수행할 수 있습니다. 데이터 레이크를 사용하면 데이터를 빠르게 수집하고, 사용자가 데이터에 액세스할 때 즉시 준비할 수 있습니다. 데이터 레이크는 운영 보고 및 비즈니스 모니터링을 지원하므로 데이터에 즉시 액세스하고 유연한 분석을 통해 비즈니스가 진행되는 동안 어떤 일이 일어나고 있는지 파악할 수 있습니다.
기능적 구조
데이터 레이크와 데이터 웨어하우스의 기능을 결합하여 광범위한 엔터프라이즈 데이터 리소스에서 스트리밍 및 기타 유형의 데이터를 처리하는 최신 데이터 레이크하우스 플랫폼을 제공함으로써 비즈니스 분석, 머신 러닝, 데이터 서비스 및 데이터 제품에 데이터를 활용할 수 있습니다.
데이터 레이크하우스 아키텍처는 데이터 레이크와 데이터 웨어하우스의 기능을 결합하여 운영 효율성을 높이고 다음과 같은 향상된 기능을 제공합니다.
- 데이터 레이크 및 데이터 웨어하우스 전반에 걸쳐 데이터를 복제할 필요 없이 원활한 데이터 및 정보 사용
- 향상된 다중 모델 및 다중 언어 아키텍처에서 다양한 데이터 유형 지원
- 실시간, 스트리밍, 배치, API(애플리케이션 프로그래밍 인터페이스) 및 대량 수집 메커니즘을 사용하여 모든 소비자로부터 원활한 데이터 수집
- AI(인공 지능), 생성형 AI 및 ML(머신 러닝) 서비스를 사용하여 데이터에서 지속적인 인텔리전스 추출
- API, 사용자 인터페이스, 스트리밍 및 통합 메커니즘을 사용하여 모든 데이터 소비자에게 인텔리전스를 주입하고 제공하는 기능
- 제로 트러스트 보안 모델을 활용하는 거버넌스 및 세분화된 데이터 보안
- 스토리지 및 컴퓨팅 리소스를 완전히 분리하고 특정 시점에 필요한 리소스만 소비하는 기능
- 오픈 소스 엔진을 포함한 여러 컴퓨팅 엔진을 활용하여 다양한 사용 사례에 대해 동일한 데이터를 처리함으로써 최대의 데이터 용도 변경, 유동성 및 사용을 달성할 수 있는 기능
- 데이터 레이크에서 서로 다른 열린 파일 및 테이블 형식을 사용하여 데이터를 저장하는 기능
- Oracle에서 관리하고 운영 오버헤드를 줄이는 Oracle Cloud Infrastructure(OCI) 네이티브 서비스를 활용할 수 있는 기능
- 실제 수요에 맞게 클라우드 리소스 인프라를 조정하는 자동 스케일링을 통해 클라우드 경제성 향상
- 서비스 사용이 사용 사례 중심이 되도록 모듈화
- 개방형 표준을 준수하는 모든 시스템 또는 클라우드와의 상호 운용성
- 스트리밍, 분석, 데이터 과학, 머신 러닝 등 다양한 사용 사례 지원
- 중앙 집중식 레이크하우스에서 분산형 데이터 메시에 이르기까지 다양한 아키텍처 접근 방식 지원
다음 다이어그램은 기능 구조를 보여줍니다.
레이크하우스 기능-오라클-1.zip#GUID-43E61AD0-9E20-4DC0-BFB2-EFF8365A6694
이 아키텍처는 다음과 같은 논리적 부문에 중점을 둡니다.
- 연결, 수집, 변환
데이터 소스에 연결하고, 데이터를 수집 및 세분화하여 아키텍처의 각 데이터 계층에서 사용할 수 있도록 합니다.
- 유지, 선별, 생성
데이터의 액세스 및 탐색을 용이하게 하여 현재 비즈니스 뷰를 표시합니다. 관계형 기술의 경우 데이터는 단순한 관계형, 종단, 치수 또는 OLAP 형식으로 논리적으로 또는 물리적으로 구조화될 수 있습니다. 비관계형 데이터의 경우 이 계층에는 분석 프로세스의 출력 또는 특정 분석 작업에 최적화된 데이터 등 하나 이상의 데이터 풀이 포함됩니다.
- 분석, 학습, 예측
소비자에 대한 데이터의 논리적 비즈니스 뷰를 추상화합니다. 이 추상화는 개발에 대한 민첩한 접근 방식, 대상 아키텍처로의 마이그레이션, 여러 통합 소스에서 단일 보고 계층의 프로비저닝을 용이하게 합니다.
이 구조에는 다음과 같은 기능 구성 요소가 있습니다.
- 일괄 수집
일괄 수집은 실시간으로 수집할 수 없거나 실시간 수집에 적응하기에는 너무 많은 비용이 드는 데이터에 유용합니다. 또한 데이터를 신뢰할 수 있고 신뢰할 수 있는 정보로 변환하여 정기적인 소비를 위해 선별하고 유지할 수 있습니다. 다음 서비스를 함께 사용하거나 독립적으로 사용하여 매우 유연하고 효과적인 데이터 통합 및 변환 워크플로우를 달성할 수 있습니다.
-
Oracle Cloud Infrastructure Data Integration은 데이터 파이프라인의 설계 및 실행을 위한 완전 관리형 서버리스 서비스입니다. 자율운영 AI 레이크하우스(Autonomous AI Lakehouse) 및 OCI Object Storage와 같은 OCI 타겟으로 데이터를 원활하게 추출, 변환, 로드할 수 있습니다. 사용자는 실행 환경을 자동 확장하는 코드 없는 직관적인 인터페이스를 통해 통합 플로우를 구축할 수 있습니다. Spark 기반 프로세싱을 통한 ETL과 성능 및 효율성을 위한 SQL 푸시다운을 사용하는 ELT를 모두 지원합니다. 또한 이 서비스는 데이터 준비를 위한 도구를 제공하며 규칙 기반 처리를 통해 스키마 드리프트로부터 보호합니다.
-
Oracle Data Integrator는 대용량 및 고성능 일괄 처리 로드에서 이벤트 기반의 까다로운 피드 통합 프로세스, SOA 지원 데이터 서비스에 이르기까지 포괄적인 데이터 통합을 제공합니다. 선언적 설계 접근 방식은 더 빠르고 간단한 개발 및 유지 관리를 보장하며 데이터 변환 및 검증 프로세스에 가능한 최고 수준의 성능을 보장하는 고유한 ELT(로드 변환) 추출 접근 방식을 제공합니다. Oracle 데이터 변환은 웹 인터페이스를 사용하여 ELT의 구성 및 실행을 단순화하고 사용자가 선언적 설계 방식을 사용하여 데이터 및 워크플로를 구축하고 일정을 잡을 수 있도록 지원합니다.
-
Oracle Data Transforms는 선택된 지원되는 기술에 대해 ELT를 지원하며, 사용자가 선언적으로 데이터 플로우 및 워크플로우를 작성하고 일정을 잡을 수 있는 웹 사용자 인터페이스를 사용하여 데이터 파이프라인의 구성 및 실행을 간소화합니다. Oracle Data Transforms는 Oracle Autonomous AI Lakehouse 내에서 완전 관리형 환경으로 제공되어 여러 데이터 소스의 데이터를 Oracle Autonomous AI Lakehouse 인스턴스로 로드 및 변환할 수 있습니다.
사용 사례에 따라 이러한 구성 요소를 독립적으로 또는 함께 사용하여 매우 유연하고 성능이 뛰어난 데이터 통합 및 변환을 달성할 수 있습니다.
-
- API 기반 수집
API 기반 수집을 통해 애플리케이션과 시스템은 API 또는 Webhook을 사용하여 이벤트 데이터를 푸시할 수 있습니다.
-
Oracle Integration은 클라우드 및 온프레미스 애플리케이션을 통합하고, 비즈니스 프로세스를 자동화하고, 시각적 애플리케이션을 개발할 수 있는 완전 관리형 사전 구성 환경입니다. SFTP 호환 파일 서버를 사용하여 파일을 저장 및 검색하고, 수백 개의 어댑터 및 레시피 포트폴리오를 사용하여 Oracle 및 타사 애플리케이션과 연결하여 B2B 거래 파트너와 문서를 교환할 수 있습니다.
-
Oracle Cloud Infrastructure API Gateway를 사용하면 네트워크 내에서 액세스할 수 있고 필요한 경우 퍼블릭 인터넷에 노출할 수 있는 프라이빗 끝점이 있는 API를 게시할 수 있습니다. 엔드포인트는 API 검증, 요청 및 응답 변환, CORS, 인증 및 권한 부여, 요청 제한을 지원합니다.
OCI API Gateway를 사용하면 API가 사용량을 모니터링하고 SLA를 보장할 수 있습니다. 사용 계획을 사용하여 API 소비자 및 클라이언트를 모니터링 및 관리하고 여러 고객에 대해 서로 다른 API 액세스 계층을 설정할 수도 있습니다. 사용 계획은 데이터 수익 창출을 지원하는 핵심 기능입니다.
사용 계획은 API 소비자 및 클라이언트를 관리하고 데이터 사용량을 추적하기 위한 계층화된 사용 계획을 생성하여 데이터 수익 창출을 지원합니다.
-
Oracle Cloud Infrastructure Functions는 완전 관리형 멀티테넌트, 확장성이 뛰어난 온디맨드 Functions-as-a-Service(FaaS) 플랫폼입니다. 그것은 Fn 프로젝트 오픈 소스 엔진에 의해 구동 됩니다. OCI 함수를 사용하면 코드를 배포하고 직접 호출하거나 이벤트에 대한 응답으로 트리거할 수 있습니다. OCI Functions는 Oracle Cloud Infrastructure Registry에서 호스팅되는 Docker 컨테이너를 사용합니다.
-
ORDS(Oracle REST Data Services)는 SQL 및 데이터베이스 기술을 보유한 개발자가 Oracle Database용 REST API를 개발할 수 있는 Java 애플리케이션입니다. 모든 애플리케이션 개발자는 가장 널리 사용되는 API 기술인 REST를 사용하여 다른 외부 서비스에 액세스하는 것과 동일한 방식으로 클라이언트 드라이버를 설치 및 유지 관리하지 않고도 모든 언어 환경에서 이러한 API를 사용할 수 있습니다.
ORDS는 Oracle Autonomous AI Lakehouse에서 완전 관리형 기능으로 배포되며, 데이터 소비자에게 API를 사용하여 레이크하우스 정보를 노출하는 데 사용할 수 있습니다.
-
-
실시간 수집
Oracle Cloud Infrastructure GoldenGate는 온프레미스 또는 모든 클라우드에 있는 소스에서 데이터를 수집할 수 있는 완전 관리형 서비스입니다. GoldenGate CDC 기술을 활용하여 Oracle Autonomous AI Lakehouse, Oracle Cloud Infrastructure Object Storage 또는 Oracle Cloud Infrastructure Streaming에 대한 비침입적이고 효율적인 데이터 캡처 및 전달을 실시간으로 대규모로 활용함으로써 소비자가 최대한 빨리 관련 정보를 이용할 수 있도록 합니다.
- 대량 이전
대량 전송을 사용하면 다양한 방법을 사용하여 대량의 일괄 처리 데이터를 이동할 수 있습니다. 대규모 데이터 레이크하우스의 경우 Oracle Cloud Infrastructure FastConnect 및 데이터 전송 서비스를 권장합니다.
-
Oracle Cloud Infrastructure FastConnect는 데이터 센터와 OCI 간의 전용 개인 연결을 생성합니다. FastConnect는 네트워크 기반 연결에 비해 더 높은 대역폭 옵션과 더 안정적이고 일관적인 네트워킹 환경을 제공합니다.
- Oracle Cloud Infrastructure(OCI) 명령줄 인터페이스(CLI)를 사용하면 Oracle Cloud Infrastructure FastConnect 전용 회로를 활용하여 온프레미스에서 OCI로 데이터 전송을 실행하고 자동화할 수 있습니다. OCI SDK를 사용하면 온프레미스 또는 다른 클라우드에서 Oracle Cloud Infrastructure Object Storage로 데이터 및 파일을 복사하거나 동기화하는 코드를 작성할 수 있으며, Python, Java 또는 Go와 같은 다양한 프로그래밍 언어를 사용하여 몇 가지 이름을 지정할 수 있습니다. REST API를 사용하면 오브젝트 스토리지 서비스 API를 사용하여 오브젝트 스토리지로 데이터를 이동하는 등 OCI 서비스와 인터페이스하고 제어할 수 있습니다.
- Oracle Cloud Infrastructure 데이터 전송은 페타바이트 규모의 데이터세트를 데이터 센터에서 Oracle Cloud Infrastructure Object Storage 또는 아카이브 스토리지로 안전하게 이동할 수 있는 오프라인 데이터 마이그레이션 서비스입니다. 공용 인터넷을 사용하여 데이터를 클라우드로 전송하는 것은 높은 네트워크 비용, 신뢰할 수 없는 네트워크 연결, 긴 전송 시간, 보안 문제 등으로 인해 항상 가능하지는 않습니다. 데이터 전송 서비스는 이러한 문제를 해결하며 데이터를 클라우드로 마이그레이션하는 데 소요되는 시간을 크게 단축할 수 있습니다. 디스크 또는 어플라이언스를 통해 데이터 전송을 사용할 수 있습니다. 둘 중 하나를 선택하는 것은 주로 데이터 양에 따라 달라지며, Data Transfer Appliance는 각 어플라이언스에 대해 더 큰 데이터 세트를 지원합니다.
-
- 스트리밍 수집
스트리밍 수집은 광범위한 데이터 생산자 세트로부터 대규모 데이터 세트를 실시간으로 수집할 수 있는 OCI 네이티브 서비스를 사용하여 지원됩니다. 스트리밍 수집은 데이터 레이크하우스의 핵심인 객체 스토리지의 데이터를 지속하고 동기화합니다. 오브젝트 스토리지에 데이터를 동기화하면 선별 및 추가 변환이 가능한 과거 데이터를 보유하여 귀중한 인사이트를 추출할 수 있습니다.
-
Oracle Cloud Infrastructure Streaming은 거의 실시간으로 소비하고 처리할 수있는 대용량의 연속 데이터 스트림을 입수하기 위한 확장 가능하며 내구성 있는 전담 관리 스토리지 솔루션을 제공합니다. 스트리밍은 메시징, 애플리케이션 로그, 운영 원격 측정, 웹 클릭-스트림 데이터 등의 대용량 데이터 같은 대용량 데이터의 입수 또는 발행-구독 메시징 모델에서 데이터가 연속적으로 생성되고 처리되는 기타 사용 사례에 사용됩니다. 데이터는 Oracle Cloud Infrastructure Object Storage와 동기화되며 선별 및 추가 변환을 통해 중요한 통찰력을 추출할 수 있습니다.
-
Oracle Cloud Infrastructure Queue는 시스템을 분리하고 비동기 작업을 지원하는 완전 관리형 서버리스 서비스입니다. 대기열은 손실이나 중복 없이 독립적으로 처리된 메시지가 필요한 대용량 트랜잭션 데이터를 처리합니다.
-
Oracle Cloud Infrastructure Service Connector Hub는 Oracle Cloud Infrastructure에서 서비스 간 데이터 이동을 설명, 실행 및 모니터링하기 위한 단일 창을 제공하는 클라우드 메시지 버스 플랫폼입니다. 이 특정 참조 아키텍처의 경우 원시 및 준비된 데이터를 데이터 레이크하우스 지속성 계층으로 유지하도록 Oracle Cloud Infrastructure Streaming 또는 OCI Queue에서 Oracle Cloud Infrastructure Object Storage로 데이터를 이동하는 데 사용됩니다.
-
-
스트리밍 처리
스트리밍 처리는 스트리밍 데이터를 강화하고, 이벤트 패턴을 감지하고, 데이터 레이크하우스에 지속되는 다양한 스트림 세트를 생성합니다.
-
Oracle Cloud Infrastructure GoldenGate Stream Analytics는 정교한 상관 관계 패턴, 데이터 보강 및 머신 러닝을 사용하여 대규모 실시간 정보를 처리하고 분석하는 완전 관리형의 확장 가능한 서비스입니다. 사용자는 라이브 차트, 맵 및 시각화를 사용하여 실시간 데이터를 탐색할 수 있습니다. 사용자는 그래픽 도구를 사용하여 직접 코딩하지 않고도 스트리밍 파이프라인을 구축할 수 있습니다.
-
Oracle Cloud Infrastructure Data Flow는 인프라 배포 또는 관리 없이도 Apache Spark 및 Spark Streaming 애플리케이션을 실행할 수 있는 완전 관리형 빅데이터 서비스입니다. 이를 통해 빅데이터 및 AI 애플리케이션을 더 빠르게 제공할 수 있습니다. 운영 관리 없이도 애플리케이션에 집중할 수 있기 때문입니다. 데이터 플로우 애플리케이션은 Spark 애플리케이션과 해당 종속성, 기본 매개변수 및 기본 런타임 리소스 사양으로 구성된 재사용 가능한 템플리트입니다.
-
- 오픈 소스 생태계
오픈 소스 에코시스템을 사용할 수 있습니다.
- Hadoop, Spark, Flink 또는 Trino와 같이 널리 사용되는 여러 오픈 소스 엔진을 활용하는 배치 및 스트림 처리
- 생산자 및 소비자로서 Oracle Cloud Infrastructure Streaming 사용
- 데이터를 지속하고 데이터를 소비할 수 있는 Oracle Cloud Infrastructure Object Storage 사용
Oracle Cloud Infrastructure Object Storage를 데이터 레이크로 사용하여 서로 다른 Oracle Cloud Infrastructure 서비스 간에 공유할 데이터 세트를 서로 다른 시간에 유지할 수 있습니다.
빅데이터 서비스는 온디맨드로 완전히 구성되고, 안전하고, 가용성이 높으며, 전용 Hadoop, Spark 또는 Flink 클러스터를 프로비저닝합니다. 소규모 테스트 및 개발 클러스터에서 대규모 프로덕션 클러스터에 이르기까지 모든 것을 지원하는 다양한 Oracle Cloud Infrastructure 컴퓨트 구성을 사용하여 빅데이터 및 분석 워크로드에 맞게 클러스터를 확장할 수 있습니다. 측정지표 또는 일정에 따라 자동 크기 조정 구성을 활용하여 비즈니스 수요에 맞게 신속하게 조정하고 비용을 최적화할 수 있습니다. 클러스터 프로파일을 활용하여 특정 작업 로드 또는 기술에 대한 최적의 클러스터를 생성합니다. - 일괄 처리
일괄 처리는 데이터 레이크하우스에 저장된 대규모 데이터 세트를 변환합니다. 일괄 처리는 Oracle Cloud Infrastructure Object Storage와 원활하게 통합되는 Oracle Cloud Infrastructure 네이티브 서비스를 활용하며 데이터 집계 및 보강, 데이터 웨어하우스 수집, 대규모 머신 러닝 및 AI 데이터 사용과 같은 사용 사례에 대해 선별된 데이터를 생성할 수 있습니다.
-
위에서 설명한 Oracle Cloud Infrastructure Data Integration은 다양한 데이터 소스에서 Autonomous AI Lakehouse 및 Oracle Cloud Infrastructure Object Storage와 같은 대상 Oracle Cloud Infrastructure 서비스로 데이터를 추출, 로드, 변환, 정리 및 재구축하는 완전 관리형 서버리스 클라우드 네이티브 서비스입니다.
-
Oracle Cloud Infrastructure Data Flow는 인프라 배포 또는 관리 없이도 Apache Spark 및 Spark Streaming 애플리케이션을 실행할 수 있는 완전 관리형 빅데이터 서비스입니다. 이를 통해 빅데이터 및 AI 애플리케이션을 더 빠르게 제공할 수 있습니다. 운영 관리 없이도 애플리케이션에 집중할 수 있기 때문입니다. 데이터 플로우 애플리케이션은 Spark 애플리케이션과 해당 종속성, 기본 매개변수 및 기본 런타임 리소스 사양으로 구성된 재사용 가능한 템플리트입니다.
-
Oracle Data Transforms는 선택한 지원 기술에 대한 ELT(추출 로드 변환)를 지원하며, 사용자가 선언적으로 데이터 플로우 및 작업 플로우를 빌드하고 일정을 잡을 수 있는 웹 사용자 인터페이스를 사용하여 데이터 파이프라인의 구성 및 실행을 간소화합니다. Oracle Data Transforms는 Oracle Autonomous AI Lakehouse 내에서 완전 관리형 환경으로 제공되어 여러 데이터 소스의 데이터를 Oracle Autonomous AI Lakehouse 인스턴스로 로드 및 변환할 수 있습니다.
사용 사례에 따라 이러한 구성 요소를 독립적으로 또는 함께 사용하여 매우 유연하고 성능이 뛰어난 데이터 처리를 수행할 수 있습니다.
-
- 제공
Oracle Autonomous AI Lakehouse는 데이터 웨어하우징 워크로드에 최적화된 자율 구동, 자가 보안, 자가 복구 데이터베이스 서비스입니다. 하드웨어를 구성 또는 관리하거나 소프트웨어를 설치할 필요가 없습니다. OCI는 데이터베이스의 생성, 백업, 패치 적용, 업그레이드 및 튜닝을 처리합니다.
프로비저닝 후에는 가용성 또는 성능에 영향을 주지 않고 언제든지 CPU 코어 수 또는 데이터베이스의 스토리지 용량을 확장할 수 있습니다.
또한 Oracle Autonomous AI Lakehouse는 객체 스토리지에 있는 데이터를 외부 및 하이브리드 파티셔닝 테이블로 가상화하여 다른 소스에서 파생된 데이터를 웨어하우스 데이터로 조인하고 소비할 수 있습니다. 또한 기록 데이터를 웨어하우스에서 객체 스토리지로 이동한 다음 하이브리드 분할 테이블을 사용하여 원활하게 사용할 수 있습니다.
Oracle Autonomous AI Lakehouse는 데이터 카탈로그에 저장된 이전에 수집한 메타데이터를 사용하여 외부 테이블을 생성하고, 데이터 카탈로그의 메타데이터 업데이트를 외부 테이블 정의와 자동으로 동기화하여 일관성을 유지하고, 관리를 간소화하고, 노력을 줄일 수 있습니다.
벡터는 관계형, JSON, 공간, 그래프 등 여러 데이터 유형을 지원하는 다중 모델 데이터베이스이기 때문에 Autonomous Database에서 지원됩니다. 벡터 데이터 유형을 사용하면 벡터 임베딩을 로드 및 저장할 수 있을 뿐만 아니라, 단일 클라우드 Autonomous AI Lakehouse 인스턴스에서 검색 증강 생성(RAG) 애플리케이션에 사용할 수 있는 벡터 인덱스를 생성할 수 있습니다. 이 다중 모델 기능을 사용하면 단일 쿼리에 결합할 수 있는 모든 데이터 유형을 사용하여 분석을 수행할 수 있으므로 데이터 유형별로 특수 사일로화된 데이터베이스를 사용할 때 발생하는 복잡성과 위험을 줄이는 동시에 보안, 안정성, 확장성을 높이고 모든 데이터를 쉽게 분석할 수 있습니다.
자율운영 AI 데이터베이스 기능인 Select AI는 자연어를 사용해 데이터를 쿼리하고, LLM을 사용해 사용자의 입력 텍스트를 Oracle SQL로 변환할 수 있게 해 줍니다. Select AI는 자연어 프롬프트를 처리하고, 메타데이터가 포함된 프롬프트를 보완하고, SQL 쿼리를 생성 및 실행합니다.
자율운영 AI 데이터베이스 기능인 데이터 공유를 사용하면 자율운영 AI 데이터베이스 또는 델타 공유 호환 기술을 사용하는 타사의 데이터와 메타데이터를 안전하게 제공하고 소비할 수 있습니다. 데이터 공유를 통해 공유 제공자의 데이터를 기본 공유 테이블을 추상화하는 뷰로 손쉽게 사용할 수 있습니다. 또한 제공자와 수신자가 모두 자율운영 AI 데이터베이스를 사용할 때 수신자가 실시간 및 최신 데이터를 소비할 수 있도록 해주는 라이브 공유를 사용할 수 있습니다.
자율운영 AI 데이터베이스 기능인 분석 뷰는 기존 데이터베이스 테이블 및 뷰에 저장된 데이터의 분석 쿼리를 빠르고 효율적으로 생성할 수 있는 방법을 제공합니다. 분석 뷰는 차원 모델을 사용하여 데이터를 구성합니다. 이를 통해 데이터 집합에 집계 및 계산을 간편하게 추가하고 비교적 간단한 SQL을 사용하여 쿼리할 수 있는 뷰로 데이터를 제공할 수 있습니다. 이 기능을 사용하면 내부 및 외부에 저장된 데이터를 사용하여 Oracle Autonomous AI Lakehouse에서 스타 또는 스노플레이크 스키마를 의미상 직접 모델링할 수 있으며, SQL 및 SQL 호환 데이터 소비자를 사용하여 모델을 사용할 수 있습니다.
또한 자율운영 AI 데이터베이스의 구성 요소인 자율운영 데이터 레이크 가속기는 객체 스토리지 데이터를 원활하게 소비하고, 빠른 쿼리를 제공하기 위한 처리를 확장하고, 필요할 때 데이터베이스 컴퓨트 인스턴스를 자동 스케일링하고, 객체 스토리지 쿼리를 데이터베이스 컴퓨트 인스턴스에서 분리하여 데이터베이스 워크로드에 미치는 영향을 줄일 수 있습니다.
- 클라우드 스토리지
Oracle Cloud Infrastructure Object Storage는 안정적이고 비용 효율적인 데이터 내구성을 제공하는 인터넷 규모의 고성능 스토리지 플랫폼입니다. Oracle Cloud Infrastructure Object Storage는 분석 데이터를 포함하여 모든 콘텐츠 유형의 비정형 데이터를 무제한으로 저장할 수 있습니다. 인터넷 또는 클라우드 플랫폼 내에서 직접 안전하고 안전하게 데이터를 저장하거나 검색할 수 있습니다 여러 관리 인터페이스를 통해 성능 또는 서비스 안정성이 저하되지 않고도 소규모로 쉽게 시작하고 원활하게 확장할 수 있습니다.
Oracle Cloud Infrastructure Object Storage는 자주 사용되지 않는 데이터를 저장한 다음 Oracle Autonomous AI Lakehouse의 하이브리드 테이블을 사용하여 가장 최근의 데이터와 원활하게 조인함으로써 데이터 웨어하우스의 콜드 스토리지 계층으로도 사용할 수 있습니다.
객체에 대한 IAM 정책을 사용하여 객체 레벨 세분화된 액세스 제어를 적용할 수 있으므로 데이터 레이크 직접 액세스에 대한 데이터 보안이 향상됩니다.
- 시각화 및 학습
Oracle Analytics Cloud는 확장이 가능한 보안 퍼블릭 클라우드 서비스로, 사용자, 사용자의 작업 그룹 및 기업에 대한 협업 분석을 탐색하고 수행할 수 없는 기능을 제공합니다. 이는 시민 데이터 과학자, 고급 비즈니스 분석가 교육 및 머신 러닝(ML) 모델 실행을 지원합니다. 머신 러닝 모델은 분석 서비스에서 실행하거나 Oracle Autonomous AI Lakehouse에서 Oracle Cloud Infrastructure Vision과 같은 웨어하우스 및 OCI AI 서비스의 처리 능력, 확장성, 탄력성을 활용하는 대규모 배치 예측을 위한 OML 내장 모델로 직접 실행할 수 있습니다.
또한 Oracle Analytics Cloud를 사용하면 빠른 설정, 손쉬운 확장 및 패치 적용, 자동화된 라이프사이클 관리 등 유연한 서비스 관리 기능을 이용할 수 있습니다.
-
학습 및 예측
-
데이터 사이언스는 데이터 사이언스 팀이 Oracle Cloud Infrastructure에서 머신 러닝(ML) 모델을 구축, 교육 및 관리할 수 있도록 인프라, 오픈 소스 기술, 라이브러리, 패키지 및 데이터 사이언스 도구를 제공합니다. 협업 및 프로젝트 기반 작업 공간은 엔드투엔드 통합 사용자 경험을 제공하고 예측 모델의 수명 주기를 지원합니다.
데이터 과학 작업 기능을 통해 데이터 과학자는 완전 관리형 인프라에서 반복 가능한 머신 러닝 작업을 정의하고 실행할 수 있습니다.
데이터 과학 모델 배포 기능을 통해 데이터 과학자는 학습된 모델을 완전 관리형 HTTP 엔드포인트로 배포하여 실시간으로 예측을 제공하고, 프로세스 및 애플리케이션에 인텔리전스를 주입하고, 비즈니스가 발생 시 관련 이벤트에 대응할 수 있습니다.
-
Oracle Machine Learning은 Python 및 AutoML을 지원하는 Autonomous AI Database에 긴밀하게 통합된 강력한 머신 러닝 기능을 제공합니다. 오픈 소스 및 확장 가능한 데이터베이스 내 알고리즘을 사용하여 데이터 준비 및 이동을 줄이는 모델을 지원합니다. AutoML은 데이터 과학자가 자동 알고리즘 선택, 적응형 데이터 샘플링, 자동 기능 선택 및 자동 모델 튜닝을 사용하여 회사의 머신 러닝 이니셔티브의 가치 실현 시간을 단축할 수 있도록 지원합니다. Oracle Autonomous AI Lakehouse에서 제공되는 Oracle Machine Learning 서비스를 사용하면 모델을 관리할 수 있을 뿐만 아니라, 회사 내에서 실시간 예측을 민주화하기 위해 해당 모델을 REST 엔드포인트로 배포할 수도 있습니다. 이를 통해 비즈니스는 사실이 아닌 관련 이벤트에 대응할 수 있습니다.
-
- AI 및 생성형 AI 서비스
Oracle Cloud Infrastructure AI 서비스는 텍스트 분석부터 예측 유지보수에 이르기까지 다양한 사용 사례를 지원하는 데 사용할 수 있는 즉시 사용 가능한 일련의 AI 서비스를 제공합니다. 이러한 서비스에는 API를 사용하여 데이터 파이프라인, 분석 및 애플리케이션에 통합할 수 있는 사전 구축되고 세밀하게 조정된 모델이 있습니다.
-
Oracle Cloud Infrastructure Language는 정교한 텍스트 분석 및 번역을 대규모로 수행합니다. 사전 학습 및 커스터마이징 모델을 통해 개발자는 데이터 과학 전문 지식 없이도 비정형 텍스트를 처리하고 인사이트를 추출할 수 있습니다. 감성 분석, 핵심 구문 추출, 텍스트 분류, 명명된 개체 인식을 수행하고 텍스트의 PII 데이터를 감지합니다. 도메인별 작업을 위한 모델을 조정하고 다양한 언어로 텍스트를 손쉽게 번역할 수 있습니다. 또한 Oracle Cloud Infrastructure Language는 대용량 워크로드를 효율적으로 처리하기 위한 문서 번역 및 비동기 작업을 지원합니다.
- Oracle Cloud Infrastructure Speech는 인간의 음성이 포함된 미디어 파일을 매우 정확한 텍스트 필사로 쉽게 변환할 수 있도록 함으로써 음성 언어의 장점을 활용합니다. OCI 음성을 사용하면 고객 서비스 통화를 필사하고, 자막을 자동화하고, 매체 자산의 메타데이터를 생성하여 완전히 검색 가능한 아카이브를 생성할 수 없습니다. OCI Speech는 일괄 처리 및 실시간 필사 작업을 지원합니다.
-
Oracle Cloud Infrastructure Vision은 딥 러닝을 기반으로 대규모 이미지 분석을 수행하는 AI 서비스입니다. OCI Vision은 이미지 분류, 객체 및 얼굴 감지, 텍스트 추출과 같은 이미지 인식 및 비디오 분석 작업을 수행합니다. 사전 학습된 모델을 활용하거나, 산업별 및 고객별 시나리오를 위한 커스텀 비전 모델을 손쉽게 생성할 수 있습니다. OCI 비전은 모든 일반적인 컴퓨터 비전 작업을 지원하는 완전 관리형 멀티테넌트 네이티브 클라우드 서비스입니다. 즉시 사용 가능한 사전 구축된 모델을 통해 개발자는 머신 러닝(ML) 전문 지식 없이도 애플리케이션에서 이미지 인식 및 텍스트 인식을 쉽게 구축할 수 있습니다.
- Oracle Cloud Infrastructure Document Understanding는 텍스트, 키 값 및 테이블 추출과 같은 문서 분류 및 문서 분석 작업을 수행합니다. OCI Document Understanding는 모든 공통 문서 분석 작업을 지원하는 완전 관리형 멀티테넌트 네이티브 클라우드 서비스입니다.
- Oracle Cloud Infrastructure Generative AI는 채팅, 텍스트 생성, 요약, 텍스트 임베딩 생성 등 광범위한 사용 사례를 다루는 최첨단 커스터마이징 가능한 대규모 언어 모델(LLM) 세트를 제공하는 완전 관리형 솔루션입니다. 플레이그라운드를 사용하여 즉시 사용 가능한 사전 학습 모델을 시험해 보거나 전용 AI 클러스터의 자체 데이터를 기반으로 자체 미세 조정된 커스텀 모델을 생성 및 호스팅할 수 있습니다.
-
- 데이터 강화
데이터 보강은 머신 러닝 모델을 교육하는 데 사용되는 데이터를 개선하여 보다 정확하고 효과적인 예측 결과를 달성할 수 있습니다.
Oracle Cloud Infrastructure Data Labeling을 사용하면 데이터 세트를 생성 및 탐색하고, 데이터 레코드(텍스트 또는 이미지)를 보고, AI/ML 모델을 구축할 목적으로 레이블을 적용할 수 있습니다. 또한 이 서비스는 레이블 지정 프로세스를 지원하도록 설계된 대화식 사용자 인터페이스를 제공합니다. 레코드에 레이블을 지정하면 데이터 세트를 AI/ML 모델 개발에 사용할 라인으로 구분된 JSON으로 익스포트할 수 있습니다. - 검색
검색 기능을 보완 기능으로 사용하여 사전 인덱스화된 운영 분석 데이터가 필요하므로 짧은 대기 시간으로 제공되는 최종 사용자에게 데이터를 노출할 수 있습니다.
Oracle Cloud Infrastructure Search with OpenSearch는 완전 관리형의 배포된 유지보수가 필요 없는 전체 텍스트 검색 엔진입니다. OpenSearch를 사용하면 빠른 응답 시간으로 대용량 데이터를 빠르게 저장, 검색 및 분석할 수 있습니다. 이 서비스는 오픈 소스 OpenSearch API 및 OpenSearch 대시보드 데이터 시각화를 지원합니다. - 스트리밍 분석
스트리밍 분석은 데이터 레이크하우스에 저장된 선별 및 마스터 데이터로 컨텍스트화된 스트리밍 데이터에 대한 실시간 분석을 제공하는 대시보드를 제공하여 관심 패턴을 감지한 후 사용자, 애플리케이션 및 사물에 서비스를 제공할 수 있습니다.
Oracle Cloud Infrastructure GoldenGate Stream Analytics는 정교한 상관 관계 패턴, 데이터 보강 및 머신 러닝을 사용하여 대규모 실시간 정보를 처리하고 분석합니다. 사용자는 라이브 차트, 맵, 시각화를 통해 실시간 데이터를 탐색하고, 수동 코딩 없이도 스트리밍 파이프라인을 그래픽으로 구축할 수 있습니다. 이러한 파이프라인은 확장 가능한 완전 관리형 서비스로 실행되어 모던 엔터프라이즈의 중요한 실시간 사용 사례를 해결합니다.
- ETL/쓰기 취소
리버스 ETL은 쓰기 되돌림이라고도 하며 운영 시스템 및 디바이스에 데이터를 활성화하여 데이터에서 파생된 인텔리전스를 비즈니스 프로세스를 지원하는 데 사용되는 애플리케이션 및 디바이스에 직접 주입할 수 있습니다.
데이터는 거의 실시간으로 정보를 가져오고 분리되는 많은 소비자 집합을 지원하는 스트림 및 대기열을 사용하는 등 여러 메커니즘을 사용하여 소비자에게 제공됩니다. 애플리케이션 또는 데이터 통합을 사용하여 사전 구축된 어댑터를 사용하여 데이터를 푸시하거나 서버리스 기능을 사용하여 거의 모든 애플리케이션 또는 디바이스 엔드포인트를 호출함으로써 복원성과 확장성을 높이기 위한 스트리밍 분석 시스템입니다.
-
Oracle Cloud Infrastructure Streaming 서비스는 실시간으로 소비하고 처리할 수있는 대용량의 연속 데이터 스트림을 입수하기 위한 확장 가능하며 내구성 있는 전담 관리 및 확장 가능한 스토리지 솔루션을 제공합니다. 스트리밍은 메시징, 애플리케이션 로그, 운영 원격 측정, 웹 클릭-스트림 데이터 등의 대용량 데이터 같은 대용량 데이터의 입수 또는 발행-구독 메시징 모델에서 데이터가 연속적으로 생성되고 처리되는 기타 사용 사례에 사용됩니다.
-
Oracle Cloud Infrastructure Queue는 시스템을 분리하고 비동기 작업을 지원하는 완전 관리형 서버리스 서비스입니다. 대기열은 손실이나 중복 없이 독립적으로 처리된 메시지가 필요한 대용량 트랜잭션 데이터를 처리합니다.
-
Oracle Integration은 클라우드 및 온프레미스 애플리케이션을 통합하고, 비즈니스 프로세스를 자동화하고, 시각적 애플리케이션을 개발하고, SFTP 호환 파일 서버를 사용하여 파일을 저장 및 검색하고, 수백 개의 어댑터 및 레시피 포트폴리오를 사용하여 Oracle 및 타사 애플리케이션과 연결할 수 있는 B2B 거래 파트너와 비즈니스 문서를 교환할 수 있는 완전 관리형 사전 구성된 환경입니다.
-
Oracle Data Transforms는 선택된 지원 기술에 대해 ELT를 지원하며, 사용자가 선언적으로 데이터 플로우 및 워크플로우를 작성하고 일정을 잡을 수 있는 웹 사용자 인터페이스를 사용하여 데이터 파이프라인의 구성 및 실행을 간소화합니다. Oracle Data Transforms는 Oracle Autonomous AI Lakehouse 내에서 완전 관리형 환경으로 제공되어 여러 데이터 소스의 데이터를 Oracle Autonomous AI Lakehouse 인스턴스로 로드 및 변환할 수 있습니다.
-
Oracle Cloud Infrastructure Functions는 완전 관리형 멀티테넌트로서 확장성이 뛰어나고 온디맨드 FaaS(Functions-as-a-Service) 플랫폼입니다. 엔터프라이즈급 Oracle Cloud Infrastructure를 기반으로 구축되었으며 Fn Project 오픈 소스 엔진을 기반으로 합니다.
-
- API
API 계층을 사용하면 Data Science 및 Oracle Machine Learning에서 파생된 인텔리전스를 애플리케이션, 비즈니스 프로세스 및 운영과 기능에 영향을 주고 개선할 수 있는 기능에 주입할 수 있습니다. API 계층은 Oracle Machine Learning REST 엔드포인트에 Data Science 배포 모델을 안전하게 사용하고 런타임 환경의 가용성을 보장하기 위해 시스템을 제어하는 기능을 제공합니다. 또한 함수를 활용하여 필요에 따라 추가 논리를 수행할 수도 있습니다.
-
Oracle Cloud Infrastructure API Gateway를 사용하면 네트워크 내에서 액세스할 수 있는 프라이빗 끝점이 있는 API를 게시할 수 있으며, 인터넷 트래픽을 허용하려는 경우 퍼블릭 IP 주소로 노출할 수 있습니다. 엔드포인트는 API 검증, 요청 및 응답 변환, CORS, 인증 및 권한 부여, 요청 제한을 지원합니다. API 관찰 기능을 통해 사용량을 모니터링하고 SLA를 보장할 수 있습니다. 사용 계획을 사용하여 API에 액세스하는 API 소비자 및 API 클라이언트를 모니터링 및 관리하고, 서로 다른 고객이 API를 사용하여 소비되는 데이터 사용을 추적할 수 있도록 다양한 액세스 계층을 설정할 수도 있습니다. 사용 계획은 데이터 수익 창출을 지원하는 핵심 기능입니다.
-
Oracle Cloud Infrastructure Functions는 완전 관리형 멀티테넌트로서 확장성이 뛰어나고 온디맨드 FaaS(Functions-as-a-Service) 플랫폼입니다. 엔터프라이즈급 Oracle Cloud Infrastructure를 기반으로 구축되었으며 Fn Project 오픈 소스 엔진을 기반으로 합니다.
-
ORDS(Oracle REST Data Services)는 SQL 및 데이터베이스 기술을 보유한 개발자가 Oracle Database용 REST API를 개발할 수 있는 Java 애플리케이션입니다. 모든 애플리케이션 개발자는 클라이언트 드라이버를 설치 및 유지 관리하지 않고도 가장 널리 사용되는 API 기술인 REST를 사용하여 다른 외부 서비스에 액세스하는 것과 동일한 방식으로 모든 언어 환경에서 이러한 API를 사용할 수 있습니다. ORDS는 Oracle Autonomous AI Lakehouse에서 완전 관리형 기능으로 배포되며, 데이터 소비자에게 API를 사용하여 레이크하우스 정보를 노출하는 데 사용할 수 있습니다.
-
- 데이터 거버넌스
Oracle Cloud Infrastructure Data Catalog는 메타데이터 및 해당 속성과 같은 기술 자산이 상주하는 위치에 대한 가시성을 제공하며 해당 기술 메타데이터에 매핑된 비즈니스 용어집을 유지 관리할 수 있는 기능을 제공합니다. 또한 데이터 카탈로그는 Oracle Autonomous AI Lakehouse에 메타데이터를 제공하여 데이터 웨어하우스에서 외부 테이블을 쉽게 생성할 수 있습니다.
-
데이터 보안
데이터 보안은 레이크하우스 데이터를 최대한 탐색하고 사용하는 데 매우 중요합니다. 심층 방어 및 RBAC 기능을 갖춘 제로 트러스트 보안 모델을 활용하고 가장 엄격한 규정 준수를 보장하는 데이터 보안은 예방적, 탐지 및 시정 보안 제어를 제공하여 데이터 유출 및 침해를 방지합니다.
-
Oracle Data Safe는 데이터 보안에 중점을 둔 완전 통합형 Oracle Cloud 서비스입니다. Oracle Autonomous AI Lakehouse와 같은 Oracle Cloud 데이터베이스에서 규제되는 민감한 데이터를 보호하기 위한 완전하고 통합된 기능 모음을 제공하는 관리형 기능입니다. 기능에는 보안 평가, 유저 평가, 데이터 검색, 데이터 마스킹 및 작업 감사(audit) 등이 포함됩니다.
-
Oracle Cloud Infrastructure Audit은 Oracle Cloud Infrastructure(OCI) 리소스 및 테넌시와 관련된 활동에 대한 가시성을 제공합니다. 감사 로그 이벤트를 보안 감사에 사용하면 OCI 리소스 사용량 및 변경사항을 추적하고, 표준이나 규정 준수를 확인할 수 있으며,
-
Oracle Cloud Infrastructure Logging은 감사 로그를 포함하여 테넌시의 모든 로그에 대해 확장성이 뛰어나고 완전 관리형 단일 인터페이스를 제공합니다. OCI 로깅을 사용하여 모든 OCI 리소스의 로그에 액세스하면 이를 사용, 관리 및 검색할 수 있습니다.
-
Oracle Cloud Infrastructure Vault는 암호화 키와 암호를 저장 및 관리하여 리소스에 안전하게 액세스하는 암호화 관리 서비스입니다. 고객 관리 키를 Oracle Autonomous AI Lakehouse 및 데이터 레이크 암호화에 사용하여 유휴 데이터 보호를 강화할 수 있습니다. 암호로 서비스 및 사용자 자격 증명을 안전하게 저장하여 보안 상태를 개선하고 자격 증명이 손상되어 부적절하게 사용되지 않도록 할 수 있습니다.
-
물리적 구조
이 데이터 레이크하우스의 물리적 아키텍처는 다음을 지원합니다.
- 관계형 및 비관계형 데이터 소스의 마이크로 일괄 처리, 스트리밍, API 및 파일을 사용하여 데이터를 안전하게 수집
- Oracle Cloud Infrastructure Data Integration 및 Oracle Cloud Infrastructure Data Flow의 조합을 사용하여 데이터가 처리됩니다.
- 데이터는 Oracle Autonomous AI Lakehouse 및 Oracle Cloud Infrastructure Object Storage에 저장되며 품질과 가치에 따라 구성됩니다.
- Oracle Autonomous AI Lakehouse는 소비자에게 안전하게 웨어하우스 및 레이크 데이터 서비스를 제공합니다
- Oracle Analytics Cloud, 시각화를 사용하여 비즈니스 사용자에게 데이터 공개
- Oracle Analytics Cloud는 Oracle Cloud Infrastructure Web Application Firewall(WAF)로 보호되는 Oracle Cloud Infrastructure Load Balancer를 사용하여 인터넷을 사용하여 액세스를 제공하여 노출됩니다.
- Oracle Cloud Infrastructure Data Science는 머신 러닝(ML) 모델을 구축, 교육 및 배포하는 데 사용됩니다.
- Oracle Cloud Infrastructure API Gateway는 Data Science ML 모델 배포를 제어하는 데 활용됩니다.
- Oracle Cloud Infrastructure Data Catalog는 Oracle Autonomous AI Lakehouse 및 객체 스토리지에서 메타데이터를 수집합니다.
- Oracle Data Safe는 데이터에 대한 위험을 평가하고, 보안 제어를 구현 및 모니터링하고, 사용자 보안을 평가하고, 사용자 활동을 모니터링하고, 데이터 보안 규정 준수 요구사항을 해결합니다.
- Oracle Cloud Infrastructure Bastion은 관리자가 프라이빗 클라우드 리소스를 관리하는 데 사용됩니다.
다음 다이어그램은 이 참조 구조를 보여줍니다.
레이크하우스 아키텍처-oracle-1.zip#GUID-EE46F831-C10F-432F-A664-D78609670EB6
물리적 구조를 위한 설계:
- 허브용 VCN 2개와 워크로드 자체용 VCN 1개 활용
- 온프레미스 연결은 리던던시를 위해 Oracle Cloud Infrastructure FastConnect 및 사이트 간 VPN을 모두 활용합니다.
- 온프레미스 및 인터넷에서 수신되는 모든 트래픽이 먼저 허브 VCN으로 라우팅된 다음 워크로드 VCN으로 라우팅됩니다.
- 전송 중 및 미사용 상태의 모든 데이터 보안
- 보안 태세를 높이기 위해 전용 엔드포인트로 서비스가 배포됩니다.
- VCN은 보안 상태를 높이기 위해 여러 전용 서브넷으로 분리됩니다.
- 레이크 데이터는 메달링 아키텍처를 활용하여 객체 스토리지의 여러 버킷으로 분리됩니다.
단순성을 위해 이 배포에 명시되지 않은 잠재적인 설계 개선 사항은 다음과 같습니다.
- 전체 CIS 준수 랜딩 존 활용
- 모든 트래픽을 검사하고 정책을 적용하여 네트워크 방화벽을 활용하여 전반적인 보안 상태를 개선합니다.
권장사항
다음 권장 사항을 비즈니스 분석 및 머신 러닝을 위한 스트리밍 데이터 및 광범위한 엔터프라이즈 데이터 리소스를 처리하기 위한 시작점으로 사용합니다.
요구 사항은 여기에 설명된 아키텍처와 다를 수 있습니다.
- Oracle Autonomous AI Lakehouse
이 아키텍처는 공유 인프라에서 Oracle Autonomous AI Lakehouse를 사용합니다.
- 자동 확장을 활성화하여 데이터베이스 작업 로드에 처리 능력을 최대 3배까지 제공합니다.
- 퍼블릭 클라우드에서 실행되는 프라이빗 데이터베이스 클라우드 환경 내에서 셀프 서비스 데이터베이스 기능을 사용하려면 전용 인프라에서 Oracle Autonomous AI Lakehouse를 사용하는 것이 좋습니다.
- 자율운영 AI 레이크하우스(Autonomous AI Lakehouse)의 하이브리드 분할 테이블 기능을 사용하여 데이터 파티션을 Oracle Cloud Infrastructure Object Storage로 이동하고 사용자와 애플리케이션에 투명하게 서비스를 제공하는 것이 좋습니다. 자율운영 AI 레이크하우스에 저장된 데이터와 동일한 성능이 필요하지 않은 데이터에는 이 기능을 사용하는 것이 좋습니다.
- 외부 테이블 기능을 사용하여 Oracle Cloud Infrastructure Object Storage에 저장된 데이터를 자율운영 AI 레이크하우스에 복제하지 않고도 실시간으로 소비하는 것이 좋습니다. 이 기능은 형식(연회, avro, orc, json, csv 등)에 관계없이 자율운영 AI 레이크하우스 외부에서 선별된 데이터 세트와 자율운영 AI 레이크하우스에 상주하는 데이터를 투명하고 원활하게 결합합니다.
- 실시간 분석 및 혼합 워크로드의 성능을 크게 향상시키기 위해 데이터베이스 인메모리 기능을 사용하는 것이 좋습니다. 대기 시간이 짧고 자율운영 AI 레이크하우스 내부, 하이브리드 파티셔닝 또는 외부 테이블에 상주하는 레이크하우스 데이터를 메모리에 로드합니다.
- 객체 스토리지 데이터를 사용할 때 Autonomous AI Lakehouse Accelerator를 사용하여 데이터 웨어하우스와 데이터 레이크 간에 데이터를 소비하고 조인하는 사용자에게 개선되고 빠른 경험을 제공하는 것이 좋습니다.
- Autonomous AI Lakehouse에 벡터 임베딩을 관계형 데이터 또는 JSON 데이터와 같은 다른 데이터 유형과 함께 저장하여 모든 데이터에 대한 데이터 엔지니어링 및 분석을 간소화하고, 모든 데이터를 사용하여 RAG 에이전트를 효율적으로 접지하는 것을 고려해 보세요.
- Select AI를 가속기로 사용하여 데이터 엔지니어링, 비즈니스 인텔리전스, 애플리케이션 개발 또는 SQL 생성이 필요한 모든 작업에 사용할 수 있는 단순하고 복잡한 SQL을 생성하는 것이 좋습니다.
- 응용 프로그램 계층을 더욱 간소화하려면 Select AI를 로우 코드 응용 프로그램과 함께 사용하는 것이 좋습니다.
- 분석 뷰를 사용하여 자율운영 AI 레이크하우스(Autonomous AI Lakehouse)에서 직접 DW 스타 또는 스노플레이크 기반 스키마를 의미적으로 모델링하는 것이 좋습니다. 그래야 세분화된 데이터를 사전 집계할 필요 없이 자동으로 집계할 수 있습니다. 의미 모델은 Oracle Analytics Cloud를 포함한 모든 SQL 준수 클라이언트와 SQL을 일관되게 사용하여 사용되므로 사실과 KPI가 보장됩니다. 클라이언트에 관계없이 일관되게 제공되고, 자율운영 AI 레이크하우스(Autonomous AI Lakehouse) 또는 OCI 오브젝트 스토리지(OCI Object Storage)에 저장되어 있는지 여부에 관계없이 의미 모델에서 모든 데이터를 사용할 수 있습니다. 이 기능은 사실과 차원이 DW와 레이크를 모두 통과할 수 있는 레이크하우스 아키텍처를 위한 완벽한 의미 모델링 계층입니다.
- 회사 또는 규정 정책으로 인해 자율운영 AI 레이크하우스 암호화 키에 대한 완전한 제어가 필요한 경우 OCI Vault를 활용하는 고객 관리형 키 사용을 고려해 보세요.
- 자율운영 AI 레이크하우스(Autonomous AI Lakehouse)의 Database Vault 사용을 고려해 권한 없는 사용자가 민감한 데이터에 액세스하지 못하도록 방지하고, 데이터 유출 및 데이터 유출을 방지할 수 있습니다.
- Oracle Autonomous Data Guard를 사용하여 동일한 리전 또는 다른 리전에서 대기 인스턴스에 복제된 데이터를 설정하고 유지함으로써 비즈니스 연속성 계획을 지원하는 것이 좋습니다.
- Data Redaction과 함께 동적 데이터 마스킹을 사용하여 사용자의 역할에 따라 마스킹된 데이터를 제공하고, 따라서 데이터 복제 및 정적 마스킹 없이도 적절한 데이터 액세스를 보장할 수 있습니다.
- 자율운영 AI 레이크하우스 복제본을 사용하여 일시적이거나 일시적이지 않은 다른 환경을 빠르게 생성하는 것이 좋습니다. 대상 환경에 최신 데이터가 있어야 하는 경우 새로고침 가능 복제본을 사용합니다. 보안 강화를 위해 Oracle Data Safe를 사용하여 복제본의 민감한 데이터를 정적으로 마스킹합니다.
- 데이터 공유를 다른 자율운영 AI 데이터베이스 인스턴스 또는 델타 공유 호환 기술과 함께 안전하고 쉬운 데이터 소비 및 제공 방법으로 사용하는 것이 좋습니다.
- 자율운영 AI 데이터베이스 인스턴스 간에 실시간 데이터 공유를 사용하여 실시간으로 데이터를 소비하고 제공하는 것이 좋습니다.
- 버전 지정된 데이터 공유를 사용하여 소비자와 데이터를 공유하는 것이 좋습니다. 이렇게 하면 제공자가 아닌 소비자가 데이터를 처리하므로 데이터 쿼리 비용이 들지 않습니다.
- Autonomous AI Lakehouse에서 시간 제한이 있는 읽기 전용 데이터 액세스를 위해 사전 인증된 요청 URL을 사용해 소비자가 델타 공유를 지원하지 않는 사용 사례에 대해 중요하지 않은 데이터를 공유할 수 있습니다.
- 오브젝트 스토리지/데이터 레이크
이 아키텍처는 확장성이 뛰어나고 내구성이 뛰어난 클라우드 스토리지인 Oracle Cloud Infrastructure Object Storage를 레이크 스토리지로 사용합니다.
- 메달리온 아키텍처(브론즈, 실버, 골드) 또는 기타 파티셔닝 논리를 활용하여 다양한 버킷 세트에 걸쳐 레이크를 구성하여 품질과 보강을 기반으로 데이터를 분리하고, 데이터를 읽는 소비자에게 세분화된 보안을 적용하고, 다양한 계층에 다양한 수명 주기 관리 정책을 적용하는 것을 고려해 보세요.
- 다양한 오브젝트 스토리지 계층 및 라이프사이클 정책을 사용하여 레이크 데이터를 대규모로 저장하는 비용을 최적화하는 것이 좋습니다.
- 회사 또는 규정 정책으로 인해 OCI Object Storage 암호화 키에 대한 전체 제어가 필요한 경우 Vault 서비스를 활용하는 고객 관리 키 사용을 고려해 보십시오.
- 버킷 복제를 다른 영역으로 설정하여 비즈니스 연속성 계획을 지원하려면 OCI Object Storage 복제를 사용하는 것이 좋습니다. OCI Object Storage는 내구성이 뛰어나고 동일한 리전 버킷 복제를 위해 단일 리전에서 동일한 오브젝트의 여러 사본을 유지 관리할 필요가 없기 때문입니다.
- 객체 이름 또는 패턴을 사용하여 객체에 대해 Oracle Cloud Infrastructure Identity and Access Management(IAM) 정책을 사용하여 데이터 레이크 직접 액세스에 대한 데이터 보안을 높이는 것이 좋습니다.
- OCI Object Storage에서 프라이빗 엔드포인트를 사용하여 데이터 플랫폼 VCN에서 데이터 레이크에 대한 안전한 프라이빗 액세스를 보장하는 것이 좋습니다.
- 네트워크 소스 및 IAM 정책을 사용하여 데이터 레이크 버킷 및 객체에 액세스할 수 있는 권한이 부여된 IP 주소를 관리하도록 참조하는 것이 좋습니다.
- python 기반 유틸리티인 OCIFS를 사용하여 OCI Object Storage 버킷을 파일 시스템으로 마운트하는 것이 좋습니다. 이를 통해 NFS에서만 작동하며 오브젝트 스토리지에 파일을 업로드해야 하는 애플리케이션을 지원할 수 있습니다.
- Oracle Machine Learning 및 Oracle Cloud Infrastructure Data Science
이 아키텍처는 Oracle Machine Learning 및 Oracle Cloud Infrastructure Data Science를 활용하여 사람과 애플리케이션에 실시간으로 예측을 실행하고 제공합니다.
- ML 모델 개발 속도를 높이기 위해 Oracle Cloud Infrastructure Data Science 또는 Oracle Machine Learning에서 AutoML을 사용하는 것이 좋습니다.
- 상호 운용성을 위해 Open Neural Networks Exchange(ONNX)를 사용하는 것이 좋습니다. ONNX 타사 모델은 OML에 배포되어 REST 엔드포인트 또는 Data Science에 노출되어 HTTP 엔드포인트로 노출될 수 있습니다.
- 데이터 사이언스에서 모델을 ONNX로 저장하고 실시간 데이터 파이프라인에서 점수부여 및 예측을 실행하여 실시간 비즈니스 결과를 도출할 수 있는 예측을 적시에 수행해야 하는 경우 OCI GoldenGate Stream Analytics로 임포트하는 것이 좋습니다.
- Data Science Conda 환경을 사용하여 Jupyter 노트북 세션 내에서 Python 종속성의 관리 및 패키징을 개선하는 것이 좋습니다.
- Oracle Cloud Infrastructure Data Science AI Quick Actions를 사용하여 Data Science에서 기본 모델을 배포, 평가 및 미세 조정하는 것이 좋습니다. 모델 탐색기에서 사용할 수 있는 선별된 오픈 소스 LLM을 사용하거나 자체 모델을 적용할 수 있습니다.
- Accelerated Data Science Python 패키지에서 사용할 수 있는 Data Science 로우 코드 AI 운영자를 사용하여 예측, 이상 감지를 빠르고 효율적으로 수행하거나 추천 기능을 구축하는 것이 좋습니다.
- Data Science Jupyter 환경 내에서 Oracle Cloud Infrastructure Data Flow를 사용하여 Spark 스케일 아웃 처리를 활용하여 탐색 데이터 분석, 데이터 프로파일링 및 데이터 준비를 대규모로 수행하는 것이 좋습니다.
- Oracle Cloud Infrastructure Data Labeling을 사용하여 이미지, 텍스트 또는 문서와 같은 데이터에 레이블을 지정하고 이를 사용하여 Data Science 또는 Oracle Cloud Infrastructure AI Services에 구축된 ML 모델을 교육함으로써 예측 정확성을 개선할 수 있습니다.
- 파트너 및 외부 엔티티가 실시간 예측을 사용하는 경우 배포된 모델의 사용을 보호하고 제어하기 위해 OCI API 게이트웨이를 배포하는 것이 좋습니다.
- Oracle Cloud Infrastructure Data Integration
이 아키텍처는 Oracle Cloud Infrastructure Data Integration을 사용하여 선언적, 노코드 또는 로우 코드 ETL 및 데이터 파이프라인 개발을 지원합니다.
- Oracle Cloud Infrastructure Data Integration을 활용하여 Oracle Cloud Infrastructure Data Flow 애플리케이션 실행을 조정하고 일정을 잡으며 선언적 ETL과 사용자정의 Spark 코드 논리를 혼합하고 일치시킬 수 있습니다. Oracle Cloud Infrastructure Data Integration의 기능을 사용하여 데이터 파이프라인의 기능을 더욱 확장합니다.
- 자율운영 AI 레이크하우스(Autonomous AI Lakehouse)가 있는 변환에 SQL 푸시다운을 사용하는 것이 ETL에 비해 더 효율적이고, 성능이 뛰어나고, 안전한 ELT 접근 방식을 사용하는 목표입니다.
- OCI Data Integration이 데이터 소스 스키마 드리프트를 처리하도록 허용함으로써 데이터 소스 스키마 변경 사항을 유지할 보다 탄력적이고 미래 지향적인 데이터 파이프라인을 확보할 수 있습니다.
- Oracle Cloud Infrastructure Data Flow
이 아키텍처는 Oracle Cloud Infrastructure Data Flow를 사용하여 영구 클러스터를 보유 및 관리할 필요 없이 대규모 Spark 및 Spark 스트리밍 처리를 지원합니다.
- Consider using Oracle Cloud Infrastructure Data Catalog as a Hive metastore for Oracle Cloud Infrastructure Data Flow in order to securely store and retrieve schema definitions for objects in unstructured and semi-structured data assets such as Oracle Cloud Infrastructure Object Storage.
- 레이크 데이터에 ACID 트랜잭션 및 스트리밍 및 일괄 처리 통합이 필요한 경우 데이터 플로우에서 델타 레이크를 사용하는 것이 좋습니다.
- Big Data Service
이 아키텍처는 Oracle Cloud Infrastructure 빅 데이터 서비스를 활용하여 배치 및 스트리밍 데이터를 처리할 수 있는 Spark, Hadoop, Trino 또는 Flink와 같은 다양한 오픈 소스 기술의 고가용성 및 확장 가능한 클러스터를 배포합니다. 빅데이터 서비스는 HDFS에 데이터를 보관하고, OCI Object Storage에서 데이터를 보관 및 읽고, 데이터 세트를 Data Flow 및 Oracle Autonomous AI Lakehouse와 같은 다른 Oracle Cloud Infrastructure 서비스와 교환할 수 있습니다.
- 자동 스케일링을 사용하여 측정지표 또는 일정에 따라 작업자 노드를 수평 또는 수직으로 자동 확장하여 리소스 수요에 따라 비용을 지속적으로 최적화하는 것이 좋습니다.
- OCI Object Storage용 OCI HDFS 커넥터를 사용하여 OCI Object Storage에 대한 데이터를 읽고 쓰는 것이 좋습니다. 따라서 데이터를 복제 및 복제하지 않고도 다른 OCI 서비스와 공유된 데이터를 생성/소비할 수 있는 메커니즘을 제공합니다.
- 레이크 데이터에 ACID 트랜잭션 및 스트리밍 및 일괄 처리 통합이 필요한 경우 OCI BDS에서 델타 레이크 사용을 고려해 보세요.
- 다른 오픈 소스 소프트웨어를 사용해야 하는 경우 Oracle Cloud Infrastructure Registry, 컨테이너 인스턴스 또는 Oracle Cloud Infrastructure Kubernetes Engine을 사용하여 컨테이너화할 수 있는 오픈 소스 소프트웨어를 배포하는 것이 좋습니다.
- Oracle Cloud Infrastructure 스트리밍
이 아키텍처는 Oracle Cloud Infrastructure Streaming을 활용하여 소스의 스트리밍 데이터를 소비하고 소비자에게 스트리밍 데이터를 제공합니다.
Oracle Cloud Infrastructure 서비스 커넥터 허브를 활용하여 OCI Streaming에서 데이터를 이동하고 OCI Object Storage에서 지속하여 추가 과거 데이터 분석을 지원하는 것이 좋습니다.
- Oracle Analytics Cloud
이 아키텍처는 최종 사용자에게 증강 분석을 제공하기 위해 Oracle Analytics Cloud(OAC)를 활용합니다.
Oracle Cloud Infrastructure AI Services(언어 및 비전 모델) 및 OML(모든 모델)과 사전 구축된 통합 OAC를 활용하여 최종 사용자가 소비하는 데이터 흐름 및 시각화에 인텔리전스를 내장하고 AI 및 ML 소비를 민주화하는 것을 고려해 보십시오.
- Oracle Cloud Infrastructure AI Services
이 아키텍처는 배포된 사용 사례에 따라 Oracle Cloud Infrastructure AI Services를 활용할 수 있습니다.
OCI Data Labeling을 사용하여 OCI Vision, OCI Document Understanding 및 같은 Oracle Cloud Infrastructure AI Services에 대한 보다 정확한 예측을 튜닝하고 가져오는 데 사용될 학습 데이터에 레이블을 지정하는 것이 좋습니다.
- Oracle Cloud Infrastructure Generative AI 서비스
이 아키텍처는 배포된 사용 사례에 따라 Oracle Cloud Infrastructure Generative AI 서비스를 활용할 수 있습니다.
- 사전 학습된 LLM을 사용하여 텍스트 생성, 대화, 데이터 추출, 요약, 분류, 스타일 전송 또는 의미상 유사성을 해결하고, 생성형 AI를 파이프라인 및 프로세스에 신속하게 내장하는 온디맨드 플레이그라운드 및 API를 사용하는 것이 좋습니다.
- 전용 AI 클러스터를 사용하여 기본 LLM을 데이터에 효율적으로 조정하고 미세 조정하여 완벽한 격리 및 데이터 보안을 보장하는 것이 좋습니다.
- 비용 효율성을 위해 조직 전반의 다양한 팀 내에서 전용 AI 클러스터를 호스팅하는 것을 고려해 보세요. 단일 클러스터를 사용하여 여러 사용자정의 모델을 호스트할 수 있습니다. 이 모든 모델은 독립적인 엔드포인트와 함께 제공될 수 있으며 전용 IAM 정책으로 보호할 수 있습니다.
- OCI API 게이트웨이
이 아키텍처는 OCI API Gateway를 활용하여 데이터 서비스를 안전하게 노출하고 데이터 소비자에게 실시간 추론을 제공합니다.
- Oracle Cloud Infrastructure Functions를 사용하여 데이터 처리, 액세스 및 해석 계층의 범위를 벗어난 특정 API 처리를 지원하는 데 필요한 런타임 논리를 추가해 보십시오.
- 사용 계획을 사용하여 API에 대한 가입자 액세스를 관리하고, API 소비를 모니터링 및 관리하고, 서로 다른 소비자에 대해 서로 다른 액세스 계층을 설정하고, 외부 청구 시스템에 제공할 수 있는 사용 척도를 추적하여 데이터 수익 창출을 지원하는 것이 좋습니다.
- Oracle Cloud Infrastructure Data Catalog
플랫폼에 저장되고 흐르는 데이터에 대한 완전하고 총체적인 엔드투엔드 뷰를 확보하려면 데이터 지속성 계층뿐만 아니라 소스 데이터 저장소도 지원하는 데이터 저장소를 수집하는 것이 좋습니다. 수집된 이 기술 메타데이터를 비즈니스 용어집에 매핑하고 사용자정의 속성으로 보완하면 비즈니스 개념을 매핑하고 보안 및 액세스 정의를 문서화하고 관리할 수 있습니다.
- OCI Object Storage에 저장된 데이터를 가상화하는 Oracle Autonomous AI Lakehouse 외부 테이블 생성을 용이하게 하기 위해 이전에 수집한 데이터 카탈로그의 메타데이터를 활용합니다. 이렇게 하면 External Table 생성이 간소화되고, 데이터 저장소에 걸쳐 메타 데이터의 일관성이 적용되며, 사람의 실수에 취약하지 않습니다.
- Oracle Cloud Infrastructure Data Integration 및 Oracle Cloud Infrastructure Data Flow에 대한 계보 추적을 사용하여 데이터가 수집, 변환 및 저장되는 방식을 파악하는 것이 좋습니다. 적용 범위를 늘리려면 API 기반 수집을 사용하여 OpenLineage 오픈 프레임워크를 활용하여 모든 소스 및 시스템의 계보를 추적합니다.
- Oracle Cloud Infrastructure 데이터 전송 서비스에 대해 알아보기
공용 인터넷 연결을 사용하여 데이터를 업로드하는 것이 불가능한 경우 Oracle Cloud Infrastructure 데이터 전송 서비스를 사용하십시오. 공용 인터넷을 통해 데이터를 업로드하는 데는 1~2주 이상 소요되는 경우 데이터 전송을 사용하는 것이 권장됩니다.
- Data Safe 및 감사
감사 및 경고 기능을 활용하여 보안 상태를 늘리면 데이터 유출을 방지하고 데이터 침해가 발생할 경우 법의학 분석을 수행할 수 있습니다.
- Oracle Data Safe를 사용하여 데이터 웨어하우스의 작업을 감사하는 것을 고려하고 Oracle Cloud Infrastructure Audit를 사용하여 레이크 데이터에 대한 트래픽을 감사하는 것을 고려하십시오.
- Oracle Data Safe를 사용하여 Autonomous AI Lakehouse에서 민감한 데이터를 검색하고, 비운용 환경용 Autonomous AI Lakehouse 복제본을 생성할 때 이를 정적으로 마스킹하여 보안 위험을 피할 수 있습니다.
- Oracle Data Safe SQL Firewall과 Autonomous AI Lakehouse를 함께 사용하여 데이터 보안 상태를 높이고, SQL 주입 공격 또는 손상된 계정과 같은 위험으로부터 보호하는 것이 좋습니다.
- 배포 및 자동화
이 물리적 아키텍처는 코드형 인프라(IaC) 자동화를 사용하여 배포되어 데이터 레이크하우스를 배포할 리소스를 생성합니다.
Oracle Cloud Infrastructure Resource Manager를 사용하면 배포 가능한 클라우드 리소스의 Terraform 스택을 생성하고, 인프라 구성을 공유 및 관리하고, 여러 팀과 플랫폼에서 파일을 상태 지정할 수 있습니다. Oracle Cloud Infrastructure Resource Manager를 사용하여 비운용 환경 생성을 위한 배포 스택을 생성하고, 추가 서비스가 필요한 새 팀을 온보딩하고, 조직의 보안 및 거버넌스 정의 정책을 준수하는 일관된 IAM 정책 및 보안 보호 조치를 표준화 및 내장하는 것이 좋습니다.
- 비즈니스 지속성
이 아키텍처는 단일 리전에서의 배포에 대해 설명하며, 재해 복구를 지원하고 비즈니스 연속성 계획을 수립하기 위해 두 리전을 확장할 수 있습니다.
- Oracle Cloud Infrastructure Full Stack Disaster Recovery는 재해 복구 통합관리 및 관리 서비스로, 인프라, 미들웨어, 데이터베이스, 애플리케이션 등 애플리케이션 스택의 모든 층에 대해 포괄적인 재해 복구 기능을 제공합니다.
OCI 풀스택 재해 복구를 사용하여 데이터 레이크하우스의 전환 및 페일오버 계획을 설정하여 재해 복구 작업을 자동화하고 대기 영역으로의 계획되거나 계획되지 않은 전환이 발생할 경우 수동 단계를 줄이는 것이 좋습니다.
- 원가 최적화
재무 운영을 지속적으로 지원하려면 Oracle Cloud Infrastructure 비용 및 사용 추적과 비용 최적화 기능을 사용하는 것이 좋습니다.
- 비용 및 사용량 보고서를 사용하여 클라우드 리소스 사용량과 각 비용을 확인하고 추적하는 것이 좋습니다. 타사 재무 운영 솔루션과 통합하기 위해 제작된 산업 표준 FOCUS CSV 비용 보고서를 활용합니다.
- 비용 분석을 사용하여 여러 팀, 프로젝트 및 환경에서 발생하는 비용을 추적하는 것이 좋습니다.
- 비용 추적 태그를 사용하여 특정 팀, 프로젝트 또는 환경에 대한 클라우드 리소스에 태그를 지정하는 것이 좋습니다.
- 예산을 사용하여 지출에 대한 부분 제한을 설정하고 경보를 설정하면 프로젝트, 팀 또는 전체 지출에 대한 예산을 초과할 수 있는 시기를 알 수 있습니다.
- 상호 운용성
이 아키텍처는 광범위한 업계 표준을 활용하여 조직의 광범위한 IT 이기종 환경과 상호 운용되므로 모든 애플리케이션, 시스템 또는 사람에게 모든 데이터를 소비하고 제공할 수 있습니다.
이 아키텍처는 Parquet 또는 Avro와 같은 개방형 파일 형식을 지원하므로 각 사용 사례에 보다 적합한 형식으로 데이터를 저장할 수 있습니다. 또한 Iceberg 및 Delta Lake와 같은 개방형 테이블 형식을 지원하여 Oracle 기술 및 기타 타사 기술 간의 상호 운용성을 보장합니다.- Oracle Autonomous AI Lakehouse Iceberg 지원을 사용하여 데이터 레이크에 보관된 Iceberg 테이블을 읽고 소비자에게 서비스를 제공하는 것을 고려해 보세요. Iceberg 테이블은 외부 테이블로 제공되거나 Autonomous AI Lakehouse로 로드될 수 있습니다.
- 데이터 플로우 델타 레이크 범용 형식 지원을 사용하여 데이터 레이크에서 데이터를 읽고 처리하고 지속하는 것이 좋습니다. Iceberg 및 Hudi와 같은 다른 열린 테이블 형식에 대한 메타데이터를 생성하는 동안 Delta Lake를 사용하면 서로 다른 처리 엔진이 동일한 데이터를 읽을 수 있습니다.
- 조직 접근 방식
이 아키텍처는 유연하며 중앙 집중식에서 완전히 분산 된 접근 방식에 이르기까지 다양한 유형의 조직 접근 방식을 지원할 수 있으므로 데이터에서 가치를 추출하려는 모든 조직에서 채택하고 사용할 수 있습니다.
이 아키텍처는 OCI Identity and Access Management(IAM)를 통한 인증 및 권한 부여를 위해 광범위하고 세분화된 제어를 활용합니다.
IAM을 사용하여 레이크하우스를 사용하여 다양한 비즈니스 라인과 팀을 분리하여 데이터 제품 생성에 대한 소유권을 분산하고 조직이 분산된 조직 접근 방식을 채택하려는 경우 데이터 도메인 분리를 적용하는 것이 좋습니다.
OCI는 Terraform 및 Ansible과 같은 프레임워크를 활용하여 성공적인 아키텍처 배포를 위한 핵심 기능인 자동화 및 코드형 인프라(Infrastructure as Code)를 보유하고 있습니다.
조직에서 분산형 접근 방식을 채택하고 해당 접근 방식으로 데이터 도메인을 구현하는 경우 사전 구축된 Terraform 템플릿과 OCI Resource Manager를 활용하여 데이터 플랫폼에 데이터 도메인을 빠르고 일관되게 온보딩하는 것이 좋습니다.
고려사항
분석 및 머신 러닝을 위해 애플리케이션 데이터를 수집, 처리 및 선별할 때는 다음 구현 옵션을 고려하십시오.
| 지도 | 권장사항 | 기타 옵션 | 근거 |
|---|---|---|---|
| 데이터 변환 모듈 |
|
|
Oracle Cloud Infrastructure Data Integration은 확장 가능하고 비용 효율적인 클라우드 네이티브 서버리스 완전 관리형 ETL 플랫폼을 제공합니다. Oracle Cloud Infrastructure GoldenGate는 확장 가능하고 비용 효율적이며 하이브리드 환경에 배포할 수 있는 클라우드 전용 서버리스 완전 관리형 비침입형 데이터 복제 플랫폼을 제공합니다. |
| 데이터 지속성 |
|
Oracle Exadata Database Service |
Oracle Autonomous AI Lakehouse는 탄력적으로 확장되고 빠른 쿼리 성능을 제공하는 데이터베이스 관리가 필요 없는, 사용이 간편하고 완전히 자율적인 데이터베이스입니다. 또한 오브젝트 스토리지 외부 또는 하이브리드 분할 테이블의 데이터에 대한 직접 액세스를 제공합니다. Oracle Cloud Infrastructure Object Storage는 무제한 데이터를 원시 형식으로 저장합니다. |
| 데이터 프로세스 |
|
타사 도구 |
Oracle Cloud Infrastructure Data Integration은 확장 가능하고 비용 효율적인 클라우드 네이티브 서버리스 완전 관리형 ETL 플랫폼을 제공합니다. Oracle Cloud Infrastructure Data Flow는 매우 탄력적인 종량제 모델을 사용하여 대규모 데이터를 처리할 수 있는 서버리스 Spark 환경을 제공합니다. Oracle Cloud Infrastructure 빅데이터 서비스는 엔터프라이즈급 Hadoop-as-a-service에 엔드투엔드 보안, 고성능, 간편한 관리 및 업그레이드 기능을 제공합니다. |
| 액세스 및 해석 |
|
타사 도구 |
Oracle Analytics Cloud는 Oracle Autonomous AI Lakehouse에서 엄선된 데이터와 완벽하게 관리되고 긴밀하게 통합됩니다. Oracle Cloud Infrastructure Data Science는 데이터 과학 팀이 Oracle Cloud Infrastructure에서 머신 러닝(ML) 모델을 구축, 교육 및 관리할 수 있는 완전 관리형 셀프 서비스 플랫폼입니다. Data ScienceData Science는 AutoML 및 모델 배포 기능과 같은 인프라 및 데이터 과학 툴을 제공합니다. Oracle Machine Learning은 Oracle Autonomous AI Lakehouse에서 사용할 수 있는 데이터 과학을 위한 완전 관리형 셀프 서비스 플랫폼으로, 웨어하우스 외부로 데이터를 이동할 필요 없이 웨어하우스의 처리 기능을 활용하여 대규모 ML 모델을 구축, 교육, 테스트 및 배포할 수 있습니다. Oracle Cloud Infrastructure AI 서비스는 잠재적인 이상 징후 추론 또는 정서 감지와 같은 작업을 수행하기 위해 특별히 구축 및 훈련된 사전 구축된 모델을 제공하는 서비스 세트입니다. |
배치
- Oracle Cloud Infrastructure Resource Manager를 사용하여 배포합니다.
- 을 누릅니다.

아직 사인인하지 않은 경우 테넌시 및 사용자 인증서를 입력합니다.
- 조건 및 조항을 검토하고 동의합니다.
- 스택을 배치할 영역을 선택합니다.
- 화면의 프롬프트와 지침에 따라 스택을 만듭니다.
- 스택을 생성한 후 Terraform 작업을 누르고 계획을 선택합니다.
- 작업이 완료될 때까지 기다린 다음 계획을 검토합니다.
변경하려면 [스택 세부정보] 페이지로 돌아가서 스택 편집을 누르고 필요한 사항을 변경합니다. 그런 다음 계획 작업을 다시 실행합니다.
- 추가 변경이 필요하지 않은 경우 스택 세부정보 페이지로 돌아가서 Terraform 작업을 누르고 적용을 선택합니다.
- 을 누릅니다.
- Terraform CLI를 사용하여 배치:
- GitHub로 이동하세요.
- 저장소를 복제하거나 로컬 컴퓨터에 다운로드합니다.
README문서의 지침을 따릅니다.
로그 변경
이 로그는 중요한 변경 사항을 나열합니다.
| 2024년 10월 28일 |
|
| 2023년 6월 21일 |
|


