데이터 플랫폼 - 데이터 연합

데이터 레이크하우스 아키텍처는 디바이스에서 실시간으로 이벤트 데이터와 스트리밍 데이터를 효과적으로 수집 및 분석하고 이를 광범위한 엔터프라이즈 데이터 리소스와 상호 연관시켜 데이터 투자를 활용하고 원하는 인사이트를 확보하는 데 도움이 됩니다.

그러나 데이터 레이크하우스의 데이터를 이기종 데이터 소스에 상주하거나 데이터를 복제할 필요 없이 다른 클라우드 또는 온프레미스 시스템에 배포된 데이터와 어떻게 연관시킬 수 있습니까?

정답은 데이터 레이크하우스 데이터를 물리적 위치에 관계없이 타사 클라우드 저장소의 통합 데이터와 클라우드 및 온프레미스 데이터베이스의 데이터와 결합하는 데이터 페더레이션 접근 방식을 활용하는 것입니다.

이 참조 아키텍처는 전체 비즈니스 컨텍스트 내에서 기술 솔루션을 포지셔닝합니다.



데이터 페더레이션은 단일 쿼리를 소스 데이터 저장소에 제공되는 하위 쿼리로 변환하는 통합 쿼리 엔진을 사용하여 서로 다른 데이터 저장소에 저장된 데이터의 통합, 통합 및 거버넌스를 허용하는 기술입니다. 그런 다음 아래 설명된 대로 결과가 병합되어 사용자 또는 응용 프로그램에 표시됩니다.



데이터 플랫폼 통합 개요 oracle.zip#GUID-6CFF3896-837A-4379-90C4-C1797B831AA6

데이터 페더레이션은 종종 데이터 가상화와 교환됩니다. 데이터 가상화는 데이터를 복제하지 않고도 여러 소스의 데이터에 대한 통합 뷰를 생성하며 실시간으로 새로운 데이터를 제공합니다.

이 참조 아키텍처의 취지에 따라, 아래에 설명된 기능이 통합 및 가상화를 모두 처리하더라도 데이터 통합이라는 용어가 사용됩니다.

데이터 페더레이션을 사용하면 분석 및 데이터 사이언스 엔진과 같은 소비자를 여러 데이터 소스가 아닌 통합 서비스 엔진에 연결하여 데이터 액세스를 간소화할 수 있으므로 페더레이션 데이터의 재사용성, 거버넌스 및 보안이 향상됩니다.

애널리틱스 엔진은 일반적으로 페더레이션 서비스 엔진의 보완 수단으로 사용할 수 있는 데이터 페더레이션 기능을 제공합니다. 일반적으로 페더레이션 데이터 서비스 엔진은 성능을 높이고 확장성을 해결할 수 있는 기능이 더 많아 이러한 분석 엔진에 암시적으로 도움이 됩니다.

이 문서에서는 Oracle Cloud Infrastructure 내에서 데이터 페더레이션을 위한 하나의 잠재적 솔루션에 대해 설명하지만 다른 시나리오에 서로 다른 기술을 사용하는 대안이 있을 수 있습니다.

기능적 구조

이 아키텍처는 데이터 레이크하우스를 사용하여 구성이나 양식에 관계없이 데이터를 저장하고 작업합니다. 이 아키텍처의 핵심은 Oracle Autonomous AI Lakehouse에 배포된 데이터 웨어하우스입니다.

또한 이 아키텍처는 통합 쿼리 엔진을 사용하여 선택한 소스의 선별된 데이터를 레이크하우스의 데이터와 통합합니다. 통합 데이터는 데이터 저장소에 따라 External Table, 데이터베이스 링크 및 데이터 공유와 같은 메커니즘을 사용하여 얻을 수 있습니다.

레이크하우스 데이터와 기존 데이터 저장소를 결합한 페더레이션 아키텍처를 통해 다음을 수행할 수 있습니다.

  • 저장 위치에 관계없이 모든 데이터 조인
  • 다른 클라우드 및 온프레미스에 저장된 데이터를 통합하는 멀티클라우드 및 하이브리드 클라우드 데이터 플랫폼 지원
  • 다양한 엔진에서 데이터를 가져오고 쿼리하는 데이터 소비자 경험 간소화
  • 통합 쿼리 엔진에서 단일 데이터 보안 모델을 적용할 수 있으므로 보안 강화
  • 레이크하우스에 저장된 엔티티의 메타데이터를 통합하고 쿼리 엔진과 통합되는 데이터 카탈로그를 사용하여 거버넌스를 강화합니다.
  • 데이터 구체화 및 자율운영 데이터베이스 캐싱을 활용하여 성능 향상
  • 분석 대시보드, SQL 인터페이스, API 엔드포인트 및 데이터 공유를 사용하여 통합 및 선별된 데이터를 다양한 소비자에게 노출
  • 다중 모델 데이터베이스를 통합 쿼리 엔진으로 활용

다음 다이어그램은 기능 구조를 보여줍니다. 단순성을 위해 레이크하우스의 모든 기능이 표시되는 것은 아닙니다.



데이터 플랫폼 연합 기능 oracle-1.zip#GUID-827999E3-20E0-4D6C-B343-7AD45CF085A9

이 아키텍처는 대부분 일괄 처리를 사용하는 통합 데이터 플랫폼을 묘사하지만, 스트리밍 데이터를 처리하기 위해 데이터 레이크하우스 실시간 기능으로 증강할 수 있습니다.

스트리밍 데이터 처리는 종종 데이터 파이프라인 내에서 상황별 데이터를 소비해야 합니다. 상황별 데이터는 여러 데이터 소스에 저장될 수 있지만 데이터 파이프라인에 모든 컨텍스트 데이터를 제공하는 데이터 페더레이션 엔진은 이러한 파이프라인을 단순화합니다.

이 아키텍처는 다음과 같은 논리적 부문에 중점을 둡니다.

수집, 변환

아키텍처의 각 데이터 계층에서 사용할 데이터를 수집하고 세분화합니다.

통합 데이터는 클라우드 스토리지, 데이터베이스 및 데이터 공유에서 온디맨드로 소비됩니다. 소스 데이터 저장소에서 이미 선별되었으므로 이 계층에서 데이터가 변환되지 않습니다.

유지, 선별, 생성

데이터의 액세스 및 탐색을 용이하게 하여 현재 비즈니스 뷰를 표시합니다. 관계형 기술의 경우 데이터는 단순한 관계형, 종단, 치수 또는 OLAP 형식으로 논리적으로 또는 물리적으로 구조화될 수 있습니다. 비관계형 데이터의 경우 이 계층에는 분석 프로세스의 출력 또는 특정 분석 작업에 최적화된 데이터 등 하나 이상의 데이터 풀이 포함됩니다.

이 계층에는 데이터 웨어하우스, 데이터 레이크 및 통합 데이터 소스에 상주하는 데이터를 통합하고 제공하는 통합 서비스 엔진이 포함되어 있습니다. 필요에 따라 통합 데이터를 쿼리하고 통합 데이터를 구체화하여 쿼리 성능을 향상시킬 수 있습니다.

페더레이션 엔진은 SQL, REST API 또는 데이터 공유를 사용하여 데이터를 제공하는 기능을 제공하므로 데이터 소비자가 여러 데이터 저장소가 아닌 단일 서비스 엔진에 연결되므로 연결을 간소화하면서 상호 운용성을 높일 수 있습니다.

분석, 학습, 예측

소비자에 대한 데이터의 논리적 비즈니스 뷰를 추상화합니다. 이러한 추상화는 개발에 대한 민첩한 접근 방식, 대상 아키텍처로의 마이그레이션, 여러 통합 소스에서 단일 보고 계층의 프로비저닝을 용이하게 합니다.

이 계층은 서빙 엔진을 활용하여 이 계층에서 사용할 수 있고 시각화 또는 데이터 과학 서비스에서 제공하는 데이터 커넥터로 추가 증강할 수 있는 통합 데이터를 가져옵니다.

통합 쿼리 엔진을 사용하면 기본 데이터 저장소에서 데이터 소비자 액세스를 추상화하여 데이터가 한 번 통합되고 많은 데이터 소비자가 소비함에 따라 생산성을 높일 수 있습니다. 또한 SQL, REST API 또는 데이터 공유와 상호 운용할 수 있는 모든 소비자가 레이크하우스 및 통합 데이터를 사용하고 결합할 수 있으므로 시스템 상호 운용성이 향상됩니다.

이 구조에는 다음과 같은 기능 구성 요소가 있습니다.

뱃치 수집

일괄 수집은 실시간으로 수집할 수 없거나 실시간 수집에 적응하기에는 너무 많은 비용이 드는 데이터에 유용합니다. 또한 데이터를 신뢰할 수 있고 신뢰할 수 있는 정보로 변환하여 정기적인 소비를 위해 선별하고 유지할 수 있습니다.

일괄 수집은 통합 엔진에 고유 액세스 권한이 없는 데이터 또는 레이크하우스 데이터 모델을 준수하도록 데이터를 변환해야 하는 특정 사용 사례에 대한 데이터를 수집할 수 있으므로 데이터 통합 엔진을 보완합니다.

다음 서비스를 함께 사용하거나 독립적으로 사용하여 매우 유연하고 효과적인 데이터 통합 및 변환 워크플로우를 달성할 수 있습니다.

  • Oracle Cloud Infrastructure Data Integration은 데이터 파이프라인의 설계 및 실행을 위한 완전 관리형 서버리스 서비스입니다. 자율운영 AI 레이크하우스(Autonomous AI Lakehouse)OCI Object Storage와 같은 OCI 타겟으로 데이터를 원활하게 추출, 변환, 로드할 수 있습니다. 사용자는 실행 환경을 자동 확장하는 코드 없는 직관적인 인터페이스를 통해 통합 플로우를 구축할 수 있습니다. Spark 기반 프로세싱을 통한 ETL과 성능 및 효율성을 위한 SQL 푸시다운을 사용하는 ELT를 모두 지원합니다. 또한 이 서비스는 데이터 준비를 위한 도구를 제공하며 규칙 기반 처리를 통해 스키마 드리프트로부터 보호합니다.

  • Oracle Data Integrator는 대용량 및 고성능 일괄 처리 로드에서 이벤트 기반의 까다로운 피드 통합 프로세스, SOA 지원 데이터 서비스에 이르기까지 포괄적인 데이터 통합을 제공합니다. 선언적 설계 접근 방식은 더 빠르고 간단한 개발 및 유지 관리를 보장하며 데이터 변환 및 검증 프로세스에 가능한 최고 수준의 성능을 보장하는 고유한 ELT(로드 변환) 추출 접근 방식을 제공합니다. Oracle 데이터 변환은 웹 인터페이스를 사용하여 ELT의 구성 및 실행을 단순화하고 사용자가 선언적 설계 방식을 사용하여 데이터 및 워크플로를 구축하고 일정을 잡을 수 있도록 지원합니다.

  • Oracle 데이터 변환은 선택된 지원 기술에 대해 ELT를 지원하며, 사용자가 선언적으로 데이터 플로우 및 워크플로우를 작성하고 일정을 잡을 수 있는 웹 사용자 인터페이스를 사용하여 데이터 파이프라인의 구성 및 실행을 간소화합니다. Oracle Data Transforms는 Oracle Autonomous AI Lakehouse 내에서 완전 관리형 환경으로 제공되어 여러 데이터 소스의 데이터를 Oracle Autonomous AI Lakehouse 인스턴스로 로드 및 변환할 수 있습니다.

사용 사례에 따라 이러한 구성 요소를 독립적으로 또는 함께 사용하여 매우 유연하고 성능이 뛰어난 데이터 통합 및 변환을 달성할 수 있습니다.

일괄처리 수행 중

일괄 처리는 데이터 레이크하우스에 저장된 대규모 데이터 세트를 변환합니다. 일괄 처리는 Oracle Cloud Infrastructure Object Storage와 원활하게 통합되는 Oracle Cloud Infrastructure 네이티브 서비스를 활용하며 데이터 집계 및 보강, 데이터 웨어하우스 수집, 대규모 머신 러닝 및 AI 데이터 사용과 같은 사용 사례에 대해 선별된 데이터를 생성할 수 있습니다.

위에서 설명한 Oracle Cloud Infrastructure Data Integration은 다양한 데이터 소스에서 Oracle Autonomous AI LakehouseOracle Cloud Infrastructure Object Storage와 같은 대상 Oracle Cloud Infrastructure 서비스로 데이터를 추출, 로드, 변환, 정리 및 재구축하는 완전 관리형 서버리스 클라우드 네이티브 서비스입니다.

Oracle Cloud Infrastructure Data Flow는 인프라 배포 또는 관리 없이도 Apache Spark 애플리케이션을 실행할 수 있는 완전 관리형 빅데이터 서비스입니다. 이를 통해 빅데이터 및 AI 애플리케이션을 더 빠르게 제공할 수 있습니다. 운영 관리 없이도 애플리케이션에 집중할 수 있기 때문입니다. 데이터 플로우 애플리케이션은 Spark 애플리케이션과 해당 종속성, 기본 매개변수 및 기본 런타임 리소스 사양으로 구성된 재사용 가능한 템플리트입니다.

제공

Oracle Autonomous AI Lakehouse는 데이터 웨어하우징 워크로드에 최적화된 자율 구동, 자가 보안, 자가 복구 데이터베이스 서비스입니다. 하드웨어를 구성 또는 관리하거나 소프트웨어를 설치할 필요가 없습니다. OCI는 데이터베이스의 생성, 백업, 패치 적용, 업그레이드 및 튜닝을 처리합니다.

프로비저닝 후에는 가용성 또는 성능에 영향을 주지 않고 언제든지 CPU 코어 수 또는 데이터베이스의 스토리지 용량을 확장할 수 있습니다.

또한 Oracle Autonomous AI Lakehouse는 객체 스토리지에 상주하는 데이터를 외부 및 하이브리드 파티셔닝 테이블로 가상화하여 다른 소스에서 파생된 데이터를 웨어하우스 데이터로 조인하고 소비할 수 있습니다. 또한 기록 데이터를 웨어하우스에서 객체 스토리지로 이동한 다음 하이브리드 분할 테이블을 사용하여 원활하게 사용할 수 있습니다.

Oracle Autonomous AI Lakehouse는 이전에 수집한 메타데이터를 Oracle Cloud Infrastructure Data Catalog에 저장하여 외부 테이블을 생성하고, Oracle Cloud Infrastructure Data Catalog의 메타데이터 업데이트를 외부 테이블 정의와 자동으로 동기화하여 일관성을 유지하고, 관리를 간소화하고, 노력을 줄일 수 있습니다.

자율운영 AI 데이터베이스 기능인 분석 뷰는 기존 데이터베이스 테이블 및 뷰에 저장된 데이터의 분석 쿼리를 빠르고 효율적으로 생성할 수 있는 방법을 제공합니다. 분석 뷰는 차원 모델을 사용하여 데이터를 구성합니다. 이를 통해 데이터 집합에 집계 및 계산을 간편하게 추가하고 비교적 간단한 SQL을 사용하여 쿼리할 수 있는 뷰로 데이터를 제공할 수 있습니다. 이 기능을 사용하면 내부 및 외부에 저장된 데이터를 사용하여 Oracle Autonomous AI Lakehouse에서 스타 또는 스노플레이크 스키마를 의미상 직접 모델링할 수 있으며, SQL 및 SQL 호환 데이터 소비자를 사용하여 모델을 사용할 수 있습니다.

Oracle Autonomous AI Lakehouse는 타사 클라우드 데이터베이스(예: AWS Redshift, Azure Synapse Analytics, Google BigQuery 및 Snowflake), 타사 데이터베이스(예: IBM DB2, MongoDB, PostrgreSQL, Hive) 및 심지어 SaaS 애플리케이션)에서 타사 클라우드 저장소(예: AWS S3, Azure Blob 및 GCP CGS)에 저장된 데이터를 통합 및 쿼리할 수 있는 기능을 제공합니다.

단일 쿼리에서 Oracle Autonomous AI Lakehouse는 클라우드 저장소, 클라우드 데이터베이스 및 기타 인기 있는 데이터베이스의 데이터를 쿼리 및 조인하여 서빙 엔진 소비자가 별도로 쿼리하는 복잡성, 여러 쿼리 엔진에서 추상화되는 데이터 액세스를 간소화하여 통합 결과를 얻을 수 있습니다. 또한 이 데이터를 Delta Sharing 개방형 프로토콜을 준수하는 생산자가 제공하는 데이터 공유에서 얻은 데이터와 결합할 수 있습니다.

클라우드 스토리지

Oracle Cloud Infrastructure Object Storage는 안정적이고 비용 효율적인 데이터 내구성을 제공하는 인터넷 규모의 고성능 스토리지 플랫폼입니다. Oracle Cloud Infrastructure Object Storage는 분석 데이터를 포함하여 모든 콘텐츠 유형의 비정형 데이터를 무제한으로 저장할 수 있습니다. 인터넷 또는 클라우드 플랫폼 내에서 직접 안전하고 안전하게 데이터를 저장하거나 검색할 수 있습니다 여러 관리 인터페이스를 통해 성능 또는 서비스 안정성이 저하되지 않고도 소규모로 쉽게 시작하고 원활하게 확장할 수 있습니다.

Oracle Cloud Infrastructure Object Storage는 자주 사용되지 않는 데이터를 저장한 후 Oracle Autonomous AI Lakehouse의 하이브리드 테이블을 사용하여 최신 데이터와 원활하게 조인함으로써 데이터 웨어하우스의 콜드 스토리지 계층으로 사용할 수도 있습니다.

시각화/학습

Oracle Analytics Cloud는 확장이 가능한 보안 퍼블릭 클라우드 서비스로, 사용자, 사용자의 작업그룹 및 기업에 대한 협업 분석을 탐색하고 수행할 수 있도록 하는 전체 기능을 제공합니다. 이는 시민 데이터 과학자, 고급 비즈니스 분석가 교육 및 머신 러닝(ML) 모델 실행을 지원합니다. 머신 러닝 모델은 분석 서비스에서 실행하거나 Oracle Autonomous AI Lakehouse에서 Oracle Cloud Infrastructure Vision과 같은 웨어하우스 및 OCI AI 서비스의 처리 능력, 확장성, 탄력성을 활용하는 대규모 배치 예측을 위한 OML 내장 모델로 직접 실행할 수 있습니다.

또한 Oracle Analytics Cloud를 사용하면 빠른 설정, 손쉬운 확장 및 패치 적용, 자동화된 라이프사이클 관리 등 유연한 서비스 관리 기능을 이용할 수 있습니다.

학습 및 예측

Oracle Cloud Infrastructure Data Science는 데이터 과학 팀이 Oracle Cloud Infrastructure에서 머신 러닝(ML) 모델을 구축, 교육 및 관리할 수 있도록 인프라, 오픈 소스 기술, 라이브러리, 패키지 및 데이터 과학 툴을 제공합니다. 협업 및 프로젝트 기반 작업 공간은 엔드투엔드 통합 사용자 경험을 제공하고 예측 모델의 수명 주기를 지원합니다.

데이터 과학 작업 기능을 통해 데이터 과학자는 완전 관리형 인프라에서 반복 가능한 머신 러닝 작업을 정의하고 실행할 수 있습니다.

데이터 과학 모델 배포 기능을 통해 데이터 과학자는 학습된 모델을 완전 관리형 HTTP 엔드포인트로 배포하여 실시간으로 예측을 제공하고, 프로세스 및 애플리케이션에 인텔리전스를 주입하고, 비즈니스가 발생 시 관련 이벤트에 대응할 수 있습니다.

Oracle Machine Learning은 Python 및 AutoML을 지원하는 Oracle Autonomous AI Database에 긴밀하게 통합된 강력한 머신 러닝 기능을 제공합니다. 오픈 소스 및 확장 가능한 데이터베이스 내 알고리즘을 사용하여 데이터 준비 및 이동을 줄이는 모델을 지원합니다. AutoML은 데이터 과학자가 자동 알고리즘 선택, 적응형 데이터 샘플링, 자동 기능 선택 및 자동 모델 튜닝을 사용하여 회사의 머신 러닝 이니셔티브의 가치 실현 시간을 단축할 수 있도록 지원합니다. Oracle Autonomous AI Lakehouse에서 제공되는 Oracle Machine Learning 서비스를 사용하면 모델을 관리할 수 있을 뿐만 아니라, 회사 내에서 실시간 예측을 민주화하기 위해 해당 모델을 REST 엔드포인트로 배포할 수도 있습니다. 이를 통해 비즈니스는 사실이 아닌 관련 이벤트에 대응할 수 있습니다.

AI 서비스

Oracle Cloud Infrastructure AI Services 서비스는 텍스트 분석부터 예측 유지 관리에 이르기까지 다양한 사용 사례를 지원하는 데 사용할 수 있는 즉시 사용 가능한 일련의 AI 서비스를 제공합니다. 이러한 서비스에는 API를 사용하여 데이터 파이프라인, 분석 및 애플리케이션에 통합할 수 있는 사전 구축되고 세밀하게 조정된 모델이 있습니다.

Oracle Cloud Infrastructure Anomaly Detection은 비즈니스 중단을 방지하기 위한 조치를 취할 수 있도록 비즈니스 데이터의 바람직하지 않은 이벤트 또는 관찰을 실시간으로 식별할 수 있는 다양한 도구를 제공합니다.

Oracle Cloud Infrastructure Language는 정교한 텍스트 분석을 대규모로 수행합니다. 사전 학습 및 커스터마이징 모델을 통해 개발자는 데이터 과학 전문 지식 없이도 비정형 텍스트를 처리하고 인사이트를 추출할 수 있습니다. 사전 학습 모델은 감정 분석, 핵심 문구 추출, 텍스트 분류 및 명명된 엔티티 인식을 지원합니다. 도메인별 데이터 세트를 사용하여 명명된 엔티티 인식 및 텍스트 분류에 대한 사용자정의 모델을 교육할 수도 있습니다. 번역 서비스를 사용하면 21개의 다른 언어로 텍스트를 번역할 수 있습니다.

Oracle Cloud Infrastructure Speech는 인간의 음성이 포함된 미디어 파일을 매우 정확한 텍스트 필사로 쉽게 변환할 수 있도록 함으로써 음성 언어의 장점을 활용합니다. OCI 음성을 사용하면 고객 서비스 통화를 필사하고, 자막을 자동화하고, 매체 자산의 메타데이터를 생성하여 완전히 검색 가능한 아카이브를 생성할 수 없습니다.

Oracle Cloud Infrastructure Vision은 이미지 분류, 감지 및 얼굴, 텍스트 추출, 테이블 인식과 같은 이미지 인식 및 문서 분석 작업을 수행합니다. 사전 학습된 모델을 활용하거나 산업 및 고객별 시나리오를 위한 커스텀 비전 모델을 손쉽게 생성할 수 있습니다. OCI 비전은 모든 일반적인 컴퓨터 비전 작업을 지원하는 완전 관리형 멀티테넌트 네이티브 클라우드 서비스입니다.

Oracle Cloud Infrastructure Document Understanding은 텍스트 추출 및 테이블 인식과 같은 문서 분석 작업을 수행합니다. OCI Document Understanding 서비스는 모든 일반적인 문서 분석 작업을 지원하는 완전 관리형 멀티테넌트 네이티브 클라우드 서비스입니다.

데이터 강화

데이터 보강은 머신 러닝 모델을 교육하는 데 사용되는 데이터를 개선하여 보다 정확하고 효과적인 예측 결과를 달성할 수 있습니다.

Oracle Cloud Infrastructure Data Labeling을 사용하면 데이터 세트를 생성 및 탐색하고, 데이터 레코드(텍스트 또는 이미지)를 보고, AI/ML 모델을 구축할 목적으로 레이블을 적용할 수 있습니다. 또한 이 서비스는 레이블 지정 프로세스를 지원하도록 설계된 대화식 사용자 인터페이스를 제공합니다. 레코드에 레이블을 지정하면 데이터 세트를 AI/ML 모델 개발에 사용할 라인으로 구분된 JSON으로 익스포트할 수 있습니다.

API

API 계층을 사용하면 Data ScienceOracle Machine Learning에서 파생된 인텔리전스를 애플리케이션, 비즈니스 프로세스 및 운영과 기능에 영향을 주고 개선할 수 있는 기능에 주입할 수 있습니다. API 계층은 Oracle Machine Learning REST 엔드포인트에 Data Science 배포 모델을 안전하게 사용하고 런타임 환경의 가용성을 보장하기 위해 시스템을 제어하는 기능을 제공합니다. 또한 함수를 활용하여 필요에 따라 추가 논리를 수행할 수도 있습니다.

Oracle Cloud Infrastructure API Gateway를 사용하면 네트워크 내에서 액세스할 수 있는 프라이빗 끝점이 있는 API를 게시할 수 있으며, 인터넷 트래픽을 허용하려는 경우 퍼블릭 IP 주소로 노출할 수 있습니다. 엔드포인트는 API 검증, 요청 및 응답 변환, CORS, 인증 및 권한 부여, 요청 제한을 지원합니다. API 관찰 기능을 통해 사용량을 모니터링하고 SLA를 보장할 수 있습니다. 사용 계획을 사용하여 API에 액세스하는 API 소비자 및 API 클라이언트를 모니터링 및 관리하고, API를 사용하여 소비되는 데이터 사용을 추적하기 위해 서로 다른 고객에 대해 서로 다른 액세스 계층을 설정할 수도 있습니다. 사용 계획은 데이터 수익 창출을 지원하는 핵심 기능입니다.

Oracle Cloud Infrastructure Functions는 완전 관리형 멀티테넌트로서 확장성이 뛰어나고 온디맨드 FaaS(Functions-as-a-Service) 플랫폼입니다. 엔터프라이즈급 Oracle Cloud Infrastructure를 기반으로 구축되었으며 Fn Project 오픈 소스 엔진을 기반으로 합니다.

ORDS(Oracle REST Data Services)는 SQL 및 데이터베이스 기술을 보유한 개발자가 Oracle Database용 REST API를 개발할 수 있는 Java 애플리케이션입니다. 모든 애플리케이션 개발자는 클라이언트 드라이버를 설치 및 유지 관리하지 않고도 가장 널리 사용되는 API 기술인 REST를 사용하여 다른 외부 서비스에 액세스하는 것과 동일한 방식으로 모든 언어 환경에서 이러한 API를 사용할 수 있습니다. ORDS는 Oracle Autonomous AI Lakehouse에서 완전 관리형 기능으로 배포되며, 데이터 소비자에게 API를 사용하여 레이크하우스 정보를 노출하는 데 사용할 수 있습니다.

데이터 거버넌스

Oracle Cloud Infrastructure Data Catalog는 메타데이터 및 각 속성과 같은 기술 자산이 상주하는 위치에 대한 가시성을 제공하며 해당 기술 메타데이터에 매핑된 비즈니스 용어집을 유지 관리할 수 있는 기능을 제공합니다. 또한 Oracle Cloud Infrastructure Data CatalogOracle Autonomous AI Lakehouse Warehouse에 메타데이터를 제공하여 데이터 웨어하우스에서 외부 테이블을 쉽게 생성할 수 있습니다.

데이터 보안

데이터 보안은 레이크하우스 데이터를 최대한 탐색하고 사용하는 데 매우 중요합니다. 심층 방어 및 RBAC 기능을 갖춘 제로 트러스트 보안 모델을 활용하고 가장 엄격한 규정 준수를 보장하는 데이터 보안은 예방적, 탐지 및 시정 보안 제어를 제공하여 데이터 유출 및 침해를 방지합니다.

Oracle Data Safe는 데이터 보안에 중점을 둔 완전 통합형 Oracle Cloud 서비스입니다. Oracle Autonomous AI Lakehouse와 같은 Oracle Cloud 데이터베이스에서 규제되는 민감한 데이터를 보호하기 위한 완전하고 통합된 기능 모음을 제공하는 관리형 기능입니다. 기능에는 보안 평가, 유저 평가, 데이터 검색, 데이터 마스킹 및 작업 감사(audit) 등이 포함됩니다.

Oracle Cloud Infrastructure AuditOracle Cloud Infrastructure(OCI) 리소스 및 테넌시와 관련된 활동에 대한 가시성을 제공합니다. 감사 로그 이벤트를 보안 감사에 사용하면 OCI 리소스 사용량 및 변경사항을 추적하고 표준과 규정을 준수할 수 있도록 합니다.

Oracle Cloud Infrastructure Logging은 감사 로그를 포함하여 테넌시의 모든 로그에 대해 확장성이 뛰어나고 완전 관리형 단일 인터페이스를 제공합니다. OCI 로깅을 사용하여 모든 OCI 리소스의 로그에 액세스하면 이를 사용, 관리 및 검색할 수 있습니다.

Oracle Cloud Infrastructure Vault는 암호화 키와 암호를 저장 및 관리하여 리소스에 안전하게 액세스하는 암호화 관리 서비스입니다. 고객 관리 키를 Oracle Autonomous AI Lakehouse 및 데이터 레이크 암호화에 사용하여 유휴 데이터 보호를 강화할 수 있습니다. 이를 통해 비밀은 서비스 및 사용자 자격 증명을 안전하게 저장하여 보안 상태를 개선하고 자격 증명이 손상되어 부적절하게 사용되지 않도록 할 수 있습니다.

물리적 구조

이 데이터 플랫폼의 물리적 아키텍처는 다음을 지원합니다.
  • Oracle Autonomous AI Lakehouse는 Oracle이 관리하는 이기종 연결 기능을 사용하여 통합 데이터 소스에서 데이터를 가져옵니다.
  • Oracle Autonomous AI Lakehouse는 구성된 공용 인터넷에서 액세스할 수 있는 대상 데이터베이스를 사용하며 들어오는 SSL/TLS 연결을 허용하므로 Oracle이 관리하는 이기종 연결로 데이터를 안전하게 연결하고 쿼리할 수 있습니다.
  • Oracle Autonomous AI Lakehouse, 데이터 공유를 사용하여 데이터 브릭에서 데이터 읽기
  • 데이터 블록 데이터 공유는 공용 인터넷을 사용하여 액세스할 수 있지만 데이터 블록에서 제공하는 인증서 파일을 사용하여 보안됩니다.
  • AWS S3, Azure Blob 및 Google Cloud Storage의 데이터는 외부 테이블을 사용하여 온디맨드로 통합 및 읽거나 사용 사례 및 요구 사항에 따라 Oracle Autonomous AI Lakehouse에 복사됩니다.
  • 통합되지 않은 데이터 소스의 데이터는 마이크로 일괄 처리를 사용하고 통합되지 않은 관계형 및 비관계형 데이터 소스의 파일을 사용하여 안전하게 수집됩니다.
  • Oracle Cloud Infrastructure Data IntegrationOracle Cloud Infrastructure Data Flow의 조합을 사용하여 데이터가 처리됩니다.
  • 데이터는 Oracle Autonomous AI LakehouseOracle Cloud Infrastructure Object Storage에 저장되며 품질과 가치에 따라 구성됩니다.
  • Oracle Autonomous AI Lakehouse는 소비자에게 안전하게 웨어하우스, 레이크 및 통합 데이터를 제공합니다.
  • Oracle Analytics Cloud, 시각화를 사용하여 비즈니스 사용자에게 데이터 공개
  • Oracle Analytics CloudOracle Cloud Infrastructure Web Application Firewall(WAF)로 보호되는 Oracle Cloud Infrastructure Load Balancer를 사용하여 인터넷을 사용하여 액세스를 제공하여 노출됩니다.
  • Oracle Cloud Infrastructure Data Science는 머신 러닝(ML) 모델을 구축, 교육 및 배포하는 데 사용됩니다.
  • Oracle Cloud Infrastructure API GatewayData Science ML 모델 배포를 제어하는 데 활용됩니다.
  • Oracle Cloud Infrastructure Data CatalogOracle Autonomous AI Lakehouse 및 객체 스토리지에서 메타데이터를 수집합니다.
  • Oracle Cloud Infrastructure Bastion은 관리자가 프라이빗 클라우드 리소스를 관리하는 데 사용됩니다.

다음 다이어그램은 구조를 보여줍니다.



데이터 플랫폼 연합-물리적-오라클-1.zip#GUID-3A90BC57-5F07-494F-B23D-7E50E7D1ED7A

물리적 구조를 위한 설계:

  • 허브용 VCN 2개와 워크로드 자체용 VCN 1개 활용
  • 온프레미스 연결은 중복성을 위해 Oracle Cloud Infrastructure FastConnectOracle Cloud Infrastructure Site-to-Site VPN을 모두 활용합니다.
  • 온프레미스 및 인터넷에서 수신되는 모든 트래픽이 먼저 허브 VCN으로 라우팅된 다음 워크로드 VCN으로 라우팅됩니다.
  • 전송 중 및 미사용 상태의 모든 데이터 보안
  • 보안 태세를 높이기 위해 전용 엔드포인트로 서비스가 배포됩니다.
  • VCN은 보안 상태를 높이기 위해 여러 전용 서브넷으로 분리됩니다.
  • 메달링 아키텍처를 활용하여 레이크 데이터를 객체 스토리지의 여러 버킷으로 분리
  • 통합 데이터 소스 및 클라우드 저장소는 공용 연결과 워크로드 VCN에 연결된 NAT 게이트웨이를 사용하여 액세스합니다.

단순성을 위해 이 배포에 명시되지 않은 잠재적인 설계 개선 사항은 다음과 같습니다.

  • Oracle Database Gateway를 사용하여 고객 관리형 이기종 연결을 활용하여 개인 연결을 사용하여 통합 데이터 소스에 연결
  • 전체 CIS 준수 랜딩 존 활용
  • 모든 트래픽을 검사하고 정책을 적용하여 네트워크 방화벽을 활용하여 전반적인 보안 상태를 개선합니다.

권장사항

다음 권장 사항을 비즈니스 분석 및 머신 러닝을 위해 이기종 데이터 소스의 데이터를 사용하는 시작점으로 사용합니다.

요구 사항은 여기에 설명된 아키텍처와 다를 수 있습니다.

Oracle Autonomous AI Lakehouse

이 아키텍처는 공유 인프라에서 Oracle Autonomous AI Lakehouse를 사용합니다.

  • 통합 데이터에 액세스할 때는 Materialized view를 사용하여 성능을 높이십시오.
  • 통합 데이터가 정지되지 않도록 하려면 필요한 빈도로 구체화된 뷰를 새로 고치는 것이 좋습니다.
  • 데이터 거버넌스 향상을 위해 Oracle Cloud Infrastructure Data Catalog에서 이러한 뷰를 수집 및 카탈로그화할 수 있도록 통합 소스의 데이터베이스 링크를 사용하여 데이터를 질의할 뷰를 생성하는 것이 좋습니다.
  • 보안 상태를 높이려면 Oracle Cloud Infrastructure Vault의 암호에 통합 데이터 소스 인증서를 저장하는 것이 좋습니다.
  • 데이터 보안을 강화하기 위해 통합 데이터를 표시하는 뷰에서 개정(동적 데이터 마스킹)과 같은 자율운영 AI 데이터베이스 보안 기능을 사용하는 것이 좋습니다.
  • 데이터 공유를 사용하여 델타 공유 오픈 프로토콜과 호환되는 이기종 데이터 소스의 통합 데이터를 소비하는 것이 좋습니다.
  • 데이터 공유를 사용하여 Delta Sharing 개방형 프로토콜과 호환되는 소비자에게 선별된 데이터를 공유하는 것이 좋습니다.
  • 고객 관리형 이기종 연결을 Oracle Database Gateway와 함께 사용하여 보안 강화, 대기 시간 단축 또는 두 가지 모두가 필요한 전용 연결 기능을 갖춘 통합 데이터 소스에 연결하는 것이 좋습니다.

Oracle Analytics Cloud

이 아키텍처는 최종 사용자에게 증강 분석을 제공하기 위해 Oracle Analytics Cloud(OAC)를 활용합니다.

  • Oracle Autonomous AI Lakehouse에서 사용하는 통합 데이터 소스를 보완하기 위해 OAC의 다양한 데이터 소스를 사용하는 것이 좋습니다.
  • Oracle Autonomous AI Lakehouse에서 OAC에 필요한 데이터 소스를 통합하여 성능 향상, 캐싱, 서빙 엔진으로의 오프로드 처리, 분석 시맨틱 계층의 간소화를 고려해 보세요.

이 아키텍처는 아키텍처에 적용할 수 있는 권장 사항을 포함하는 데이터 레이크하우스 참조 아키텍처를 사용합니다. 레이크하우스 참조 아키텍처 및 기타 리소스에 대한 링크는 자세히 살펴보기 섹션을 참조하십시오.

고려사항

분석을 위해 데이터를 통합할 때는 다음 구현 옵션을 고려하십시오.

가이드 권장사항 기타 옵션 근거
데이터 변환 모듈

Oracle Cloud Infrastructure Data Integration

  • Oracle Data Integrator
  • Oracle Autonomous Database 데이터 변환

Oracle Cloud Infrastructure Data Integration은 확장 가능하고 비용 효율적인 클라우드 네이티브 서버리스 완전 관리형 ETL 플랫폼을 제공합니다.

데이터 지속성
  • Oracle Autonomous AI Lakehouse
  • Oracle Cloud Infrastructure Object Storage
Oracle Exadata Database Service

Oracle Autonomous AI Lakehouse는 탄력적으로 확장되고 빠른 쿼리 성능을 제공하는 데이터베이스 관리가 필요 없는, 사용이 간편하고 완전히 자율적인 데이터베이스입니다. 또한 오브젝트 스토리지 외부 또는 하이브리드 분할 테이블의 데이터에 대한 직접 액세스를 제공합니다.

Oracle Cloud Infrastructure Object Storage는 무제한 데이터를 원시 형식으로 저장합니다.

데이터 프로세싱
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure Data Flow
타사 도구

Oracle Cloud Infrastructure Data Integration은 확장 가능하고 비용 효율적인 클라우드 네이티브 서버리스 완전 관리형 ETL 플랫폼을 제공합니다.

Oracle Cloud Infrastructure Data Flow는 매우 탄력적인 종량제 모델을 사용하여 대규모 데이터를 처리할 수 있는 서버리스 Spark 환경을 제공합니다.

액세스 및 해석
  • Oracle Analytics Cloud
  • Oracle Cloud Infrastructure Data Science
  • Oracle Machine Learning
  • Oracle Cloud Infrastructure AI 서비스
타사 도구

Oracle Analytics CloudOracle Autonomous AI Lakehouse에서 엄선된 데이터와 완벽하게 관리되고 긴밀하게 통합됩니다.

데이터 과학은 데이터 과학 팀이 Oracle Cloud Infrastructure에서 머신 러닝(ML) 모델을 구축, 교육 및 관리할 수 있는 완전 관리형 셀프 서비스 플랫폼입니다. 데이터 과학 서비스는 AutoML 및 모델 배포 기능과 같은 인프라 및 데이터 과학 툴을 제공합니다.

Oracle Machine LearningOracle Autonomous AI Lakehouse에서 사용할 수 있는 데이터 과학을 위한 완전 관리형 셀프 서비스 플랫폼으로, 웨어하우스 외부로 데이터를 이동할 필요 없이 웨어하우스의 처리 기능을 활용하여 대규모 ML 모델을 구축, 교육, 테스트 및 배포할 수 있습니다.

Oracle Cloud Infrastructure AI 서비스는 잠재적인 이상 징후 추론 또는 정서 감지와 같은 작업을 수행하기 위해 특별히 구축 및 훈련된 사전 구축된 모델을 제공하는 서비스 세트입니다.

승인

  • Author: José Cruz
  • Contributors: Robert Lies