템플리트에서 사전 구축된 작업으로 안전한 OCI Data Integration 환경 구축

Oracle Cloud Infrastructure Data Integration(OCI Data Integration) Service를 사용하여 외부 소스에서 대상 Oracle Autonomous Data Warehouse 데이터 저장소로 안전하고 확장 가능한 데이터 처리 작업을 구축합니다.

이 참조 아키텍처에서는 기업이 이미 일부 애플리케이션을 클라우드로 마이그레이션하려고 시도하는 동안 비즈니스 데이터가 온프레미스 데이터 저장소에 분산되는 시나리오를 고려하고 있습니다. OCI Data Integration은 안전하고 확장 가능한 방식으로 OCI 패브릭에 있는 네트워크 및 데이터 저장소 연결을 활용하여 기존 온프레미스 및 기타 클라우드에서 모든 기능을 확장할 수 있습니다.

구조

이 구조는 위의 시나리오에 포함될 수 있는 여러 구성 요소를 나타냅니다.

멀티클라우드 전략의 경우 OCI가 다른 클라우드 제공업체와의 연결을 위한 아키텍처 참조를 제공하는 다른 클라우드 제공업체의 기술과 데이터 서비스가 발생할 수 있습니다. 온프레미스 데이터 저장소는 파일에 저장된 데이터에서 ERP의 프로세스 기반 데이터 세트에 이르기까지 여러 기술에 따라 다릅니다.

다음 다이어그램은 참조 아키텍처 및 데이터 여정을 보여 줍니다.



oci-data-integration-flow-oracle.zip

다음은 다운스트림 데이터베이스 또는 레이크하우스에 저장된 대상 정보의 일부가 되기 위해 데이터를 안전하게 수집, 처리 및 강화하는 단계입니다.

  1. Oracle Cloud Infrastructure FastConnect 또는 사이트 간 VPN을 통해 OCI Data Integration Data Assets 커넥터를 사용하여 온프레미스 데이터 소스를 수집할 수 있습니다.
  2. Similarly, data sources that are reachable by the OCI Data Integration Data Assets connectors can be used to pull datasets residing in the other clouds (for example, custom applications, non-Oracle applications, Oracle databases running on third-party clouds, Oracle Fusion SaaS, third-party cloud services, and applications). OCI Data Integration Data Asset 커넥터를 통해 직접 액세스할 수 없을 때마다 대량 로드 파일에서 Oracle Cloud Infrastructure Object Storage 버킷으로 데이터를 업로드할 수도 있습니다.

    Oracle은 Microsoft Azure, Amazon Web Services 및 Google Cloud Platform과 같은 다른 클라우드 제공업체를 위한 특정 클라우드 연결 솔루션을 개발했습니다. 수직 클라우드 상호 운용성이 없는 경우 NAT 게이트웨이를 통해 서비스 또는 애플리케이션 연결을 안전하게 수행할 수 있으므로 인터넷으로의 아웃바운드 트래픽만 허용됩니다. OCI는 엔드포인트에 대한 엔드투엔드 연결을 암호화하여 인터넷의 데이터 노출을 완화합니다. 그러나 입수 과정에서 OCI Data Integration Pipelines는 Oracle GoldenGate를 통해 대량 실시간 데이터 스트리밍 및 데이터 소스 복제와 같은 다른 유형의 데이터 수신을 통합관리할 수 있습니다. OCI 서비스에 REST API 호출을 호출하는 통합관리 기능은 OCI Object Storage 버킷의 파일 변경 사항 감지를 활용하고 이벤트 및 통합 기능과 결합하여 수집 데이터 스트림을 까다로울 수 있습니다.

  3. 데이터가 OCI 패브릭으로 수집되면 인터넷 액세스로부터 더욱 격리될 수 있는 배타적 VCN(가상 클라우드 네트워크)에서 처리됩니다. 데이터 플로우를 통한 데이터 통합 서비스(OCI Data Integration)는 코드 없는 인터페이스, 매핑 소스 및 대상 엔티티, 각각의 변환에서 여러 변환을 수행할 수 있습니다. 동시에 데이터 변환이 발생하면 OCI Data Catalog 서비스는 카탈로그화를 수행하여 계보를 제공합니다. Oracle Databases의 유휴 데이터는 개인정보 보호 및 규정 준수를 위한 규제가 적용될 수 있습니다. Oracle Data Safe는 데이터베이스 보안 상태를 평가하고 위험을 식별 및 분류하며 결과적으로 민감한 것으로 간주되는 정보를 마스킹합니다. 데이터 및 정보 안전을 위한 또 다른 리소스인 OCI Vault는 계정 정보 및 암호와 같은 키 및 암호를 저장 및 관리하고, 암호화하고, 전체 데이터 보안 프로세스를 간소화하는 서비스를 제공합니다.
  4. OCI Data Integration Pipelines 및 OCI Data Integration Dataflows가 데이터 자산의 보강을 촉진하는 동안 REST 운영자는 다른 OCI 서비스에 대한 액세스를 보호할 수도 있습니다. 이 용량에서 OCI Data Integration Orchestration은 머신 러닝을 위해 데이터 과학에서 노트북을 호출하거나, 예측 또는 변형 감지로 데이터를 보강하기 위해 인공 지능 서비스를 조사할 수 있습니다. OCI Data Integration Orchestration은 동일한 보안 OCI 패브릭을 통해 OCI Data Flow를 사용하여 광범위한 데이터 처리를 버스팅하기 위해 Spark 엔진을 스핀할 수 있습니다. 모니터링, 로깅 및 통지와 같은 모든 통합관리 관리는 정확한 메커니즘을 통해 통합됩니다.
  5. OCI Data Integration은 OCI 또는 온프레미스 내의 모든 Oracle 저장소에 기록되며 OCI 데이터 레이크 조합 및 MySQL에도 기록됩니다. 애널리틱스는 데이터 시각화, 비즈니스 모델링 및 픽셀 퍼펙트 보고를 위해 광범위한 리소스를 갖춘 대상 스토어를 즉시 활용합니다.
  6. 데이터 소비자, 생산자 및 개발자는 데이터 및 리소스 액세스 제어에 대한 세분화된 정책으로 안전하게 구성됩니다.

다음 아키텍처 다이어그램은 제안된 네트워크 서브넷 분리를 고려하여 구현에 대해 자세히 설명합니다.



oci-data-integration-arch-oracle.zip

OCI Data Integration 서비스는 여러 데이터 소스에 즉시 사용 가능한 연결을 제공하며, 마이크로 일괄 처리는 OCI 환경에 증분 방식으로 데이터를 처리할 수 있습니다. 마찬가지로 다른 OCI 서비스를 호출하여 데이터세트를 더욱 보강하고 선별할 수 있습니다.

  • 일괄 처리는 OCI Object Storage와 원활하게 통합되고 데이터 집계 및 보강, 데이터 웨어하우스 수집, 머신 러닝 및 AI 데이터 사용과 같은 사용 사례에 대해 선별된 데이터를 대규모로 생성할 수 있는 OCI 네이티브 서비스를 활용하여 소스 시스템에서 대규모 데이터 세트를 변환합니다.
  • OCI Data Integration은 다양한 데이터 소스에서 Autonomous Data Warehouse 및 OCI Object Storage와 같은 대상 Oracle Cloud Infrastructure 서비스로 데이터를 추출, 로드, 변환, 정리 및 재구성하는 완전 관리형 서버리스 클라우드 전용 서비스입니다.
  • OCI Data Integration orchestrates the dependencies within the processing data flows but also with the remaining Oracle Cloud Infrastructure services, such as OCI Artificial Intelligence and Oracle Machine Learning for data enrichment or further classification and Data Safe for data security and compliance. 세부적으로 액세스를 제어하는 정책은 서비스 간 인증 및 권한 부여를 유지 관리합니다.
  • OCI Data Integration 애플리케이션 템플리트는 즉시 사용할 수 있는 일련의 OCI 데이터 통합 작업(REST(API), SQL, 통합(데이터 플로우) 및 파이프라인을 제공합니다. 작업은 완전히 파라미터화되어 직접 사용할 수 있습니다. 새 프로젝트 및 폴더에 작업을 저장할 수도 있으므로 추가 구현 세부정보를 수용하도록 설계를 수정할 수 있습니다.

아키텍처에는 다음과 같은 구성 요소가 있습니다.

  • 지역

    Oracle Cloud Infrastructure 리전은 가용성 도메인이라는 하나 이상의 데이터 센터를 포함하는 지역화된 지리적 영역입니다. 지역은 다른 지역과 독립적이며 방대한 거리로 구분할 수 있습니다(국가 또는 대륙).

  • VCN(가상 클라우드 네트워크) 및 서브넷

    VCN은 Oracle Cloud Infrastructure 지역에서 설정한 커스터마이징 가능한 소프트웨어 정의 네트워크입니다. 기존 데이터 센터 네트워크와 마찬가지로 VCN은 사용자가 네트워크 환경을 완전히 제어할 수 있도록 합니다. VCN에는 VCN을 생성한 후 변경할 수 있는 겹치지 않는 여러 CIDR 블록이 있을 수 있습니다. VCN을 서브넷으로 분할할 수 있습니다. 서브넷은 지역 또는 가용성 도메인으로 범위가 지정될 수 있습니다. 각 서브넷은 VCN의 다른 서브넷과 겹치지 않는 연속된 주소 범위로 구성됩니다. 서브넷 생성 후 서브넷의 크기를 변경할 수 있습니다. 서브넷은 공용 또는 전용일 수 있습니다.

  • 데이터 통합

    Oracle Cloud Infrastructure Data Integration은 전담 관리, 다중 테넌트, 서버리스, 네이티브 클라우드 서비스로, 다양한 소스의 데이터 수집, 정리, 변환 및 재구성, OCI의 대상 데이터 소스에 효율적으로 로드하는 등 일반적인 ETL 작업을 지원합니다.

    다양한 소스(예: Amazon Redshift, Azure SQL Database, Amazon S3)에서 Object Storage 및 Autonomous Data Warehouse로의 데이터 수집은 이 프로세스의 첫 단계입니다.

  • 객체 스토리지

    객체 스토리지를 사용하면 데이터베이스 백업, 분석 데이터, 이미지 및 비디오와 같은 리치 콘텐츠 등 모든 콘텐츠 유형의 대량의 구조적 및 비구조적 데이터에 빠르게 액세스할 수 있습니다. 인터넷 또는 클라우드 플랫폼 내에서 직접 안전하고 안전하게 데이터를 저장하고 검색할 수 있습니다. 성능 또는 서비스 안정성의 저하 없이 스토리지를 원활하게 확장할 수 있습니다. 빠르고 즉각적이며 자주 액세스하는 데 필요한 "핫" 스토리지에 표준 스토리지를 사용합니다. 장기간 보존하고 거의 액세스하지 않는 "콜드" 스토리지에 아카이브 스토리지를 사용합니다.

  • Data Science

    Oracle Cloud Infrastructure Data Science는 데이터 과학 팀이 Oracle Cloud Infrastructure(OCI)에서 머신 러닝(ML) 모델을 구축, 교육 및 관리하는 데 사용할 수 있는 전담 관리 서버리스 플랫폼입니다. Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage 등과 같은 다른 OCI 서비스와 손쉽게 통합할 수 있습니다. 엔터프라이즈 신뢰할 수 있는 데이터를 신속하게 작동하여 비즈니스 유연성을 높이는 고품질 머신 러닝 모델을 구축하고 평가할 수 있으며 ML 모델을 보다 쉽게 배포하여 데이터 기반 비즈니스 목표를 지원할 수 있습니다.

  • Oracle Machine Learning

    Oracle Machine Learning은 데이터베이스의 데이터 모델을 구축, 교육 및 배포할 수 있는 기능을 제공합니다. Oracle Machine Learning은 데이터 과학자가 OML4Py Python 클라이언트 라이브러리를 사용하여 모델을 교육할 수 있는 Zeppelin 노트북 인터페이스를 제공합니다. 또한 Oracle Machine Learning은 AutoML UI를 통해 모델 교육에 대한 노코드 접근 방식을 제공합니다. REST API로 모델을 배포하는 작업은 Oracle Machine Learning Services를 통해 수행할 수 있습니다. 그러나 오픈 소스 소프트웨어에 대한 지원은 제한적입니다.

  • AI 서비스

    Oracle Cloud Infrastructure AI 서비스는 언어, 비전, 음성, 의사결정 및 예측에 걸친 사용 사례에 대해 사전 학습되고 커스터마이징 가능한 모델 API 모음을 제공합니다. AI 서비스는 REST API 엔드포인트를 통해 접근할 수 있는 모델 예측을 제공합니다. 이러한 서비스는 최첨단 사전 학습 모델을 제공하며 서비스 1-6을 사용하여 맞춤형 머신 러닝 모델을 교육하기 전에 고려하고 평가해야 합니다. 또는 Oracle Machine Learning 서비스는 언어(주제, 키워드, 요약, 유사성) 및 비전을 위한 일련의 사전 학습 모델도 제공합니다.

  • Data Safe

    Oracle Data Safe는 완전히 통합된 지역 클라우드 서비스로, Oracle 데이터베이스에서 규제되는 중요한 데이터를 보호하기 위한 완전한 기능 집합을 제공합니다. Data Safe는 온프레미스 데이터베이스, Oracle Exadata Database Service on Cloud@Customer 및 멀티클라우드 배포도 지원합니다. 모든 Oracle Database 고객은 Oracle Data Safe를 사용하여 구성 및 사용자 위험을 평가하고, 사용자 활동을 모니터링 및 감사하며, 민감한 데이터를 검색, 분류 및 마스킹함으로써 데이터 침해 위험을 줄이고 규정 준수를 간소화할 수 있습니다.

  • Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse는 데이터 웨어하우징 워크로드에 최적화된 자동 구동, 자가 보안, 자가 복구 데이터베이스 서비스입니다. 하드웨어를 구성 또는 관리하거나 소프트웨어를 설치하지 않아도 됩니다. Oracle Cloud Infrastructure는 데이터베이스 생성과 데이터베이스 백업, 패치, 업그레이드 및 튜닝을 처리합니다.

권장 사항

다음 권장 사항을 시작점으로 사용하십시오. 요구 사항은 여기에 설명된 아키텍처와 다를 수 있습니다.
  • VCN

    VCN을 생성할 때 필요한 CIDR 블록 수와 VCN의 서브넷에 연결하려는 리소스 수를 기반으로 각 블록의 크기를 결정합니다. 표준 전용 IP 주소 공간 내에 있는 CIDR 블록을 사용합니다.

    전용 접속을 설정하려는 다른 네트워크(Oracle Cloud Infrastructure, 온프레미스 데이터 센터 또는 다른 클라우드 제공자)와 겹치지 않는 CIDR 블록을 선택합니다.

    VCN을 생성한 후 해당 CIDR 블록을 변경, 추가 및 제거할 수 있습니다.

    서브넷을 설계할 때 트래픽 흐름 및 보안 요구 사항을 고려합니다. 특정 계층 또는 역할 내의 모든 리소스를 보안 경계로 사용할 수 있는 동일한 서브넷에 연결합니다.

  • OCI Data Integration 템플리트

    템플리트 작업을 사용하거나 재사용하여 많은 일상적인 관리 작업을 쉽게 자동화할 수 있습니다. 또한 템플릿은 데이터 엔지니어를 지원하기 위해 맞춤화된 개별 작업 세트를 제공하여 OCI Data Integration 데이터 처리 및 관리 기능을 확장합니다. 문서 분류를 위해 Oracle Cloud Infrastructure AI Services, 저장할 콘텐츠를 마스킹하기 위한 Oracle Data Safe, Autonomous Data Warehouse에 대한 증분 피드의 제어 및 보고와 같은 다른 OCI 서비스를 호출하는 사용 사례는 OCI Data Integration 사용 편의성을 위한 템플릿 빌딩 블록입니다.

    현재 사용 가능한 템플리트 목록은 다음과 같습니다.

    • Oracle Object Store 관리

      오브젝트 스토리지에서 오브젝트를 복사, 삭제 및 이름 바꾸고 버킷을 생성 및 삭제하기 위한 REST 작업이 포함된 애플리케이션입니다.

    • Oracle Vision 이미지

      OCI Vision 이미지 분석을 수행하기 위한 REST 태스크가 있는 애플리케이션입니다. 이 작업에는 이미지 분류, 객체 감지 및 이미지 텍스트 감지가 포함됩니다.

    • Oracle Vision 문서

      OCI Vision 문서 AI 수행을 위한 REST 태스크가 포함된 애플리케이션입니다. 작업에는 문서 분류, 문서 키-값 감지, 문서 언어 분류, 문서 테이블 감지 및 문서 텍스트 감지가 포함됩니다.

    • Oracle DataSafe 마스킹

      Oracle Data Safe 민감한 모델을 생성하고 대상 Oracle 데이터베이스 스키마에서 마스킹을 생성하기 위한 매개변수화된 작업이 포함된 애플리케이션입니다.

    • Oracle Object Storage에서 ADW로 파일 로드

      OCI Object Storage에서 Autonomous Data Warehouse로 다양한 파일 유형을 로드하는 작업이 포함된 애플리케이션: JSON, Parquet, CSV, Avro.

    • Oracle Database-Autonomous Data Warehouse 증분 로드(고객 관리)

      Autonomous Data Warehouse 대상 스키마에 저장된 메타데이터 테이블의 마지막 실행을 기반으로 증분 태스크를 실행할 수 있도록 허용하는 애플리케이션입니다.

    • Oracle Fusion Applications, Oracle Business Intelligence Publisher(BIP)를 사용하여 ADW 증분 로드

      Oracle Business Intelligence Publisher(BIP) 보고서를 사용하는 Oracle Fusion Applications가 Autonomous Data Warehouse 대상 스키마에 저장된 메타데이터 테이블에서 최종 실행을 기반으로 추출을 실행하고 보고할 수 있도록 허용하는 애플리케이션입니다.

고려 사항

분석 및 머신 러닝을 위해 애플리케이션 데이터를 수집, 처리 및 선별할 때 다음 구현 옵션을 고려하십시오.

  • 데이터 처리
    • Oracle Cloud Infrastructure Data Integration은 확장 가능하고 비용 효율적인 클라우드 네이티브 서버리스 완전 관리형 ETL 플랫폼을 제공합니다.
    • Oracle Cloud Infrastructure Data Flow는 서버리스 Spark 환경을 제공하여 사용량 기준 지불 방식의 탄력적인 모델을 통해 대규모 데이터를 처리합니다.
    • Oracle Cloud Infrastructure Big Data Service는 엔드투엔드 보안, 고성능, 관리 및 업그레이드 용이성을 갖춘 엔터프라이즈급 Hadoop-as-a-service를 제공합니다.
  • 데이터 지속성
    • Oracle Autonomous Data Warehouse는 탄력적으로 확장되고 빠른 질의 성능을 제공하며 데이터베이스 관리가 필요 없는, 사용이 간편하고 완전히 자율적인 데이터베이스입니다. 또한 오브젝트 스토리지 외부 또는 하이브리드 분할 테이블의 데이터에 대한 직접 액세스를 제공합니다.
    • Oracle Cloud Infrastructure Object Storage는 무제한 데이터를 원시 형식으로 저장합니다.
  • 데이터 정제

    Oracle Cloud Infrastructure Data Integration은 확장 가능하고 비용 효율적인 클라우드 네이티브 서버리스 완전 관리형 ETL 플랫폼을 제공합니다.

배치

이 참조 아키텍처에 대한 Terraform 코드는 GitHub에서 사용할 수 있습니다.

  1. GitHub으로 이동합니다.
  2. 저장소를 로컬 컴퓨터로 복제하거나 다운로드합니다.
  3. README 문서의 지침을 따릅니다.

수락

  • Author: Mario Miola