데이터 플랫폼 - 복잡한 통합이 포함된 데이터 웨어하우스

엔터프라이즈 애플리케이션 데이터는 기업 전반의 여러 시스템에 분산되는 경우가 많으며, 실행 가능한 통찰력을 도출하기 위해 쉽게 통합 및 분석할 수 없습니다.

이 참조 아키텍처는 엔터프라이즈 애플리케이션 데이터를 다른 소스의 원시 데이터로 강화하고 머신 러닝 모델을 사용하여 인텔리전스 및 예측 통찰력을 비즈니스 프로세스에 가져올 수 있는 프레임워크를 제공합니다.

이 참조 아키텍처는 전체 비즈니스 컨텍스트 내에서 기술 솔루션을 포지셔닝합니다.

그림 data-driven-business-context.png에 대한 설명

부서에서 여러 소스의 데이터를 데이터 마트에 통합하여 타깃별 통찰력을 확보함에 따라 기업 데이터 웨어하우스는 변경 및 적응하여 사용 가능한 데이터 마트와 기타 정형 및 비정형 소스를 활용할 수 있어야 합니다.

데이터 웨어하우스는 분석 작업 로드를 트랜잭션 작업 로드와 구분하고 조직에서 여러 소스의 데이터를 통합할 수 있도록 합니다. 이를 통해 트랜잭션 시스템 변경 시에도 영향을 미칠 수 있는 비즈니스 중심 형식의 기록 데이터를 쿼리하고 분석할 수 있습니다. 머신 러닝 및 예측 분석을 위해 분산된 데이터를 활용하는 것은 인텔리전스를 비즈니스 프로세스에 활용하기 위한 핵심 열쇠입니다. 지능형 비즈니스 프로세스를 통해 적합한 고객에게 적합한 채널에서 적합한 제품을 추천하거나 잠재적 사기 행위를 감지하는 등 중요한 비즈니스 이벤트를 사전에 관리할 수 있습니다.

구조

이 아키텍처는 분석 및 머신 러닝을 위한 애플리케이션 데이터를 수집 및 결합하여 실행 가능한 통찰력을 제공합니다.

다음은 oci-polyglot-architecture.png에 대한 설명입니다.

그림 oci-polyglot-architecture.png에 대한 설명

oci-polyglot-architecture-oracle.zip

다음 다이어그램은 모범 사례를 사용하여 위의 아키텍처와 OCI(Oracle Cloud Infrastructure)에 제공된 서비스를 매핑하는 것을 보여줍니다.

다음은 oci-polyglot-physical-arch.png에 대한 설명입니다.

그림 oci-polyglot-physical-arch.png에 대한 설명

oci-polyglot-physical-arch-oracle.zip

이 구조는 다음 논리적 분할에 중점을 둡니다.

수집, 변환
아키텍처의 각 데이터 계층에서 사용할 데이터를 수집 및 세분화합니다.
유지, 선별, 생성
데이터의 액세스 및 탐색을 용이하게 하여 현재 및 과거 비즈니스 뷰를 표시합니다. 여기에는 원시 데이터와 세분화된 곡선 및 집계된 곡선 데이터가 모두 포함됩니다. 관계형 기술의 경우 데이터는 단순 관계형, 긴칭, 차원 또는 OLAP 형식으로 논리적 또는 물리적으로 구조화될 수 있습니다. 비관계형 데이터의 경우 이 계층에는 분석 프로세스의 출력 또는 특정 분석 작업에 최적화된 데이터 등 하나 이상의 데이터 풀이 포함되어 있습니다.
분석, 학습, 예측
소비자에 대한 데이터의 논리적 비즈니스 뷰를 요약합니다. 이 추상화는 개발, 대상 아키텍처로의 마이그레이션 및 여러 통합 소스에서 단일 보고 계층의 프로비저닝에 대한 민첩한 접근 방식을 지원합니다.

구조에는 다음과 같은 구성 요소가 있습니다.

뱃치 수집
뱃치 수집은 실시간으로 수집될 수 없거나 실시간 수집에 적용하기에 비용이 너무 많이 드는 데이터에 유용합니다. 또한 데이터를 안정적이고 신뢰할 수 있는 정보로 변환하여 정기적으로 사용할 수 있도록 조정하고 보존하는 것도 중요합니다. 다음 서비스를 함께 또는 독립적으로 사용하여 유연성과 효과적인 데이터 통합 및 변환 워크플로우를 구현할 수 있습니다.
- Oracle Cloud Infrastructure Data Integration은 다양한 데이터 소스에서 Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage 등의 대상 Oracle Cloud Infrastructure 서비스로 데이터를 추출, 로드, 변환 및 조정하는 서버 미사용 클라우드 전용 서비스입니다. ETL(변환 로드 추출)은 Spark에서 완전히 관리되는 수평 확장 처리를 활용하며, ELT(로드 변환 추출)는 데이터 이동을 최소화하고 새로 수집된 데이터에 대한 가치 창출 시간을 단축하기 위해 Autonomous Data Warehouse의 전체 SQL 푸시다운 기능을 활용합니다. 사용자는 직관적인 코드 없는 사용자 인터페이스를 통해 데이터 통합 프로세스를 설계하므로 통합 플로우를 최적화하여 가장 효율적인 엔진 및 통합관리를 생성하고 실행 환경을 자동으로 할당하고 확장할 수 있습니다. Oracle Cloud Infrastructure Data Integration은 대화식 탐색 및 데이터 준비를 제공하며 데이터 엔지니어가 스키마 변경 사항을 처리하는 규칙을 정의하여 스키마 드리프트로부터 데이터를 보호할 수 있도록 지원합니다.
- Oracle Data Transforms는 Oracle Autonomous Database 데이터베이스 작업(Data Studio)에서 배포할 수 있는 Oracle Data Integrator(ODI) 통합 툴을 기반으로 합니다. 이 솔루션은 복잡한 데이터 웨어하우스 작성, 배치 및 관리를 위한 완전한 통합형 솔루션 또는 SOA 또는 비즈니스 인텔리전스 환경의 데이터 중심 구조의 일부분을 제공합니다. 또한 데이터 통합, 데이터 이동, 데이터 동기화, 데이터 품질 및 데이터 관리의 모든 요소를 결합하여 복잡한 시스템 전반에 걸쳐 정보가 적시에 정확하고 일관성 있게 유지되도록 보장합니다.
  
  Oracle Data Integrator는 고볼륨의 고성능 배치 로드에서 이벤트 중심의 까다로운 통합 프로세스에 이르기까지 SOA 지원 데이터 서비스에 종합적인 데이터 통합을 제공합니다. 선언적 설계 방식은 보다 빠르고 간편하게 개발 및 유지 관리할 수 있도록 하며{\f2732 , }로드 변환{\f2732 (ELT)}을 추출하는 고유한 방식을 제공합니다{\f2732 . }이 방식은 데이터 변환 및 검증 프로세스에 사용할 수 있는 최고 수준의 성능을 보장하는 데 도움이 됩니다{\f2732 .} Oracle 데이터 변환에서는 웹 인터페이스를 사용하여 ELT의 구성 및 실행을 간소화하고 사용자가 선언적 설계 방식을 사용하여 데이터와 작업 흐름을 작성 및 스케줄링할 수 있도록 지원합니다.
사용 사례에 따라 이러한 구성요소를 독립적으로 또는 함께 사용하여 매우 유연하고 성능이 뛰어난 데이터 통합 및 변환을 수행할 수 있습니다.
실시간 수집

Oracle Cloud Infrastructure GoldenGate는 온프레미스 또는 모든 클라우드에서 소스로부터 데이터를 입수할 수 있도록 하는 전담 관리 서비스로, GoldenGate CDC 기술을 활용하여 비침입적이고 효율적인 데이터 캡처와 Oracle Autonomous Data Warehouse로 실시간으로 효율적으로 데이터를 수집하여 소비자에게 관련 정보를 신속하게 제공할 수 있습니다.
Autonomous Data Warehouse
Oracle Autonomous Data Warehouse는 데이터 웨어하우징 워크로드에 최적화된 자동 구동의 자가 보안 및 자가 복구 데이터베이스 서비스입니다. 하드웨어를 구성 또는 관리하거나 소프트웨어를 설치할 필요가 없습니다. Oracle Cloud Infrastructure는 데이터베이스 생성과 데이터베이스 백업, 패치, 업그레이드 및 조정을 처리합니다.

객체 스토리지에 상주하는 대량 또는 콜드 스토리지 데이터는 외부 테이블 및 하이브리드 파티션 테이블로 웨어하우스 데이터와 조인될 수 있습니다.

Autonomous Data Warehouse는 이전에 수집된 메타 데이터를 사용하여 외부 테이블을 생성하고, 데이터 카탈로그의 메타 데이터 업데이트를 외부 테이블 정의와 자동으로 동기화하여 일관성을 유지하고 관리를 간소화하며 노력을 줄일 수 있습니다.

또한 Oracle Autonomous Database의 구성요소인 Data Lake Accelerator는 오브젝트 스토리지 데이터를 원활하게 소비하고, 빠른 쿼리를 제공하기 위해 처리를 확장하며, 필요할 때 데이터베이스 컴퓨트 인스턴스를 자동 스케일링하고, 데이터베이스 컴퓨트 인스턴스에서 오브젝트 스토리지 쿼리를 격리하여 데이터베이스 워크로드에 미치는 영향을 줄일 수 있습니다.
객체 스토리지
오브젝트 스토리지를 사용하면 데이터베이스 백업, 분석 데이터, 이미지 및 비디오와 같은 리치 컨텐츠를 비롯한 모든 컨텐츠 유형의 대규모 정형 및 비정형 데이터에 빠르게 접근할 수 있습니다. 인터넷 또는 클라우드 플랫폼 내에서 직접 안전하게 데이터를 저장하고 검색할 수 있습니다. 성능 또는 서비스 신뢰성이 저하되지 않고 스토리지를 원활하게 확장할 수 있습니다. 빠르고 즉시 자주 액세스해야 하는 "핫" 스토리지에 대해 표준 스토리지를 사용합니다. 오래 보존되고 거의 액세스되지 않는 "콜드" 스토리지에 대해 아카이브 스토리지를 사용합니다.
분석
Oracle Analytics Cloud는 확장 가능한 보안 공용 클라우드 서비스로, 사용자, 워크그룹 및 기업에 대한 협업 분석을 탐색하고 수행할 수 있는 전체 기능 세트를 제공합니다. 시민 데이터 과학자, 고급 비즈니스 분석가 교육, ML(머신 러닝) 모델을 지원합니다. 머신 러닝 모델은 분석 서비스에서 실행하거나 Oracle Autonomous Data Warehouse에서 창고의 처리 능력, 확장성 및 탄력성을 활용하는 대규모 배치 예측을 위한 OML 내장 모델로 바로 실행할 수 있습니다.

Oracle Analytics Cloud를 통해 빠른 설정, 간편한 확장, 패치 적용, 자동 라이프사이클 관리 등 유연한 서비스 관리 기능도 제공됩니다.
머신 러닝

Oracle Machine Learning은 Python 및 AutoML을 지원하는 Oracle Autonomous Database에 긴밀하게 통합된 강력한 머신 러닝 기능을 제공합니다. 오픈 소스 및 확장 가능한 데이터베이스 알고리즘을 사용하여 데이터 준비 및 이동을 줄여 모델을 지원합니다. AutoML는 자동 알고리즘 선택, 적응형 데이터 샘플링, 자동 기능 선택 및 자동 모델 튜닝을 사용하여 데이터 과학자가 회사의 머신 러닝 이니셔티브 가치 실현 시간을 단축할 수 있도록 지원합니다.

Oracle Autonomous Data Warehouse에서 사용할 수 있는 Oracle Machine Learning 서비스를 사용하면 모델을 관리할 뿐만 아니라, 이러한 모델을 REST 엔드포인트로 배포하여 기업 내에서 실시간 예측을 민주화할 수 있으므로 기업이 발생한 이후가 아니라 관련성 있는 이벤트에 대응할 수 있습니다.
데이터 사이언스

데이터 과학은 데이터 과학 팀이 Oracle Cloud Infrastructure에서 머신 러닝(ML) 모델을 구축, 교육 및 관리할 수 있는 인프라, 오픈 소스 기술, 라이브러리, 패키지 및 데이터 과학 툴을 제공합니다. 협업 및 프로젝트 기반 작업 공간을 통해 완벽한 통합 사용자 환경을 제공하고 예측 모델의 라이프사이클을 지원합니다.

데이터 과학 모델 배포 기능을 통해 데이터 과학자들은 학습된 모델을 완전 관리형 HTTP 엔드포인트로 배포하여 실시간으로 예측을 제공하고, 프로세스와 애플리케이션에 인텔리전스를 통합하며, 기업이 발생 시 관련 이벤트에 대응할 수 있습니다.
데이터 카탈로그
Oracle Cloud Infrastructure 데이터 카탈로그는 메타데이터 및 메타데이터 속성과 같은 기술 자산에 대한 가시성을 제공하며, 해당 기술 메타데이터에 매핑된 비즈니스 용어집을 유지 관리할 수 있도록 합니다. 또한 Oracle Cloud Infrastructure Data Catalog는 데이터 웨어하우스에서 외부 테이블을 쉽게 생성할 수 있도록 Autonomous Data Warehouse에 메타데이터를 제공합니다.

권장 사항

다음 권장 사항을 출발점으로 사용하여 분석 및 머신 러닝을 위한 애플리케이션 데이터를 수집하고 결합할 수 있습니다.

요구 사항은 여기에 설명된 아키텍처와 다를 수 있습니다.

Oracle Autonomous Data Warehouse
이 아키텍처는 공유 인프라에서 Oracle Autonomous Data Warehouse를 사용합니다. 자동 확장을 활성화하여 데이터베이스 워크로드의 처리 성능을 최대 3배까지 높입니다.

프라이빗 데이터베이스 클라우드 환경에서 퍼블릭 클라우드에서 실행되는 셀프서비스 데이터베이스 기능을 원할 경우 전용 인프라에서 Oracle Autonomous Data Warehouse를 사용하는 것이 좋습니다.

자주 사용되지 않고 동일한 성능이 필요하지 않은 데이터에 Autonomous Data Warehouse의 하이브리드 파티션 적용 테이블 기능을 사용하는 것이 좋습니다. 이 기능을 사용하면 데이터 파티션을 오브젝트 스토리지로 이동하고 Autonomous Data Warehouse에 저장된 파티션과 결합하여 원활하게 제공할 수 있습니다.

Autonomous Data Warehouse로 데이터를 복제하지 않고도 객체 스토리지에 저장된 데이터를 실시간으로 소비하려면 외부 테이블 기능을 사용하십시오. 따라서 데이터 웨어하우스는 형식(parquet, avro, orc, json, csv 등)에 관계없이 선별된 데이터를 사용할 수 있습니다.

데이터 웨어하우스와 데이터 레이크 간의 데이터를 소비하고 조인하는 사용자에게 향상된 사용자 경험을 제공하기 위해 오브젝트 스토리지 데이터를 사용할 때 Data Lake Accelerator를 사용하는 것이 좋습니다.
Oracle Machine Learning 및 Oracle Cloud Infrastructure Data Science 모델 배포
이 아키텍처는 Oracle Machine Learning 및 Oracle Cloud Infrastructure Data Science을 활용하여 실시간으로 예측을 실행함으로써 사용자와 애플리케이션에 결과를 제공합니다.

배포된 모델의 소비를 보호하고 관리하기 위해 파트너 및 외부 엔티티에서 실시간 예측을 소비하는 경우 API Gateway의 배포를 고려하십시오.
데이터 카탈로그
플랫폼에 저장 및 전송되는 데이터의 완전하고 종합적인 뷰를 확보하려면 데이터 지속성 층과 소스 데이터 저장소를 지원하는 데이터 저장소뿐만 아니라 수확하는 것이 좋습니다. 수집된 기술 메타데이터를 비즈니스 용어집에 매핑하고 사용자정의 속성을 사용하여 강화하면 비즈니스 개념을 매핑하고 보안 및 액세스 정의를 문서화하고 관리할 수 있습니다.

오브젝트 스토리지에 저장된 데이터를 가상화하는 Autonomous Data Warehouse에서 외부 테이블을 손쉽게 생성하려면 이전에 수집한 메타데이터를 Oracle Cloud Infrastructure Data Catalog에 저장합니다. 이렇게 하면 외부 테이블 생성이 간소화되고, 데이터 저장소 간에 메타 데이터의 일관성이 유지되며, 인적 오류가 발생할 가능성이 줄어듭니다.

고려 사항

분석 및 머신 러닝을 위해 애플리케이션 데이터와 스트리밍 이벤트 데이터를 수집하고 결합할 때 다음 구현 옵션을 고려하십시오.

지도	데이터 변환	데이터 지속성 플랫폼	& 해석 액세스
권장사항	Oracle Cloud Infrastructure 데이터 통합 Oracle Cloud Infrastructure GoldenGate	Oracle Autonomous Data Warehouse Oracle Cloud Infrastructure Object Storage	Oracle Analytics Cloud Oracle Cloud Infrastructure Data Science Oracle Machine Learning
기타 옵션	Oracle Data Integrator Oracle Autonomous Database 데이터 변환	Oracle Exadata Database Service입니다.	타사 도구
근거	Oracle Cloud Infrastructure Data Integration은 확장 가능하고 비용 효율적인 서버리스(Serverless) 전담 관리 ETL 플랫폼을 제공합니다. Oracle Cloud Infrastructure GoldenGate는 확장 가능하고 비용 효율적이며 하이브리드 환경에 배포될 수 있는 서버리스의 전담 관리 비간섭적 데이터 복제 플랫폼인 클라우드 네이티브를 제공합니다.	Oracle Autonomous Data Warehouse는 탄력적으로 확장되고 빠른 질의 성능을 제공하며 데이터베이스 관리가 필요 없는, 사용이 간편하고 완전히 자율적인 데이터베이스입니다. 또한 외부 또는 하이브리드 분할 테이블을 사용하여 객체 저장 영역의 데이터에 직접 액세스할 수 있습니다. Oracle Cloud Infrastructure Object Storage는 무제한 데이터를 원시 형식으로 저장합니다.	Oracle Analytics Cloud는 Oracle Autonomous Data Warehouse의 선별된 데이터와 완벽하게 관리되며 긴밀히 통합되어 있습니다. Oracle Cloud Infrastructure Data Science는 데이터 과학 팀이 Oracle Cloud Infrastructure에서 ML(머신 러닝) 모델을 개발, 교육 및 관리할 수 있는 전담 관리 셀프 서비스 플랫폼입니다. 데이터 과학 서비스는 AutoML 및 모델 배포 기능과 같은 인프라 및 데이터 과학 툴을 제공합니다. Oracle Machine Learning은 Autonomous Data Warehouse에서 제공하는 데이터 과학을 위한 전담 관리 셀프 서비스 플랫폼으로, 창고 외부 데이터를 이동하지 않고도 ML 모델을 대규모로 구축, 교육, 테스트, 배포할 수 있습니다.

지도

데이터 변환

데이터 지속성 플랫폼

& 해석 액세스

권장사항

Oracle Cloud Infrastructure 데이터 통합
Oracle Cloud Infrastructure GoldenGate

Oracle Autonomous Data Warehouse
Oracle Cloud Infrastructure Object Storage

Oracle Analytics Cloud
Oracle Cloud Infrastructure Data Science
Oracle Machine Learning

기타 옵션

Oracle Data Integrator
Oracle Autonomous Database 데이터 변환

Oracle Exadata Database Service입니다.

타사 도구

근거

Oracle Cloud Infrastructure Data Integration은 확장 가능하고 비용 효율적인 서버리스(Serverless) 전담 관리 ETL 플랫폼을 제공합니다.

Oracle Cloud Infrastructure GoldenGate는 확장 가능하고 비용 효율적이며 하이브리드 환경에 배포될 수 있는 서버리스의 전담 관리 비간섭적 데이터 복제 플랫폼인 클라우드 네이티브를 제공합니다.

Oracle Autonomous Data Warehouse는 탄력적으로 확장되고 빠른 질의 성능을 제공하며 데이터베이스 관리가 필요 없는, 사용이 간편하고 완전히 자율적인 데이터베이스입니다. 또한 외부 또는 하이브리드 분할 테이블을 사용하여 객체 저장 영역의 데이터에 직접 액세스할 수 있습니다.

Oracle Cloud Infrastructure Object Storage는 무제한 데이터를 원시 형식으로 저장합니다.

Oracle Analytics Cloud는 Oracle Autonomous Data Warehouse의 선별된 데이터와 완벽하게 관리되며 긴밀히 통합되어 있습니다.

Oracle Cloud Infrastructure Data Science는 데이터 과학 팀이 Oracle Cloud Infrastructure에서 ML(머신 러닝) 모델을 개발, 교육 및 관리할 수 있는 전담 관리 셀프 서비스 플랫폼입니다. 데이터 과학 서비스는 AutoML 및 모델 배포 기능과 같은 인프라 및 데이터 과학 툴을 제공합니다.

Oracle Machine Learning은 Autonomous Data Warehouse에서 제공하는 데이터 과학을 위한 전담 관리 셀프 서비스 플랫폼으로, 창고 외부 데이터를 이동하지 않고도 ML 모델을 대규모로 구축, 교육, 테스트, 배포할 수 있습니다.

배치

이 참조 아키텍처에 대한 Terraform 코드는 GitHub에서 제공됩니다. 한 번의 클릭으로 코드를 Oracle Cloud Infrastructure Resource Manager로 가져와서 스택을 생성하고 배포할 수 있습니다. 또는 GitHub의 코드를 컴퓨터에 다운로드하고, 코드를 사용자 정의하고, Terraform CLI를 사용하여 배포합니다.

Oracle Cloud Infrastructure Resource Manager를 사용하여 배치합니다.
1. 을 누릅니다.
  아직 사인인하지 않은 경우 테넌시 및 사용자 인증서를 입력합니다.
2. 약관을 검토 및 수락합니다.
3. 스택을 배치할 지역을 선택합니다.
4. 화면 프롬프트 및 지침에 따라 스택을 만듭니다.
5. 스택을 생성한 후 Terraform 작업을 누르고 계획을 선택합니다.
6. 작업이 완료될 때까지 기다린 다음 계획을 검토합니다.
  변경하려면 [스택 세부정보] 페이지로 돌아가서 스택 편집을 누르고 필요한 변경을 수행합니다. 그런 다음 계획 작업을 다시 실행합니다.
7. 추가 변경이 필요하지 않은 경우 스택 세부정보 페이지로 돌아가서 Terraform 작업을 누르고 적용을 선택합니다.
Terraform CLI를 사용하여 구축합니다.
1. GitHub로 이동합니다.
2. 코드를 다운로드하거나 로컬 컴퓨터에 복제합니다.
3. README의 지침을 따릅니다.

추가 탐색

이 구조의 기능에 대해 자세히 알아봅니다.

로그 변경

이 로그는 중요한 변경 사항을 나열합니다.

2023년 5월 22일

기능 다이어그램 간소화 및 아키텍처 토폴로지 다이어그램 추가
추가 관련 리소스가 추가되었습니다.

2022년 2월 01일

Oracle Cloud Infrastructure Resource Manager를 사용하여 구조 배치에 대한 지침을 추가했습니다.
편집 가능한 버전(. SVG 및 . DRAWIO)의 아키텍처 다이어그램입니다.