서버리스 애플리케이션을 사용하여 데이터 웨어하우스에 데이터 로드 자동화

Oracle Functions는 확장성이 뛰어난 서버리스 FaaS(Functions-as-a-Service) 플랫폼으로서, Oracle Cloud Infrastructure를 기반으로 하며 오픈 소스 Fn Project 엔진이 탑재되어 있습니다. 개발자는 Oracle Functions를 사용하여 기본 인프라의 프로비저닝 또는 관리에 대한 걱정 없이 비즈니스 가치를 제공하는 코드를 작성 및 배포할 수 있습니다. Oracle Functions는 Docker 컨테이너 이미지로 패키징된 기능을 갖춘 컨테이너 네이티브입니다.

구조

이 참조 아키텍처는 서버리스 기능을 사용하여 다양한 데이터베이스 또는 애플리케이션에서 생성된 파일에서 데이터를 추출하고 분석을 위해 데이터를 데이터 웨어하우스로 로드하는 프로세스를 자동화하는 방법을 보여줍니다.

구조 다이어그램은 데이터 흐름을 보여줍니다. 압축된 CSV 파일이 Oracle Cloud Infrastructure Object Storage의 특정 버킷에 업로드되면 이벤트 서비스가 트리거됩니다. 내보낸 이벤트는 함수를 호출하여 업로드된 파일에서 데이터를 추출하고 데이터를 Oracle Autonomous Data Warehouse 인스턴스로 로드합니다. 데이터가 데이터 웨어하우스에 로드되면 처리된 CSV 파일이 Oracle Cloud Infrastructure Object Storage의 다른 버킷으로 이동됩니다.

다음은 autoload-adw.png에 대한 설명입니다.
autoload-adw.png 그림에 대한 설명

autoload-adw-oracle.zip

구조에는 다음과 같은 구성 요소가 있습니다.

  • 영역

    Oracle Cloud Infrastructure 지역은 가용성 도메인이라는 하나 이상의 데이터 센터를 포함하는 현지화된 지리적 영역입니다. 지역은 다른 지역에 독립적이며, 거리가 먼 나라 전체나 대륙을 구분할 수 있습니다.

  • 가용성 도메인

    가용성 도메인은 한 지역 내의 독립형 독립적인 데이터 센터입니다. 각 가용성 도메인의 물리적 리소스는 내결함성을 제공하는 다른 가용성 도메인의 리소스와 격리됩니다. 가용성 도메인은 전원, 냉각 또는 내부 가용성 도메인 네트워크와 같은 인프라를 공유하지 않습니다. 따라서 한 가용성 도메인에서 장애가 발생해도 해당 지역의 다른 가용성 도메인에 영향을 주지 않습니다.

  • VCN(가상 클라우드 네트워크) 및 서브넷

    VCN은 Oracle Cloud Infrastructure 지역에서 설정하는 사용자 정의 가능한 소프트웨어 정의 네트워크입니다. 기존의 데이터 센터 네트워크와 마찬가지로 VCN은 네트워크 환경에 대한 완벽한 제어를 제공합니다. VCN에는 VCN을 생성한 후 변경할 수 있는 겹치지 않는 CIDR 블록이 여러 개 있을 수 있습니다. VCN을 영역 또는 가용성 도메인으로 범위가 지정될 수 있는 서브넷으로 분할할 수 있습니다. 각 서브넷은 VCN의 다른 서브넷과 겹치지 않는 연속 주소 범위로 구성됩니다. 서브넷 생성 후 서브넷의 크기를 변경할 수 있습니다. 서브넷은 공용 또는 전용일 수 있습니다.

    이 참조 아키텍처에서는 함수가 전용 지역별 서브넷에 배치됩니다.

  • 이벤트 및 함수

    Oracle Cloud Infrastructure 서비스는 리소스의 변경 사항을 설명하는 구조화된 메시지인 이벤트를 내보냅니다. CRUD(생성, 읽기, 업데이트 또는 삭제) 작업, 리소스 수명 주기 상태 변경, 클라우드 리소스에 영향을 주는 시스템 이벤트에 대해 이벤트가 발생합니다.

    Oracle Functions를 사용하여 코드를 배포하거나, 직접 호출하거나, 이벤트에 대한 응답으로 트리거할 수 있습니다. Oracle Functions는 Oracle Cloud Infrastructure Registry에 호스팅된 Docker 컨테이너를 사용합니다.

    이 아키텍처에서는 파일이 Oracle Cloud Infrastructure Object Storage의 버킷에 업로드되면 이벤트가 전송됩니다. 이 이벤트는 파일에서 데이터를 추출하여 Oracle Autonomous Data Warehouse로 로드하는 Python 기반 함수를 호출합니다. 그런 다음 처리된 파일이 다른 버킷으로 이동됩니다.

  • 객체 스토리지

    오브젝트 스토리지를 사용하면 데이터베이스 백업, 분석 데이터, 이미지 및 비디오와 같은 리치 컨텐츠를 비롯한 모든 컨텐츠 유형의 대규모 정형 및 비정형 데이터에 빠르게 접근할 수 있습니다. 인터넷 또는 클라우드 플랫폼 내에서 직접 안전하게 데이터를 저장하고 검색할 수 있습니다. 성능 또는 서비스 신뢰성이 저하되지 않고 스토리지를 원활하게 확장할 수 있습니다. 빠르고 즉시 자주 액세스해야 하는 "핫" 스토리지에 대해 표준 스토리지를 사용합니다. 오래 보존되고 거의 액세스되지 않는 "콜드" 스토리지에 대해 아카이브 스토리지를 사용합니다.

  • Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse는 데이터 웨어하우징 워크로드에 최적화된 자동 구동의 자가 보안 및 자가 복구 데이터베이스 서비스입니다. 하드웨어를 구성 또는 관리하거나 소프트웨어를 설치할 필요가 없습니다. Oracle Cloud Infrastructure는 데이터베이스 생성과 데이터베이스 백업, 패치, 업그레이드 및 조정을 처리합니다.

권장사항

요구 사항은 여기에 설명된 아키텍처와 다를 수 있습니다. 다음 권장 사항을 시작점으로 사용합니다.

  • VCN

    VCN을 생성할 때 VCN의 서브넷에 연결하려는 리소스 수를 기반으로 필요한 CIDR 블록 수 및 각 블록의 크기를 확인하십시오. 표준 전용 IP 주소 공간 내에 있는 CIDR 블록을 사용합니다.

    전용 접속을 설정할 다른 네트워크(Oracle Cloud Infrastructure, 온프레미스 데이터 센터 또는 다른 클라우드 제공자)와 겹치지 않는 CIDR 블록을 선택합니다.

  • 함수

    이 참조 아키텍처에 사용되는 함수는 Python을 사용하여 코딩됩니다. Oracle Functions는 Java, 노드, 이동 및 Ruby도 지원합니다. 선택한 프로그래밍 언어를 사용합니다.

  • Oracle Autonomous Data Warehouse

    참조 아키텍처에서 이 함수는 SODA(Simple Oracle Document Access)를 사용하여 데이터 웨어하우스에 액세스합니다. 함수를 수정하여 cx_oracle 및 Oracle 클라이언트 라이브러리를 사용하는 SQL과 같은 다른 액세스 방식을 구현할 수 있습니다.

    참조 아키텍처에서 함수와 데이터 웨어하우스는 동일한 서브넷에 있습니다. 필요한 경우 개별 서브넷에 배치할 수 있습니다.

고려 사항

  • 확장성
    • 데이터베이스

      언제든지 데이터베이스의 CPU 코어 수를 수동으로 늘리거나 줄일 수 있습니다. 자율 데이터베이스의 자동 크기 조정 기능을 통해 데이터베이스는 언제든지 현재 CPU 코어의 최대 3배를 사용할 수 있습니다. 수요가 증가하면 자동 크기 조정은 사용 중인 코어 수를 자동으로 늘립니다. 자율 데이터베이스를 통해 가용성이나 성능에 영향을 주지 않으면서 언제든지 스토리지 용량을 확장할 수 있습니다.

    • 함수

      Oracle Functions는 요청 로드에 따라 자동으로 함수 컨테이너를 생성 및 제거합니다. 함수가 호출될 때와 함수가 실행되는 기간 동안에만 비용을 지불합니다.

  • 보안
    • Oracle Cloud Infrastructure Identity and Access Management(IAM) 정책을 사용하여 클라우드 리소스에 접근할 수 있는 사용자와 수행할 수 있는 작업을 제어할 수 있습니다.

      특정 그룹에 기능 호출 권한만 지정하거나 기능 관리 및 함수 호출 권한을 모두 지정할 수 있습니다.

      IAM 정책을 사용하여 Oracle Functions에서 Oracle Cloud Infrastructure Object Storage로의 접근을 제어할 수도 있습니다.

    • Oracle Cloud Infrastructure Object Storage에서 암호화는 기본적으로 사용으로 설정되며 해제할 수 없습니다.
    • 이 참조 아키텍처는 데이터 웨어하우스와 동일한 서브넷의 기능을 보여줍니다. 향상된 격리를 위해 데이터 웨어하우스에 대해 별도의 서브넷을 사용할 수 있습니다.
    • 데이터베이스 암호 또는 기타 암호를 보호하려면 Oracle Cloud Infrastructure Vault 서비스를 사용해 보십시오.

배치

이 참조 아키텍처에 대한 Terraform 코드는 GitHub에서 제공됩니다. 한 번의 클릭으로 코드를 Oracle Cloud Infrastructure Resource Manager로 가져와서 스택을 생성하고 배포할 수 있습니다. 또는 GitHub의 코드를 컴퓨터에 다운로드하고, 코드를 사용자 정의하고, Terraform CLI(명령행 인터페이스)를 사용하여 구조를 배치합니다.

  • Oracle Cloud Infrastructure Resource Manager를 사용하여 배치합니다.
    1. Oracle Cloud에 배포을 누릅니다.

      아직 사인인하지 않은 경우 테넌시 및 사용자 인증서를 입력합니다.

    2. 약관을 검토 및 수락합니다.
    3. 스택을 배치할 지역을 선택합니다.
    4. 화면 프롬프트 및 지침에 따라 스택을 만듭니다.
    5. 스택을 생성한 후 Terraform 작업을 누르고 계획을 선택합니다.
    6. 작업이 완료될 때까지 기다린 다음 계획을 검토합니다.

      변경하려면 [스택 세부정보] 페이지로 돌아가서 스택 편집을 누르고 필요한 변경을 수행합니다. 그런 다음 계획 작업을 다시 실행합니다.

    7. 추가 변경이 필요하지 않은 경우 스택 세부정보 페이지로 돌아가서 Terraform 작업을 누르고 적용을 선택합니다.
  • Terraform CLI를 사용하여 구축합니다.
    1. GitHub로 이동합니다.
    2. 코드를 다운로드하거나 로컬 컴퓨터에 복제합니다.
    3. README의 지침을 따릅니다.

로그 변경

이 로그에는 중요한 변경 사항만 나열됩니다.