Autonomous Data Warehouse상의 머신 러닝 플랫폼

빠르게 변화하는 정보 요구에 대응할 수 있도록 조직은 머신 러닝(ML) 모델을 신속하게 교육, 배포 및 관리할 수 있는 모든 기회를 모색하고 있습니다.

Oracle Autonomous Data Warehouse(ADW)를 통해 데이터를 로드 및 준비하고 머신 러닝 모델을 교육, 배포 및 관리하는 데 필요한 모든 내장 툴을 사용할 수 있습니다. 이러한 서비스는 Autonomous Data Warehouse에 포함되어 있지만 조직의 요구사항에 가장 잘 맞도록 다른 도구를 혼합하고 일치시킬 수도 있습니다.

이 참조 아키텍처는 전체 비즈니스 컨텍스트 내에서 기술 솔루션을 포지셔닝합니다.

다음은 데이터 기반 비즈니스에 대한 설명입니다. context.png
그림 데이터 기반 비즈니스에 대한 설명-context.png

조직이 클라우드에서 머신 러닝 플랫폼과 함께 데이터 웨어하우스 또는 데이터 마트를 구현하는 경우, 일반적으로 엔드 투 엔드 솔루션을 구현하기 위해 여러 서비스를 함께 활용해야 합니다. 일부 조직의 경우 이 작업을 수행할 수 있지만 경험이나 리소스가 부족한 다른 조직의 경우 어려운 작업일 수 있습니다.

포괄적인 머신 러닝 플랫폼은 최소한 다음을 포함해야 합니다.

  • 정형 및 비정형 데이터 모두에 쉽게 액세스
  • 데이터 엔지니어링 파이프라인 구축 및 관리 기능
  • 비즈니스 목표를 충족하기 위해 대규모 모델을 구축하고 데이터를 평가할 수 있는 기능
  • 머신 러닝 모델 구축을 위한 협업 플랫폼
  • 모델 관리 및 배포를 위한 간단한 프로세스
  • AutoML를 사용하여 머신 러닝 모델을 구축하고 데이터 과학자의 작업을 가속화할 수 있는 사람의 범위를 확대

Autonomous Data Warehouse에 포함된 머신 러닝 플랫폼은 IT 리소스와 가용성에 크게 의존하지 않고도 머신 러닝의 이점을 제공할 수 있는 효과적인 방법을 제공합니다. 또한 제품 업데이트 및 보안 패치는 Autonomous Data Warehouse를 통해 자동으로 처리됩니다.

구조

이 아키텍처는 Oracle Autonomous Data Warehouse에 내장된 데이터 과학과 머신 러닝 기능을 사용하여 비즈니스 분석 및 머신 러닝을 위해 다양한 엔터프라이즈 데이터 리소스의 데이터를 분석합니다.

다음 다이어그램은 사용 사례에 따라 사용자가 따라갈 수 있는 여러 경로를 보여줍니다. 가장 쉬운 경로(솔리드 라인)는 데이터 엔지니어링 작업을 수행하고, 머신 러닝 모델을 구축하고, Autonomous Data Warehouse(ADW)에 내장된 도구를 사용하여 모델을 관리하고 배포하기 위한 간단한 방법을 제공합니다. 고급 사용 사례(점선)의 경우 ADW에 포함된 서비스와 원활하게 통합되는 기타 Oracle Cloud Infrastructure(OCI) 서비스가 회색으로 표시된 상자에 포함되어 있습니다.

다음은 ml-adw-architecture.png에 대한 설명입니다.
그림 ml-adw-architecture.png에 대한 설명

ml-adw-architecture-oracle.zip

이 구조는 다음 논리적 분할에 중점을 둡니다.

  • 입수, 변환

    아키텍처의 각 데이터 계층에서 사용할 데이터를 수집하고 세분화합니다.

  • 유지, 선별, 생성

    현재 비즈니스 뷰를 표시하도록 데이터 액세스 및 탐색을 지원합니다. 관계형 기술의 경우 데이터는 단순한 관계형, 경도, 치수 또는 OLAP 형태로 논리적으로 또는 물리적으로 구조화될 수 있습니다. 비관계형 데이터의 경우 이 계층에는 분석 프로세스의 출력 또는 특정 분석 작업에 최적화된 데이터 중 하나 이상의 데이터 풀이 포함됩니다.

  • 분석, 학습, 예측

    소비자의 데이터에 대한 논리적 비즈니스 뷰를 추상화합니다. 이 추상화를 통해 민첩한 개발 접근 방식, 대상 아키텍처로 마이그레이션, 여러 통합 소스에서 단일 보고 계층의 프로비저닝을 원활하게 수행할 수 있습니다.

다음 다이어그램은 보안 모범사례를 사용하여 Oracle Cloud Infrastructure에 제공된 서비스에 대한 아키텍처 매핑을 보여줍니다.



oci-adb-oac-arch-gw-oracle.zip

구조에는 다음과 같은 구성 요소가 있습니다.

  • 데이터 통합

    Autonomous Data Warehouse에는 여러 부서별 시나리오 및 특정 고급 사용 사례에 맞게 데이터를 수집, 로드 및 변환하는 데 필요한 내장 도구가 포함되어 있습니다. Autonomous Data Warehouse에는 로컬 또는 객체 스토리지에서 데이터를 빠르게 로드할 수 있는 로드 기능이 포함되어 있습니다. 다양한 소스 유형의 데이터에 연결하고 ELT 유형 기능에 액세스할 수 있는 자율운영 데이터 변환도 포함되어 있습니다.

    고급 사용 사례에는 Oracle Cloud Infrastructure Data Integration이 있습니다. Oracle Cloud Infrastructure Data Integration은 전담 관리되는 서버 미사용 기본 클라우드 서비스로, 다양한 소스에서 데이터 수집, 해당 데이터 정리, 변환 및 재구성, Oracle Cloud Infrastructure의 대상 데이터 소스로 효율적으로 로드하는 등 일반적인 ETL(추출, 로드 및 변환) 작업을 수행할 수 있습니다.

  • Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse는 데이터 웨어하우징 워크로드에 최적화된 자동 구동의 자가 보안 및 자가 복구 데이터베이스 서비스입니다. 하드웨어를 구성 또는 관리하거나 소프트웨어를 설치할 필요가 없습니다. Oracle Cloud Infrastructure는 데이터베이스 생성과 데이터베이스 백업, 패치, 업그레이드 및 조정을 처리합니다.

    Autonomous Data Warehouse를 사용하면 구조화된, JSON, XML, 그래프 및 공간 등 다양한 형식으로 데이터를 로드할 수 있습니다. 이 서비스와 함께 번들로 제공되는 자율 툴을 사용하여 간편하게 테이블에 데이터를 로드하고 가벼운 ETL 작업을 수행할 수 있습니다.

    Oracle Machine LearningAutonomous Data Warehouse의 핵심에 내장되어 있습니다. 이렇게 하면 데이터베이스 커널에서 데이터베이스 내 알고리즘을 실행할 수 있고, 즉시 배치를 위한 일류 데이터베이스 객체를 생성할 수 있습니다.

  • 객체 스토리지

    Oracle Cloud Infrastructure Object Storage는 안정적이고 비용 효율적인 데이터 내구성을 제공하는 인터넷 규모의 고성능 스토리지 플랫폼입니다. Oracle Cloud Infrastructure Object Storage는 분석 데이터를 포함하여 모든 콘텐츠 유형의 비정형 데이터를 무제한 저장할 수 있습니다. 인터넷 또는 클라우드 플랫폼 내에서 직접 또는 안전하게 데이터를 저장 또는 검색할 수 있습니다. 여러 관리 인터페이스를 사용하면 성능 또는 서비스 신뢰성이 저하되지 않고 쉽게 작고 원활하게 확장할 수 있습니다.

  • 예측

    Oracle Machine Learning 서비스는 Oracle Machine Learning(OML) 기능을 확장하여 데이터베이스 내 Oracle Machine Learning 모델과 타사 오픈 네이얼 네트워크 교환(ONNX) 머신 러닝 모델에 대한 모델 배포 및 모델 라이프사이클 관리를 지원합니다. Oracle Machine Learning 서비스는 애플리케이션 및 대시보드에 대한 실시간 및 소규모 뱃치 점수 부여를 지원합니다.

    Oracle Machine Learning 서비스를 위한 REST API는 Autonomous Data Warehouse를 통한 인증을 통해 REST 엔드포인트를 제공합니다. 이러한 엔드포인트는 머신 러닝 모델과 그 메타데이터의 스토리지 및 관리를 지원합니다. 또한 해당 엔드포인트를 통해 모델에 대한 점수 지정 엔드포인트를 생성할 수 있습니다.

    Oracle Machine Learning 서비스는 Scikit-learn 및 TensorFlow와 같은 패키지를 사용하여 구축할 수 있는 타사 분류 또는 회귀 모델을 지원하며, 그 외에 ONNX 형식으로 내보낼 수 있습니다. Oracle Machine Learning 서비스는 항목 검색, 키워드, 요약, 감성 및 유사성에 대한 통합 인식 텍스트 분석을 지원합니다. Oracle Machine Learning 서비스는 또한 타사 ONNX 형식 모델 배포를 통한 이미지 분류를 지원하고 이미지 또는 검열을 사용하여 점수를 지원합니다.

    사용자는 싱글톤, 소규모 뱃치 및 대규모 뱃치 점수부여를 위해 SQL, R 및 Python의 데이터베이스 내 모델을 사용하여 데이터베이스에서 직접 예측할 수도 있습니다. 사용자는 OML4Py 내장 Python 실행을 활용하여 타사 패키지에서 생성된 모델로 사용자 정의 Python 함수를 호출하고 Python 및 REST 인터페이스에서 예측할 수 있습니다.

  • 알아보기

    Oracle Machine Learning Notebooks는 데이터 과학자, 비즈니스 및 데이터 분석가가 SQL 및 Python 인터프리터와 함께 작업할 수 있도록 협업 사용자 인터페이스를 제공하는 동시에 Oracle Autonomous Database에서 머신 러닝을 수행합니다. 여기에는 ADW(Autonomous Data Warehouse), Autonomous Transaction Processing(ATP), Autonomous JSON Database(AJD)가 포함됩니다. Oracle Machine Learning Notebooks를 사용하면 광범위한 데이터 과학 팀(데이터 과학자, 시민 데이터 과학자, 데이터 분석가, 데이터 엔지니어, DBA)이 협력하여 데이터를 시각적으로 탐색하고 OML4SQL 및 OML4Py를 사용하여 분석 방법론을 개발할 수 있습니다. 노트북 인터페이스는 Python, SQL 및 PL/SQL을 통해 머신 러닝 알고리즘의 Oracle의 고성능 병렬 및 확장 가능한 데이터베이스 내 구현에 액세스할 수 있습니다. 데이터베이스 내 기능은 SQL Developer 같은 외부 인터페이스, 오픈 소스 노트북 환경 및 타사 IDE를 통해 Autonomous Database에 연결하여 액세스할 수도 있습니다.

    OML4Py는 또한 자동화된 알고리즘 및 기능 선택, 자동화된 모델 튜닝 및 선택을 위한 자동화된 머신 러닝(AutoML)을 위한 Python API도 제공합니다.

    Oracle Machine Learning AutoML 사용자 인터페이스(OML AutoML UI)는 Oracle Machine Learning 서비스에 쉽게 배포할 수 있도록 자동화된 머신 러닝을 제공하는 코딩이 필요 없는 사용자 인터페이스입니다. 광범위한 데이터 과학 배경이 없는 비즈니스 사용자는 OML AutoML UI를 사용하여 머신 러닝 모델을 생성 및 배포하고 해당 OML4Py 코드가 포함된 OML 노트북을 생성하여 모델을 재구축하고 프로그래밍 방식으로 데이터를 점수부여할 수 있습니다.

    전문 데이터 과학자들은 OML AutoML UI를 보다 빠른 모델 탐색, 간편한 배포, 스타터 노트북 생성 등을 위해 생산성 가속기로 사용할 수 있습니다.

  • 분석

    Oracle Analytics Cloud는 확장 가능한 보안 공용 클라우드 서비스로, 사용자, 워크그룹 및 기업에 대한 협업 분석을 탐색하고 수행할 수 있는 전체 기능 세트를 제공합니다.

    Oracle Analytics CloudOracle Machine Learning과 통합되어 Oracle Analytics Cloud 워크플로우 및 대시보드 내에서 검색, 시각화 및 배포할 수 있는 데이터베이스 내 모델에 액세스할 수 있습니다.

    Oracle Analytics Cloud를 통해 빠른 설정, 간편한 확장, 패치 적용, 자동 라이프사이클 관리 등 유연한 서비스 관리 기능도 제공됩니다.

권장사항

고급 클라우드 데이터 웨어하우스 및 머신 러닝 운영 프레임워크를 위한 플랫폼을 만드는 시작점으로 다음 권장 사항을 사용합니다.

요구 사항은 여기에 설명된 아키텍처와 다를 수 있습니다.

  • 입수, 변환

    Autonomous Database 툴은 Oracle Autonomous Data Warehouse에 내장된 기능으로, 간단한 방식으로 로드, 변환, 카탈로그화, 통찰력 확보, 비즈니스 모델 개발 등의 기능을 제공합니다.

  • 분석, 학습, 예측

    Oracle Analytics CloudOracle Autonomous Data Warehouse에 연결하기 전에 데이터베이스 관리자가 Oracle Analytics Cloud 인스턴스에 대한 IP 주소(또는 주소 범위)를 허용하도록 하십시오. 데이터베이스 관리자는 Oracle Analytics Cloud의 TCP/IP 트래픽을 허용하는 보안 규칙을 데이터베이스에 추가해야 합니다.

고려 사항

클라우드 데이터 웨어하우스와 함께 머신 러닝 작업 프레임워크를 만들 때 다음 구현 옵션을 고려하십시오.

  • 데이터 중력: 머신 러닝 모델을 사용하는 데이터 스코어링의 경우에도 머신 러닝 운영 프레임워크를 통해 데이터 이동의 비용이 크게 절감됩니다.
  • 가치 실현 시간 단축: 아래 표의 권장 사항은 솔루션의 가치를 실현하는 데 걸리는 시간을 단축하고 빠르게 시작할 수 있도록 도와줍니다.
지도 권장사항 기타 옵션 근거
입수, 변환 Autonomous Database 툴 Oracle Cloud Infrastructure 데이터 통합 사용 사례에 따라 다릅니다. 오브젝트 스토리지 또는 로컬 데이터 스토리지의 파일에서 데이터를 쉽게 로드하려면 Autonomous Database 도구를 사용합니다. 앞에서 언급했듯이, Autonomous Data Warehouse Data Transforms도 사용 사례에 따라 활용할 수 있습니다. 고급 사례의 경우, 온디맨드 서비스인 Oracle Cloud Infrastructure Data Integration을 사용합니다.
유지 Oracle Autonomous Data Warehouse Autonomous Data Warehouse는 데이터 웨어하우스의 분석 요구 사항을 제공할 뿐만 아니라 고급 Oracle Machine Learning 운영 프레임워크를 배포하는 기능도 포함하는 클라우드 데이터 웨어하우스입니다. 또한 다양한 형식 및 유형으로 저장된 External Table을 통해 오브젝트 스토리지의 데이터에 직접 접근할 수 있습니다.
알아보기 Oracle Machine Learning Notebooks(OML4SQL, OML4Py, OML4R 포함)

Oracle Machine Learning AutoML UI

타사

OCI 데이터 과학

OML 노트북은 Autonomous Data Warehouse 플랫폼에 포함된 협업 노트북 환경입니다. OML4SQL, OML4Py 및 OML4R를 사용하면 사용자가 데이터베이스에서 직접 모델을 빌드할 수 있습니다. 데이터베이스 내 모델은 Oracle DatabaseAutonomous Data Warehouse 간에 익스포트 및 임포트할 수 있습니다. 사용자는 Autonomous Database 내에서 사용자 정의 conda 환경이 포함된 타사 툴을 사용하여 Python 및 R 모델을 구축할 수도 있고, Oracle Machine Learning 프레임워크 외부에서 구축할 수도 있고, OML4Py-embedded 및 OML4R-embedded 실행과 함께 사용할 수 있도록 이러한 기본 모델을 데이터베이스 데이터 저장소에 저장할 수도 있습니다.
예측

Oracle Machine Learning 서비스

Oracle Machine Learning Notebooks(OML4SQL, OML4Py, OML4R 포함)

Oracle Cloud Infrastructure Data Science

SQL Query 및 OML4R/OML4Py 인터페이스를 사용하는 데이터베이스 내 모델

Oracle Machine Learning Services에서 관리하는 모델 배포를 통해 REST API를 통해 모델을 점수를 부여할 수 있습니다. Oracle Machine Learning 서비스를 사용하면 ONNX 형식을 통해 Oracle Machine Learning 프레임워크 외부에서 생성된 모델을 임포트할 수도 있습니다. 여기에는 Oracle Cloud Infrastructure Data Science 내에 생성된 모델이 포함될 수 있습니다.
액세스 및 해석 Oracle Analytics Cloud 타사 도구 Oracle Analytics CloudOracle Machine Learning 프레임워크와 완벽하게 관리되고 긴밀히 통합되어 있습니다. 주요 기능 중 하나는 확장 가능한 머신 러닝 및 대시보드에서 Oracle Machine Learning에 구축된 모델을 Oracle Analytics Cloud에 배포하는 기능입니다.

배치

이 참조 아키텍처를 배포하는 데 필요한 코드는 GitHub에서 제공됩니다. 한 번의 클릭으로 코드를 Oracle Cloud Infrastructure Resource Manager로 가져와서 스택을 생성하고 배포할 수 있습니다. 또는 GitHub의 코드를 컴퓨터에 다운로드하고, 코드를 사용자 정의하고, Terraform CLI를 사용하여 아키텍처를 배포합니다.

  • Oracle Cloud Infrastructure Resource Manager를 사용하여 배치합니다.
    1. Oracle Cloud에 배포을 누릅니다.

      아직 사인인하지 않은 경우 테넌시 및 사용자 인증서를 입력합니다.

    2. 약관을 검토 및 수락합니다.
    3. 스택을 배치할 지역을 선택합니다.
    4. 화면 프롬프트 및 지침에 따라 스택을 만듭니다.
    5. 스택을 생성한 후 Terraform 작업을 누르고 계획을 선택합니다.
    6. 작업이 완료될 때까지 기다린 다음 계획을 검토합니다.

      변경하려면 [스택 세부정보] 페이지로 돌아가서 스택 편집을 누르고 필요한 변경을 수행합니다. 그런 다음 계획 작업을 다시 실행합니다.

    7. 추가 변경이 필요하지 않은 경우 스택 세부정보 페이지로 돌아가서 Terraform 작업을 누르고 적용을 선택합니다.
  • GitHub에서 Terraform 코드를 사용하여 배포합니다.
    1. GitHub로 이동합니다.
    2. 저장소를 로컬 컴퓨터에 복제하거나 다운로드합니다.
    3. README 문서의 지침을 따릅니다.

로그 변경

이 로그는 중요한 변경 사항을 나열합니다.