의료 사용 사례에 대한 머신 러닝 모델 교육

Oracle Cloud Infrastructure Data Science 서비스를 사용하여 의료 사용 사례에 적합한 머신 러닝 모델을 탐색하고 교육할 수 있습니다.

구조

이 아키텍처는 Oracle Cloud Infrastructure(OCI)의 일반적인 Oracle Cloud Infrastructure Data Science 배포를 보여줍니다.

다음 다이어그램은 필요에 따라 통합할 수 있는 핵심 서비스와 선택적 서비스를 보여줍니다.

다음은 Healthcare-ml-design-pattern.png에 대한 설명입니다.
Healthcare-ml-design-pattern.png 그림에 대한 설명

Healthcare-ml-design-pattern-oracle.zip

다음은 아키텍처의 주요 구성 요소입니다.

  • 오브젝트 스토리지 또는 Oracle Autonomous Database를 스토리지 위치로
  • 모델 탐색 및 개발을 위한 데이터 과학 노트북 세션
  • 모델을 제품화하기 위한 모델 배포로, REST API를 통해 해당 모델을 사용할 수 있도록 합니다.

이 구조는 다음 구성 요소를 지원합니다.

  • 지역

    Oracle Cloud Infrastructure 지역은 가용성 도메인이라고 하는 하나 이상의 데이터 센터를 포함하는 지역화된 지리적 영역입니다. 지역은 다른 지역과 독립적이며, 방대한 거리로 이들을 분리할 수 있습니다(국가 또는 대륙 간).

  • VCN(가상 클라우드 네트워크) 및 서브넷

    VCN은 Oracle Cloud Infrastructure 영역에서 설정하는 커스터마이징 가능한 소프트웨어 정의 네트워크입니다. 기존의 데이터 센터 네트워크와 마찬가지로 VCN도 네트워크 환경을 완벽하게 제어할 수 있습니다. VCN에는 VCN을 생성한 후 변경할 수 있는 겹치지 않는 여러 CIDR 블록이 있을 수 있습니다. VCN을 서브넷으로 분할할 수 있으며, 지역 또는 가용성 도메인으로 범위가 지정될 수 있습니다. 각 서브넷은 VCN의 다른 서브넷과 겹치지 않는 연속적인 주소 범위로 구성됩니다. 서브넷을 생성한 후 크기를 변경할 수 있습니다. 서브넷은 공용 또는 전용일 수 있습니다.

  • 인터넷 게이트웨이

    인터넷 게이트웨이는 VCN의 공용 서브넷과 공용 인터넷 사이의 트래픽을 허용합니다.

  • API 게이트웨이

    Oracle API Gateway를 사용하면 네트워크 내에서 접근할 수 있는 전용 엔드포인트를 사용하여 API를 게시할 수 있으며, 필요한 경우 공용 인터넷에 노출할 수 있습니다. 엔드포인트는 API 검증, 요청 및 응답 변환, CORS, 인증 및 권한 부여, 요청 제한을 지원합니다.

  • 데이터 통합

    Oracle Cloud Infrastructure Data Integration은 다양한 데이터 소스에서 Autonomous Data WarehouseOracle Cloud Infrastructure Object Storage와 같은 대상 Oracle Cloud Infrastructure 서비스로 데이터를 추출, 로드, 변환, 정리 및 재구축하는 전담 관리 서버 미사용 클라우드 전용 서비스입니다. ETL(Extract Transform Load)은 Spark에서 완전 관리형 확장 처리를 활용하고 ELT(Extract Load Transform)는 데이터 이동을 최소화하고 새로 수집된 데이터의 가치 실현 시간을 개선하기 위해 Autonomous Data Warehouse의 전체 SQL 푸시다운 기능을 활용합니다. 사용자는 통합 플로우를 최적화하여 가장 효율적인 엔진 및 통합관리를 생성함으로써 실행 환경을 자동으로 할당하고 확장하는 직관적인 코드리스 사용자 인터페이스를 사용하여 데이터 통합 프로세스를 설계합니다. Oracle Cloud Infrastructure Data Integration은 대화식 탐색 및 데이터 준비를 제공하며 스키마 변경사항을 처리하는 규칙을 정의하여 데이터 엔지니어가 스키마 드리프트로부터 보호할 수 있도록 합니다.

  • 데이터 카탈로그

    Oracle Cloud Infrastructure Data Catalog는 엔터프라이즈 데이터를 위한 전담 관리 셀프서비스 데이터 검색 및 거버넌스 솔루션입니다. 이 솔루션은 데이터 엔지니어, 데이터 과학자, 데이터 관리인 및 최고 데이터 책임자에게 조직의 기술, 비즈니스 및 운영 메타데이터를 관리하는 단일 협업 환경을 제공합니다.

  • 객체 스토리지

    오브젝트 스토리지는 데이터베이스 백업, 애널리틱스 데이터, 이미지 및 비디오와 같은 풍부한 컨텐츠를 포함하여 모든 컨텐츠 유형의 구조적 및 비구조적 대량 데이터에 빠르게 접근할 수 있습니다. 인터넷을 통해 또는 클라우드 플랫폼 내에서 직접 안전하게 데이터를 저장하고 검색할 수 있습니다. 성능 또는 서비스 안정성이 저하되지 않으면서 스토리지를 원활하게 확장할 수 있습니다. 빠르고 즉각적이며 자주 액세스해야 하는 "핫" 스토리지에 표준 스토리지를 사용합니다. 장기간 보존하고 거의 액세스하지 않는 "콜드" 스토리지에 아카이브 스토리지를 사용합니다.

  • Autonomous Database

    Oracle Cloud Infrastructure Autonomous Database는 트랜잭션 처리 및 데이터 웨어하우징 워크로드에 사용할 수 있는 사전 구성된 전담 관리 데이터베이스 환경입니다. 하드웨어를 구성 또는 관리하거나 소프트웨어를 설치할 필요가 없습니다. Oracle Cloud Infrastructure는 데이터베이스 생성과 데이터베이스 백업, 패치, 업그레이드 및 튜닝을 처리합니다.

  • 데이터 과학

    Oracle Cloud Infrastructure Data Science는 JupyterLab 노트북 환경을 제공하고 수많은 오픈 소스 툴과 프레임워크에 접근할 수 있는 엔드투엔드 머신 러닝(ML) 서비스입니다. NVIDIA GPU, AutoML 기능, 자동화된 하이퍼파라미터 조정을 통해 ML 모델을 구축하고 교육합니다. 모델을 HTTP 끝점으로 배치하거나 Oracle Functions를 사용합니다. 버전 제어, 반복 가능한 작업 및 모델 카탈로그를 통해 모델을 관리합니다.

머신 러닝에 대한 고려 사항

Oracle Cloud Infrastructure Data Science 서비스에서 머신 러닝을 시작할 때 다음 사항을 고려하십시오.

  • 데이터 이해

    데이터는 모든 머신 러닝 프로젝트의 주요 구성요소입니다. 게시된 데이터 세트는 일반적으로 선별되었으며 이미 기능이 추출되었을 수 있으므로 서비스에 대해 알아보는 것이 좋습니다.

    새 데이터를 사용하려면 아티팩트를 정리하고, 누락된 값을 적용하고, 추가 기능으로 데이터세트를 변환, 인코딩 또는 보강하기 위한 추가 작업이 필요합니다.

    데이터 과학자 워크플로우의 이 부분은 일반적으로 가장 많은 시간이 소요되며 머신 러닝 프로젝트에 소요되는 시간의 80~90%를 쉽게 고려할 수 있습니다.

  • Jupyter Notebook 구문 학습

    Oracle Cloud Infrastructure Data Science 서비스는 널리 사용되는 Jupyter Notebook 프레임워크를 기반으로 구축되었습니다. Python 언어로 데이터를 실험할 수 있는 풍부한 시각적 환경을 제공합니다. Python은 데이터 과학에서 가장 인기있는 언어 중 하나이며 Jupyter Notebook은 일부 번거로운 작업을 줄이는 동시에 데이터의 시각적 렌더링을 향상시키는 데 도움이되는 특정 구문 (매직이라고 함)으로 언어를 강화합니다. 이러한 기능을 활용하려면 Jupyter Notebook과 관련된 구문에 대해 자세히 알아보십시오.

  • 값비싼 운영에 작업 사용

    탐색은 Jupyter Notebook 인터페이스에 적합한 매우 대화식 활동이지만 모델 교육 및 초매개변수 튜닝과 같은 값비싼 작업은 오랜 시간이 걸릴 수 있으며 작업 기능으로 오프로드될 수 있으므로 전용 시스템에서 장기 실행 스크립트를 실행할 수 있습니다.