데이터 과학 서비스: 의료 활용 사례

Oracle Cloud Infrastructure Data Science (OCI) Data Science는 데이터 과학 팀이 머신 러닝 모델을 개발, 훈련 및 관리할 수 있는 전담 관리 서버 미사용 플랫폼입니다.

데이터 과학은 Oracle Functions, 데이터 플로우, Autonomous Data Warehouse, 오브젝트 스토리지를 포함한 나머지 OCI 스택과 통합됩니다. Oracle Accelerated Data Science (ADS) 소프트웨어 개발자 키트(SDK)는 Data Science 서비스의 일부로 포함되어 있는 Python 라이브러리로서, 데이터 연결, 데이터 탐색 및 시각화, 데이터 시각화 및 시각화, AutoML로 모델 교육, 모델 평가 및 모델 설명 등 데이터 과학 워크플로우의 단계를 자동화 또는 간소화하는 다양한 기능 및 객체를 포함합니다. ADS는 오브젝트 스토리지를 포함한 데이터 과학 서비스 모델 카탈로그 및 기타 OCI 서비스에 접근할 수 있는 간단한 인터페이스도 제공합니다.

구조

이 유연한 아키텍처는 Oracle Machine Learning 서비스를 기반으로 하는 통합 건전성 네트워크 전체에서 Autonomous Data Warehouse 및 Data Science 플랫폼을 여러 개 지원합니다.

데이터 과학 및 Autonomous Data Warehouse 외에도 이 아키텍처는 데이터 카탈로그, Oracle APEX Application Development 및 Oracle Analytics Cloud도 사용합니다. 또한 OCI 컴퓨트 인스턴스를 사용하여 웨어러블 장치 데이터를 Autonomous Data Warehouse 또는 오브젝트 스토리지에 동적으로 스트리밍할 수 있는 애플리케이션을 호스트합니다. 이 아키텍처는 중요한 데이터를 안전하고 신뢰할 수 있으며 빠르게 검색 가능한 스토리지에 저장하고, 단기간에 애플리케이션과 머신 러닝 모듈을 구축하고 배포하는 등 여러 목적으로 사용됩니다.

다음 다이어그램은 이 참조 아키텍처를 보여줍니다.

architecture-datascience-use-cases.png에 대한 설명

구조에는 다음과 같은 구성 요소가 있습니다.

영역
Oracle Cloud Infrastructure 지역은 가용성 도메인이라는 하나 이상의 데이터 센터를 포함하는 현지화된 지리적 영역입니다. 지역은 다른 지역에 독립적이며, 거리가 먼 나라 전체나 대륙을 구분할 수 있습니다.
가용성 도메인
가용성 도메인은 한 지역 내의 독립형 독립적인 데이터 센터입니다. 각 가용성 도메인의 물리적 리소스는 내결함성을 제공하는 다른 가용성 도메인의 리소스와 격리됩니다. 가용성 도메인은 전원, 냉각 또는 내부 가용성 도메인 네트워크와 같은 인프라를 공유하지 않습니다. 따라서 한 가용성 도메인에서 장애가 발생해도 해당 지역의 다른 가용성 도메인에 영향을 주지 않습니다.
결함 도메인
장애 도메인은 한 가용성 도메인 내 하드웨어와 인프라의 그룹입니다. 각 가용성 도메인에는 독립적인 전원 및 하드웨어의 3개의 장애 도메인이 있습니다. 여러 장애 도메인에 걸쳐 리소스를 분배할 경우 응용 프로그램은 결함 도메인 내에서 물리적 서버 오류, 시스템 유지 관리 및 전원 오류를 허용할 수 있습니다.
VCN(가상 클라우드 네트워크) 및 서브넷
VCN은 Oracle Cloud Infrastructure 지역에서 설정하는 사용자 정의 가능한 소프트웨어 정의 네트워크입니다. 기존의 데이터 센터 네트워크와 마찬가지로 VCN은 네트워크 환경에 대한 완벽한 제어를 제공합니다. VCN에는 VCN을 생성한 후 변경할 수 있는 겹치지 않는 CIDR 블록이 여러 개 있을 수 있습니다. VCN을 영역 또는 가용성 도메인으로 범위가 지정될 수 있는 서브넷으로 분할할 수 있습니다. 각 서브넷은 VCN의 다른 서브넷과 겹치지 않는 연속 주소 범위로 구성됩니다. 서브넷 생성 후 서브넷의 크기를 변경할 수 있습니다. 서브넷은 공용 또는 전용일 수 있습니다.
데이터 과학 서비스
데이터 과학 팀이 머신 러닝 모델을 구축, 교육 및 관리할 수 있는 전담 관리 서버리스 플랫폼입니다. Autonomous Data Warehouse, Object Storage 등과 같은 다른 OCI 서비스와 손쉽게 통합할 수 있습니다.
Autonomous Data Warehouse
Oracle Machine Learning이 포함된 Oracle 자율 데이터베이스입니다. 데이터 과학자는 데이터베이스 내 Oracle Machine Learning 기능 및 관련 Notebooks 인터페이스를 사용하여 머신 러닝 모델을 구축, 평가, 점수 부여 및 배포할 수 있습니다. 자율 트랜잭션 처리를 사용할 수도 있습니다.
애플리케이션 VM
Oracle Linux가 설치되어 있으며 데이터베이스 액세스가 필요한 도구 및 애플리케이션을 설치할 준비가 된 OCI 컴퓨트 인스턴스입니다.
데이터 카탈로그
OCI 데이터 카탈로그는 엔터프라이즈 데이터에 대한 전담 관리 셀프서비스 데이터 검색 및 거버넌스 솔루션입니다. 데이터 카탈로그는 기술, 비즈니스 및 운영 메타데이터를 관리하는 단일 협업 환경을 제공합니다.
Oracle Analytics Cloud
Oracle Analytics Cloud는 데이터 준비, 시각화, 엔터프라이즈 보고, 증강 분석, 자연어 처리 및 생성을 위해 AI로 지원되는 최신 셀프 서비스 분석 기능을 통해 비즈니스 분석가의 역량을 강화합니다.

Oracle Analytics Cloud는 Oracle Machine Learning과 통합됩니다. 이 통합을 통해 분석가는 사용 가능한 데이터베이스 모델을 나열하고 Oracle Analytics Cloud 분석 및 대시보드에서 해당 모델을 사용할 수 있습니다.
APEX
Oracle APEX Application Development는 어디서나 배포할 수 있는 확장 가능하고 안전한 엔터프라이즈 애플리케이션을 구축할 수 있도록 해주는 로우 코드 개발 플랫폼입니다. Autonomous Database에 포함되어 있으며 설치가 필요하지 않습니다. APEX 사용자는 Oracle Machine Learning의 모델과 결과에 액세스할 수 있습니다.

권장 사항

요구 사항은 여기에 설명된 아키텍처와 다를 수 있습니다. 다음 권장 사항을 시작점으로 사용합니다.

VCN
VCN을 생성할 때 VCN의 서브넷에 연결하려는 리소스 수를 기반으로 필요한 CIDR 블록 수 및 각 블록의 크기를 확인하십시오. 표준 전용 IP 주소 공간 내에 있는 CIDR 블록을 사용합니다.

전용 연결을 설정하려는 다른 네트워크(Oracle Cloud Infrastructure, 온프레미스 데이터 센터 또는 다른 클라우드 제공자)와 겹치지 않는 CIDR 블록을 선택합니다.

VCN을 생성한 후에는 해당 CIDR 블록을 변경, 추가 및 제거할 수 있습니다.

서브넷을 설계할 때 트래픽 플로우 및 보안 요구사항을 고려하십시오. 특정 계층 또는 역할 내의 모든 리소스를 동일한 서브넷에 연결하여 보안 경계 역할을 할 수 있습니다.
보안
Oracle Cloud Guard를 통해 OCI에서 리소스의 보안을 사전에 모니터링 및 유지 관리할 수 있습니다. Cloud Guard는 리소스에 대한 보안 취약점을 검사하고 운영자와 사용자의 위험한 작업을 모니터하기 위해 정의할 수 있는 감지기 레시피를 사용합니다. 잘못된 구성이나 비보안 활동이 감지되면 Cloud Guard는 사용자가 정의할 수 있는 응답자 레시피를 기반으로 수정 작업을 권장하고 해당 작업을 지원합니다.

최대 보안이 필요한 리소스의 경우 Oracle은 보안 영역을 사용할 것을 권장합니다. 보안 영역은 모범 사례를 기반으로 하는 Oracle 정의 보안 정책의 레시피와 연관된 구획입니다. 예를 들어, 보안 영역의 리소스는 공용 인터넷에서 액세스할 수 없어야 하며 고객 관리 키를 사용하여 암호화해야 합니다. 보안 영역에서 리소스를 만들고 업데이트할 때 OCI는 보안 영역 레시피의 정책에 대해 작업을 검증하고 모든 정책을 위반하는 작업을 거부합니다.
Autonomous Data Warehouse
데이터 과학자가 단독으로 사용할 수 있도록 별도의 스키마를 생성합니다. 기본 데이터 웨어하우스 스키마에 대한 읽기 전용 액세스 권한을 스키마에 부여합니다. 이 배열을 통해 데이터 과학자는 탐색, 분석 및 모델 구축을 위한 로컬 데이터 뷰를 작성할 수 있습니다. 필요한 경우 공유 데이터를 자신의 스키마에 복사하여 로컬에서 수정할 수 있습니다.
가상 시스템
VM은 고가용성을 위해 여러 장애 도메인에 분산됩니다. 컴퓨트 인스턴스에 유연한 VM 구성을 사용하는 것이 좋습니다. 그러면 몇 분만에 VM 용량을 늘리거나 줄일 수 있습니다.
객체 스토리지
오브젝트 스토리지는 신뢰할 수 있고 비용 효율적인 데이터 내구성을 제공하며 데이터베이스 데이터, 분석 데이터, 이미지, 비디오 등 모든 콘텐츠 유형의 정형 및 비정형 데이터에 빠르게 접근할 수 있도록 합니다. 애플리케이션과 사용자가 신속하게 접근할 수 있으므로 표준 스토리지를 사용하여 외부 소스에서 데이터를 입수하는 것이 좋습니다. 더 이상 자주 액세스할 필요가 없을 때 표준 스토리지에서 아카이브 스토리지로 데이터를 이동하는 라이프사이클 정책을 구축할 수 있습니다.

고려 사항

이 참조 아키텍처를 배포할 때는 다음 사항을 고려하십시오.

보안
정책을 사용하여 기업이 OCI 리소스에 액세스할 수 있는 사용자 및 액세스 방법을 제한합니다.
애플리케이션 가용성
장애 도메인은 단일 가용성 도메인 내에서 최적의 복원성을 제공합니다. 여러 장애 도메인에서 동일한 작업을 수행하는 컴퓨트 인스턴스를 배포할 수 있습니다. 이 설계는 중복성을 도입하여 단일 오류 지점을 제거합니다.
비용
요구사항을 평가하여 적합한 컴퓨트 구성을 선택합니다.
모니터링 및 알림
필요에 따라 구성을 확장하거나 축소할 수 있도록 노드의 CPU 및 메모리 사용량에 대한 모니터링 및 경보를 설정합니다.

배치

이 참조 아키텍처를 배포하는 데 필요한 코드는 GitHub에서 제공됩니다. 한 번의 클릭으로 코드를 Oracle Cloud Infrastructure Resource Manager로 가져와서 스택을 생성하고 배포할 수 있습니다. 또는 GitHub의 코드를 컴퓨터에 다운로드하고, 코드를 사용자 정의하고, Terraform CLI를 사용하여 아키텍처를 배포합니다.

Oracle Cloud Infrastructure Resource Manager를 사용하여 배치합니다.
1. 을 누릅니다.
  아직 사인인하지 않은 경우 테넌시 및 사용자 인증서를 입력합니다.
2. 약관을 검토 및 수락합니다.
3. 스택을 배치할 지역을 선택합니다.
4. 화면 프롬프트 및 지침에 따라 스택을 만듭니다.
5. 스택을 생성한 후 Terraform 작업을 누르고 계획을 선택합니다.
6. 작업이 완료될 때까지 기다린 다음 계획을 검토합니다.
  변경하려면 [스택 세부정보] 페이지로 돌아가서 스택 편집을 누르고 필요한 변경을 수행합니다. 그런 다음 계획 작업을 다시 실행합니다.
7. 추가 변경이 필요하지 않은 경우 스택 세부정보 페이지로 돌아가서 Terraform 작업을 누르고 적용을 선택합니다.
GitHub에서 Terraform 코드를 사용하여 배포합니다.
1. GitHub로 이동합니다.
2. 저장소를 로컬 컴퓨터에 복제하거나 다운로드합니다.
3. README 문서의 지침을 따릅니다.

추가 정보

Oracle Cloud Infrastructure Data Science에 대한 자세한 내용은 다음 리소스를 참조하십시오.