OCI 내 생성형 AI 및 LLM을 위한 안전하고 확장 가능한 셀프 서비스 플랫폼 지원
데이터 과학자, 개발자 및 IT 팀이 고급 AI 모델을 독립적으로 구축, 테스트 및 배포하는 동시에 엔터프라이즈급 거버넌스 및 인프라 최적화를 보장할 수 있도록 지원합니다.
이 솔루션은 Oracle Cloud Infrastructure(OCI)에서 보안 액세스, 확장 가능한 인프라 및 엔터프라이즈급 거버넌스를 결합하는 셀프 서비스 모델에서 생성형 인공 지능(AI) 및 대규모 언어 모델(LLM) 이니셔티브를 지원하는 데 필요한 핵심 기능을 제공합니다.
사용 사례 및 지원되는 서비스:
- BYOLLM(Bring Your Own Large Language Model)/코드 보안 검증
타사 모델(예: Hugging Face)은 GPU 가속을 통해 격리된 "플레이그라운드" 환경에 배포되며 자동화된 보안 검증을 수행합니다. OCI Functions, Oracle Identity Cloud Service(IDCS) 및 OCI Identity and Access Management(IAM) 정책은 검사, 액세스 제어 및 보안 실행에 사용됩니다.
- 데이터 과학 놀이터
데이터 과학 놀이터는 데이터 과학 실험을 위해 설계된 유연하고 확장 가능한 환경입니다. 고급 GPU 인프라를 기반으로 문서 관리 및 임베딩을 위한 Oracle Database 23ai 및 최적화된 벡터 및 객체 스토리지와의 원활한 통합을 제공하여 AI 프로젝트의 신속한 프로토타이핑 및 효율적인 확장에 이상적입니다.
- 멀티모달 AI
OCI는 텍스트, 음성 및 이미지 입력을 통합하여 멀티모달 모델을 지원합니다. 이 모델은 고성능 GPU 인스턴스에서 호스팅됩니다.
- 음성-텍스트
OCI Speech는 오디오를 높은 정확도로 텍스트로 변환하는 Oracle의 음성-텍스트 서비스입니다. OCI에 통합되어 여러 언어, 실시간 및 일괄 처리 필사를 지원하며 발표자 분음, 단어 수준의 신뢰도 및 공격적인 언어 필터링과 같은 고급 기능을 제공합니다. 또한 확장 가능한 실시간 처리를 위해 다른 OCI 서비스와 원활하게 연결됩니다.
- 검색 증강 세대
OCI는 Oracle Database 23ai 및 OCI Object Storage를 생성형 AI 서비스와 통합하여 종합적인 검색 증강 생성(RAG) 솔루션을 제공합니다. 데이터는 벡터 임베딩으로 변환되고 Oracle Autonomous Database에 저장되어 효율적인 의미 검색을 지원합니다. 생성된 응답은 관련성이 높은 최신 정보로 보완됩니다. RAG 워크플로는 이벤트 기반 실행, 자동화된 데이터 수집, 실시간 확장성을 지원하는 OCI Connector Hub를 통해 통합관리됩니다.
이벤트 기반 실행 및 데이터 수집 파이프라인과의 통합을 지원하는 OCI Connector Hub를 통해 RAG 워크플로를 통합관리할 수 있습니다.
- 벡터 데이터베이스
Oracle Database 23ai는
VECTOR
데이터 유형을 통해 네이티브 벡터 데이터베이스 기능을 제공하므로 표준 SQL을 사용하여 임베딩 및 시맨틱 검색을 저장할 수 있습니다. 벡터 인덱싱, ONNX 기반 또는 외부 임베딩 생성, 유사성 쿼리에 대한 정밀도 제어를 지원합니다. Exadata에 최적화되어 별도의 벡터 저장소가 필요하지 않으므로 통합 Oracle 환경 내에서 RAG, 권장 사항 및 생성형 AI와 같은 사용 사례를 지원합니다. - OCI Generative AI 에이전트
이 에이전트는 OCI Generative AI 서비스 또는 OCI 베어메탈 GPU 인프라에서 실행되는 타사 모델을 기반으로 구동됩니다.
- OCI 속도
높은 처리량과 성능을 보장하기 위해 베어메탈 인스턴스(예: A100, H200, B200, GB200)는 대규모 모델의 학습 및 추론에 사용되어 신속한 실험과 프로덕션급 워크로드를 지원합니다.
구조
이 아키텍처는 Oracle Cloud Infrastructure(OCI)가 개발, 통합 및 사용자 상호작용 전반에 걸쳐 엔드투엔드 생성형 AI 워크플로를 지원하는 방식을 보여줍니다.
플로우 A: 통합
- 고객 응용 프로그램
- Oracle Integration
- OCI Object Storage(버킷)
- OCI 이벤트 감지
- OCI Streaming 및 OCI Connector Hub
- OCI 함수(논리적 실행)
- Oracle Process Cloud Service(GPU별 추론)
- 데이터 계층(Oracle Database 23ai 및 버킷)
플로우 B: 사용자 상호작용
- 최종 사용자 인터페이스(Apex)
- 애플리케이션(OCI GenAI 에이전트, OCI 음성, Oracle Digital Assistant)
- Oracle Process Cloud Service(GPU별 추론)
- 데이터 계층(Oracle Database 23ai 및 버킷)
Flow C: 개발 및 샌드박스
- 외부 모델 소스
- 코드 보안 검증
- 개발 및 테스팅
- 자동화 파이프라인-생산
다음 다이어그램은 이 참조 구조를 보여줍니다.
ai-llm-workflow-아키텍처-oracle.zip
기능 도메인별 아키텍처 개요
- 개발 및 교육(셀프 서비스 작업 영역)
이 아키텍처는 LLM 운영을 위한 중앙화된 구획으로 구성되어 있습니다.
- Data Science는 모델 개발, Jupyter 노트북 및 사전 구축된 ML 프레임워크를 위한 통합 작업영역을 제공합니다. 모델 배치 및 작업 실행을 위한 빠른 작업 툴이 포함되어 있습니다.
- 모델 배포는 모델 테스트 및 배포를 위해 VM(가상 머신)을 호스팅합니다. 사용자는 모델을 프로덕션으로 이동하기 전에 여기에서 모델을 검증할 수 있습니다.
- Playground는 GPU 가속 환경(Flex VM, A10, A100, LS40)으로 커스텀 및 서드파티 모델(예: Hugging Face)을 위한 격리된 고성능 컴퓨트 리소스를 제공합니다. BYOLLM(Bring Your Own LLM) 워크플로를 위한 실험 구역 역할을 합니다.
- 애플리케이션 및 기능 계층
- OCI Speech 및 언어 API는 필사, NLU 및 엔티티 추출을 위한 즉시 사용 가능한 서비스를 제공합니다.
- OCI Functions는 AI 파이프라인의 실시간 전사, NLP 및 서버리스 실행에 사용됩니다.
- APEX 프론트엔드 및 모니터링 도구는 사용자 상호 작용, 분석 및 거버넌스를 위한 인터페이스를 제공합니다.
- OCI GenAI 에이전트 및 디지털 어시스턴트는 엔터프라이즈 데이터 및 통합 LLM을 사용하여 대화형 경험을 지원합니다.
- 프로세싱 (생산 계층)
- OCI Kubernetes Engine(OKE)은 프로덕션 모델 및 추론 서비스의 컨테이너화된 배포를 지원합니다.
- OCI Generative AI는 안전하고 확장 가능한 엔터프라이즈 사용 사례를 지원하는 Oracle 호스팅 또는 맞춤형, 미세 조정된 LLM에 대한 API 기반 액세스를 제공합니다.
- GPU 인프라(H100 및 RDMA 지원)
- 베어메탈 GPU 인스턴스(H100 with RDMA)는 대규모 LLM 워크로드에 이상적인 처리량이 많고 대기 시간이 짧은 통신으로 멀티노드, 분산형 교육 및 추론을 지원합니다.
- Kubernetes 및 NVIDIA MIG(Multi-Instance GPU) 기술에 최적화된 이 설정은 GPU 통합관리 및 동적 리소스 공유를 지원하므로 팀 전체의 부분 GPU 할당 및 다중 사용자 스케줄링이 가능합니다.
- 데이터 및 지식 계층
- 벡터 및 의미 검색 지원을 통해 향상된 Oracle Database 23ai는 검색 증강 생성(RAG) 워크플로의 검색 계층 역할을 합니다.
- OCI Object Storage 버킷은 구조화되지 않은 데이터, 임베딩, 문서 및 모델 아티팩트를 저장합니다.
- MLOps(생산 모델 파이프라인)
- 이 아키텍처에는 플레이그라운드 환경에서 프로덕션으로 모델을 프로모션하기 위한 CI/CD 파이프라인이 포함되어 있습니다. 현재 OCI DevOps은 OCI의 네이티브, 완전 관리형, 지속적 통합 및 지속적 제공(CI/CD) 서비스로, 기업은 실험부터 운영까지 머신러닝 모델의 배포를 자동화할 수 있다.
- Git과 통합된 빌드 파이프라인입니다.
- VM 또는 컨테이너에 대한 자동 배포
- OCI 아티팩트 레지스트리, OCI 함수, OCI API 게이트웨이와의 네이티브 통합.
- 통합 및 보안 계층
- OCI Object Storage 버킷은 모델, 학습 데이터, 추론 출력 및 임베딩을 위한 중앙 스토리지 역할을 합니다.
- OCI 이벤트, OCI Streaming, OCI Connector Hub는 환경 전반에서 이벤트 기반 통합관리 및 서비스 통합을 지원합니다.
- Oracle Identity Cloud Service, IAM 정책, OCI 로깅 및 보안 목록은 모든 OCI 서비스에서 강력한 거버넌스, 인증, 액세스 제어 및 규제 준수 기능을 제공합니다.
- Oracle Integration은 온프레미스 시스템과 클라우드 서비스 간의 안전하고 원활한 통합을 지원하는 사전 구축된 미들웨어 플랫폼으로, 이기종 애플리케이션 전반에서 실시간 데이터 동기화, API 통합관리 및 프로세스 자동화를 지원합니다.
아키텍처의 구성 요소는 다음과 같습니다.
- 가용성 도메인
가용성 도메인은 한 지역 내의 독립형 독립형 데이터 센터입니다. 각 가용성 도메인의 물리적 리소스는 내결함성을 제공하는 다른 가용성 도메인의 리소스와 격리됩니다. 가용성 도메인은 전원 또는 냉각과 같은 인프라나 내부 가용성 도메인 네트워크를 공유하지 않습니다. 따라서 한 가용성 도메인의 장애가 해당 지역의 다른 가용성 도메인에 영향을 미치지 않아야 합니다.
- 베어메탈
Oracle의 베어메탈 서버는 전용 컴퓨트 인스턴스를 사용하여 격리, 가시성 및 제어를 제공합니다. 서버는 많은 코어 수, 많은 양의 메모리 및 높은 대역폭이 필요한 응용 프로그램을 지원합니다. 최대 192개 코어, 2.3TB RAM 및 최대 1PB의 블록 스토리지를 확장할 수 있습니다. 고객은 다른 퍼블릭 클라우드 및 온프레미스 데이터 센터에 비해 성능이 크게 향상된 Oracle의 베어메탈 서버에서 클라우드 환경을 구축할 수 있습니다.
- 구획
구획은 OCI 테넌시 내의 영역 간 논리적 분할 영역입니다. 구획을 사용하여 Oracle Cloud 리소스에 대한 사용 할당량을 구성, 제어 및 설정합니다. 지정된 컴파트먼트에서 액세스를 제어하고 리소스에 대한 권한을 설정하는 정책을 정의합니다.
- 커넥터 허브
Oracle Cloud Infrastructure Connector Hub는 OCI의 서비스 간 데이터 이동을 조정하는 메시지 버스 플랫폼입니다. 커넥터를 사용하여 소스 서비스에서 대상 서비스로 데이터를 이동할 수 있습니다. 또한 커넥터를 사용하면 대상 서비스로 전달되기 전에 데이터에 수행할 작업(예: 함수)을 선택적으로 지정할 수 있습니다.
OCI Connector Hub를 사용하여 보안 정보 및 이벤트 관리(SIEM) 시스템을 위한 로깅 집계 프레임워크를 빠르게 구축할 수 있습니다.
- DRG(동적 경로 지정 게이트웨이)
The DRG is a virtual router that provides a path for private network traffic between VCNs in the same region, between a VCN and a network outside the region, such as a VCN in another OCI region, an on-premises network, or a network in another cloud provider.
- FastConnect
Oracle Cloud Infrastructure FastConnect는 데이터 센터와 OCI 간의 전용 개인 연결을 생성합니다. FastConnect은 인터넷 기반 연결에 비해 더 높은 대역폭 옵션과보다 안정적이고 일관적인 네트워킹 환경을 제공합니다.
- 고성능 컴퓨터
고성능 컴퓨팅은 대규모 병렬 워크로드를 위해 클러스터 네트워킹 및 고속 프로세서 코어가 필요한 워크로드를 위해 설계되었습니다.
- 인터넷 게이트웨이
인터넷 게이트웨이는 VCN의 공용 서브넷과 공용 인터넷 간의 트래픽을 허용합니다.
- 온프레미스 네트워크
조직에서 사용하는 로컬 네트워크입니다.
- 지역
OCI 리전은 가용성 도메인을 호스팅하는 데이터 센터가 하나 이상 포함된 지역화된 지리적 영역입니다. 지역은 다른 지역과 독립적이며, 광대한 거리는 (국가 또는 대륙에 걸쳐) 그들을 분리 할 수 있습니다.
- 경로 테이블
가상 경로 테이블에는 일반적으로 게이트웨이를 통해 서브넷에서 VCN 외부의 대상으로 트래픽을 라우팅하는 규칙이 포함되어 있습니다.
- 보안 목록
각 서브넷에 대해 서브넷 내부 및 외부에서 허용되는 트래픽의 소스, 대상 및 유형을 지정하는 보안 규칙을 생성할 수 있습니다.
- 서비스 게이트웨이
서비스 게이트웨이는 VCN에서 Oracle Cloud Infrastructure Object Storage와 같은 다른 서비스로의 액세스를 제공합니다. VCN에서 Oracle 서비스로의 트래픽은 Oracle 네트워크 패브릭을 통해 이동하며 인터넷을 순회하지 않습니다.
- Tenancy
테넌시는 OCI에 등록할 때 Oracle이 Oracle Cloud 내에서 설정하는 안전하고 격리된 파티션입니다. 테넌시 내에서 OCI에서 리소스를 생성, 구성 및 관리할 수 있습니다. 테넌시는 회사 또는 조직과 동의어입니다. 일반적으로 회사는 단일 테넌시를 가지며 해당 테넌시 내의 조직 구조를 반영합니다. 단일 테넌시는 대개 단일 구독과 연관되며, 단일 구독에는 일반적으로 하나의 테넌시만 있습니다.
- VCN(가상 클라우드 네트워크에 연결) 및 서브넷
VCN은 OCI 리전에 설정하는 커스터마이징 가능한 소프트웨어 정의 네트워크입니다. 기존 데이터 센터 네트워크와 마찬가지로 VCN을 사용하면 네트워크 환경을 제어할 수 있습니다. VCN에는 VCN을 생성한 후 변경할 수 있는 겹치지 않는 CIDR(클래스리스 도메인 간 경로 지정) 블록이 여러 개 있을 수 있습니다. VCN을 서브넷으로 분할할 수 있으며, 이 서브넷은 지역 또는 가용성 도메인으로 범위가 지정될 수 있습니다. 각 서브넷은 VCN의 다른 서브넷과 겹치지 않는 연속적인 주소 범위로 구성됩니다. 썸네일의 크기는 생성 이후 변경할 수 있습니다. 서브넷은 공용 또는 전용일 수 있습니다.
- Oracle Database 23ai
Oracle Database 23ai 릴리스는 AI 및 개발자 생산성에 중점을 두고 있습니다. Oracle의 컨버지드 데이터베이스에 AI Vector Search를 추가하여 데이터에 AI를 제공합니다. 새로운 통합 개발 패러다임과 미션 크리티컬 기능이 결합된 이 기능은 개발자 및 데이터 전문가가 AI를 통해 앱, 애플리케이션 개발, 미션 크리티컬 워크로드를 손쉽게 구동할 수 있게 해 줍니다.
- 이벤트
OCI의 서비스는 리소스의 변경 사항을 기술하는 구조화된 메시지인 이벤트를 내보냅니다. 이벤트는 CRUD(생성, 읽기, 업데이트 또는 삭제) 작업, 리소스 수명 주기 상태 변경 및 클라우드 리소스에 영향을 주는 시스템 이벤트를 위해 내보냅니다.
- 로깅Oracle Cloud Infrastructure Logging은 클라우드의 리소스에서 다음과 같은 유형의 로그에 액세스할 수 있는 확장성이 뛰어난 완전 관리형 서비스입니다.
- 감사 로그: OCI 감사에서 생성된 이벤트와 관련된 로그입니다.
- 서비스 로그: OCI API Gateway, OCI Events, OCI Functions, OCI Load Balancing, OCI Object Storage, VCN 플로우 로그 등 개별 서비스에 의해 게시된 로그입니다.
- 사용자정의 로그: 사용자정의 애플리케이션, 기타 클라우드 제공자 또는 온프레미스 환경의 진단 정보가 포함된 로그입니다.
- 모니터링
Oracle Cloud Infrastructure Monitoring은 클라우드 리소스를 능동적이고 수동적으로 모니터링하고, 측정항목이 지정된 트리거를 충족할 때 알람을 사용하여 통지합니다.
- OCI Registry
Oracle Cloud Infrastructure Registry는 개발-운용 워크플로우를 간소화할 수 있는 Oracle 관리형 서비스입니다. 레지스트리를 사용하면 Docker 이미지와 같은 개발 아티팩트를 쉽게 저장, 공유 및 관리할 수 있습니다.
- 음성
Oracle Cloud Infrastructure Speech는 음성 언어의 기능을 활용하므로 사람의 말이 포함된 미디어 파일을 매우 정확한 텍스트 필사로 쉽게 변환할 수 있습니다. 콘솔, REST API, CLI 및 SDK를 사용하여 액세스할 수 있습니다.
- 워크플로우
Oracle Cloud Infrastructure Workflow는 개발자 및 설계자를 위한 그래픽 플로우 디자이너가 포함된 서버리스 워크플로우 엔진입니다. 또한 OCI Functions 또는 AI/ML과 같은 OCI 서비스의 생성, 실행, 통합관리를 가속화합니다.
- APEX 서비스
Oracle APEX Application Development는 Oracle Database가 설치된 모든 곳에 배포할 수 있는 확장 가능하고 기능이 풍부하고 안전한 엔터프라이즈 앱을 구축할 수 있는 로우 코드 개발 플랫폼입니다. 정교한 솔루션을 제공하기 위해 방대한 기술 전문가일 필요는 없습니다. APEX Service에는 사용자 인터페이스 테마, 탐색 컨트롤, 폼 처리기 및 애플리케이션 개발 프로세스를 가속화하는 유연한 보고서와 같은 내장 기능이 포함되어 있습니다.
- API 게이트웨이
Oracle Cloud Infrastructure API Gateway를 사용하면 네트워크 내에서 액세스할 수 있고 필요한 경우 퍼블릭 인터넷에 노출할 수 있는 프라이빗 끝점이 있는 API를 게시할 수 있습니다. 엔드포인트는 API 검증, 요청 및 응답 변환, CORS, 인증 및 권한 부여, 요청 제한을 지원합니다.
- OCI 블록 볼륨
Oracle Cloud Infrastructure Block Volumes를 사용하면 스토리지 볼륨을 생성, 연결, 연결 및 이동하고 볼륨 성능을 변경하여 스토리지, 성능 및 애플리케이션 요구 사항을 충족할 수 있습니다. 볼륨을 인스턴스에 연결한 후 일반 하드 드라이브와 같은 볼륨을 사용할 수 있습니다. 또한 데이터 손실 없이 볼륨 연결을 해제하고 다른 인스턴스에 연결할 수 있습니다.
- 컴퓨트
Oracle Cloud Infrastructure Compute를 사용하면 클라우드에서 컴퓨트 호스트를 프로비저닝하고 관리할 수 있습니다. CPU, 메모리, 네트워크 대역폭 및 스토리지에 대한 리소스 요구 사항을 충족하는 쉐이프를 사용하여 컴퓨트 인스턴스를 실행할 수 있습니다. 컴퓨팅 인스턴스를 생성한 후에는 안전하게 액세스하고, 재시작하고, 볼륨을 연결 및 분리하고, 더 이상 필요하지 않을 때 종료할 수 있습니다.
- Data Science
Oracle Cloud Infrastructure Data Science는 데이터 과학 팀이 OCI에서 머신 러닝(ML) 모델을 구축, 교육 및 관리하는 데 사용할 수 있는 완전 관리형 서버리스 플랫폼입니다. Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage 등과 같은 다른 OCI 서비스와 쉽게 통합할 수 있습니다. 엔터프라이즈 신뢰 데이터를 신속하게 작동시켜 비즈니스 유연성을 높이는 고품질 머신 러닝 모델을 구축하고 평가할 수 있으며, ML 모델을 보다 쉽게 배포하여 데이터 기반 비즈니스 목표를 지원할 수 있습니다. 데이터 사이언스를 사용하면 데이터 사이언티스트와 머신 러닝 엔지니어가 Anaconda Repository의 패키지를 무료로 사용할 수 있습니다.
데이터 과학 작업 기능을 통해 데이터 과학자는 완전 관리형 인프라에서 반복 가능한 머신 러닝 작업을 정의하고 실행할 수 있습니다.
데이터 과학 모델 배포 기능을 통해 데이터 과학자는 학습된 모델을 완전 관리형 HTTP 엔드포인트로 배포하여 실시간으로 예측을 제공하고, 프로세스 및 애플리케이션에 인텔리전스를 주입하고, 비즈니스가 발생 시 관련 이벤트에 대응할 수 있습니다.
- 개발운영
Oracle Cloud Infrastructure DevOps(개발자 운영)는 개발자가 소프트웨어 개발 수명 주기를 간소화하고 자동화할 수 있는 완벽한 CI/CD(지속적 통합/지속적 제공) 플랫폼입니다. OCI DevOps는 개발자와 운영자가 공동으로 소프트웨어를 개발, 구축, 테스트 및 배포할 수 있게 해줍니다. 개발자와 운영자는 빌드, 테스트 및 배포 단계를 통한 소스 커밋 내역을 통해 전체 개발 수명 주기에 대한 가시성을 확보할 수 있습니다.
- 함수
Oracle Cloud Infrastructure Functions는 완전 관리형 멀티테넌트, 확장성이 뛰어난 온디맨드 Functions-as-a-Service(FaaS) 플랫폼입니다. 그것은 Fn 프로젝트 오픈 소스 엔진에 의해 구동 됩니다. OCI 함수를 사용하면 코드를 배포하고 직접 호출하거나 이벤트에 대한 응답으로 트리거할 수 있습니다. OCI Functions는 Oracle Cloud Infrastructure Registry에서 호스팅되는 Docker 컨테이너를 사용합니다.
- ID 및 액세스 관리
Oracle Cloud Infrastructure Identity and Access Management(IAM)는 OCI 및 Oracle Cloud Applications에 대한 사용자 액세스 제어를 제공합니다. IAM API 및 사용자 인터페이스를 통해 ID 도메인 및 해당 도메인 내의 리소스를 관리할 수 있습니다. 각 OCI IAM ID 도메인은 독립형 ID 및 액세스 관리 솔루션 또는 다른 사용자 모집단을 나타냅니다.
- 통합
Oracle Integration은 클라우드 및 온프레미스 애플리케이션을 통합하고, 비즈니스 프로세스를 자동화하고, 시각적 애플리케이션을 개발할 수 있는 완전 관리형 사전 구성 환경입니다. SFTP 호환 파일 서버를 사용하여 파일을 저장 및 검색하고 수백 개의 어댑터 및 레시피 포트폴리오를 사용하여 Oracle 및 타사 애플리케이션과 연결하여 B2B 거래 파트너와 문서를 교환할 수 있습니다.
- Kubernetes 클러스터
Kubernetes 클러스터는 컨테이너화된 애플리케이션을 실행하는 머신 세트입니다. Kubernetes는 해당 노드에서 컨테이너화된 워크로드 및 서비스를 관리할 수 있는 확장 가능한 이식 가능한 오픈 소스 플랫폼을 제공합니다. Kubernetes 클러스터는 작업자 노드 및 제어 플레인 노드로 구성됩니다.
- Kubernetes 제어 플레인
Kubernetes 제어 플레인은 Kubernetes 클러스터 내의 작업자 노드 및 POD에 대한 리소스를 관리합니다. 제어 플레인 구성 요소는 이벤트를 감지 및 응답하고, 일정을 잡고, 클러스터 리소스를 이동합니다.
제어 평면 구성요소는 다음과 같습니다.- kube-apiserver: Kubernetes API 서버를 실행합니다.
- etcd: 모든 클러스터 데이터에 대한 분산 키-값 저장소입니다.
- kube-scheduler: 지정되지 않은 새 포드를 실행할 노드를 결정합니다.
- kube-controller-manager: 컨트롤러 프로세스를 실행합니다.
- cloud-controller-manager: 클라우드별 API와 클러스터를 연결합니다.
- OCI Kubernetes 엔진
Oracle Cloud Infrastructure Kubernetes Engine(OCI Kubernetes Engine 또는 OKE)는 컨테이너화된 애플리케이션을 클라우드에 배치하는 데 사용할 수 있는 확장 가능한 완전 관리형 고가용성의 서비스입니다. 애플리케이션에 필요한 컴퓨트 리소스를 지정하고 OKE가 기존 테넌시의 OCI에서 프로비저닝합니다. OKE는 Kubernetes를 사용하여 호스트 클러스터 전반에 걸쳐 컨테이너화된 애플리케이션의 배포, 확장 및 관리를 자동화합니다.
- Kubernetes 워커 노드에서
Kubernetes 작업자 노드는 Kubernetes 클러스터 내에서 컨테이너화된 애플리케이션을 실행하는 작업자 시스템입니다. 모든 클러스터에는 워커 노드가 하나 이상 있습니다.
- 오브젝트 스토리지
OCI Object Storage는 데이터베이스 백업, 분석 데이터, 이미지 및 비디오와 같은 리치 콘텐츠 등 모든 콘텐츠 유형의 대량의 정형 및 비정형 데이터에 대한 액세스를 제공합니다. 인터넷 또는 클라우드 플랫폼 내에서 직접 안전하고 안전하게 데이터를 저장할 수 있습니다. 성능 또는 서비스 안정성이 저하되지 않고 스토리지를 확장할 수 있습니다.
신속하고 즉각적이며 자주 액세스하는 데 필요한 "핫" 스토리지에 표준 스토리지를 사용합니다. 장기간 보관하며 거의 또는 거의 액세스하지 않는 "콜드" 스토리지에 아카이브 스토리지를 사용합니다.
- 스트리밍
Oracle Cloud Infrastructure Streaming은 실시간으로 액세스 및 처리할 수있는 대용량의 연속 데이터 스트림을 입수하기 위한 확장 가능하며 내구성 있는 전담 관리 영구 스토리지 솔루션을 제공합니다. OCI Streaming을 사용하여 애플리케이션 로그, 운영 원격 측정, 웹 클릭-스트림 데이터 같은 대용량 데이터의 수집에 사용하거나, 게시-구독 메시징 모델에서 데이터가 연속적으로 생성되고 처리되는 기타 사용 사례를 입수할 수 있습니다.
- 감사
Oracle Cloud Infrastructure Audit 서비스는 지원되는 모든 OCI 공용 API(애플리케이션 프로그래밍 인터페이스) 끝점에 대한 호출을 로그 이벤트로 자동 기록합니다. 모든 OCI 서비스는 Oracle Cloud Infrastructure Audit의 로깅을 지원합니다.
- 생성형 AI
Oracle Cloud Infrastructure Generative AI는 텍스트 생성, 요약, 의미 검색 등에 대한 광범위한 사용 사례를 다루는 최첨단 맞춤형 대규모 언어 모델(LLM) 세트를 제공하는 완전 관리형 OCI 서비스입니다. 플레이그라운드를 사용하여 즉시 사용 가능한 사전 학습 모델을 시험해 보거나, 전용 AI 클러스터의 자체 데이터를 기반으로 자체 미세 조정된 커스텀 모델을 생성 및 호스팅할 수 있습니다.
- 로드 밸런서
Oracle Cloud Infrastructure Load Balancing은 단일 시작점에서 여러 서버로의 자동 트래픽 분산을 제공합니다.
- NAT(네트워크 주소 변환) 게이트웨이
NAT 게이트웨이는 VCN의 전용 리소스가 들어오는 인터넷 연결에 해당 리소스를 노출하지 않고도 인터넷의 호스트에 액세스할 수 있도록 합니다.
- 생성형 AI
Oracle Cloud Infrastructure Generative AI는 텍스트 생성, 요약, 의미 검색 등에 대한 광범위한 사용 사례를 다루는 최첨단 맞춤형 대규모 언어 모델(LLM) 세트를 제공하는 완전 관리형 OCI 서비스입니다. 플레이그라운드를 사용하여 즉시 사용 가능한 사전 학습 모델을 시험해 보거나, 전용 AI 클러스터의 자체 데이터를 기반으로 자체 미세 조정된 커스텀 모델을 생성 및 호스팅할 수 있습니다.
- Digital Assistant
Oracle Digital Assistant는 사용자를 위해 디지털 어시스턴트를 생성하고 배치할 수 있는 플랫폼입니다. Oracle Digital Assistant를 사용하면 텍스트, 채팅 및 음성 인터페이스를 통해 비즈니스 애플리케이션을 위한 AI 기반 인터페이스(또는 챗봇)를 생성할 수 있습니다. 각 디지털 어시스턴트에는 사용자가 자연어 대화에서 다양한 작업을 완료할 수 있도록 지원하는 하나 이상의 전문 기술 모음이 있습니다. 예를 들어 개별 디지털 어시스턴트에는 재고 추적, 근무 기록 카드 제출, 경비 보고서 생성과 같은 특정 유형의 태스크에 중점을 두는 기술이 있을 수 있습니다.
- 정책
Oracle Cloud Infrastructure Identity and Access Management 정책은 누가 어떤 리소스에 액세스할 수 있는지, 어떻게 액세스할 수 있는지 지정합니다. 그룹 및 구획 레벨에서 액세스 권한이 부여됩니다. 즉, 특정 구획 내에서 또는 테넌시에 대한 특정 유형의 액세스 권한을 그룹에 부여하는 정책을 작성할 수 있습니다.
- 보안 구역
보안 영역은 데이터 암호화 및 네트워크에 대한 공용 액세스 방지와 같은 전체 구획에 대한 정책을 적용하여 주요 Oracle 보안 모범 사례를 구현합니다. 보안 영역은 동일한 이름의 컴파트먼트와 연관되며 컴파트먼트 및 해당 하위 컴파트먼트에 적용되는 보안 영역 정책(레시피)을 포함합니다. 표준 컴파트먼트를 보안 영역 컴파트먼트에 추가하거나 이동할 수 없습니다.
권장사항
셀프 서비스 LLM 개발, MLOps, GPU 최적화, 엔터프라이즈급 통합에 중점을 두고 OCI를 기반으로 구축된 엔터프라이즈 AI 플랫폼의 성공, 확장성, 지속 가능성을 보장합니다.
- 플랫폼 및 전략 거버넌스
- AI가 관리할 전용 부서 간 우수 센터를 구축합니다.
- LLM 교육 및 배포 모범 사례
- 리소스 할당 및 할당량 관리
- 보안, 규정 준수 및 윤리적 AI 사용
- OCI에서 할당량 및 태깅 정책을 활성화하여 부서 및 팀 전반의 추적성과 비용 책임성을 보장함으로써 통제되지 않은 리소스 무분별성을 방지합니다.
- AI가 관리할 전용 부서 간 우수 센터를 구축합니다.
- GPU 리소스 효율성 및 일정 관리
- NVIDIA MIG를 결합하여 GPU 사용량을 최적화합니다. 작업 또는 사용자당 소수 GPU를 할당하여 활용도를 높이고 비용을 절감합니다.
- GPU 분수 솔루션:
- 다중 인스턴스 GPU(MIG)는 NVIDIA A100 및 H100 GPU에서 사용할 수 있는 기능으로, 단일 물리적 GPU를 GPU 인스턴스라고 하는 여러 하드웨어 분리 인스턴스(또는 슬라이스)로 분할할 수 있습니다.
각 인스턴스는 자체적으로 독립적인 GPU로 작동합니다.
- 전용 메모리
- 컴퓨트 코어
- 캐시 및 메모리 대역폭
이를 통해 팀은 예측 가능한 성능과 하드웨어 레벨 격리를 통해 단일 GPU에서 여러 AI 워크로드를 동시에 실행할 수 있습니다.
OCI Kubernetes Engine(OKE)은 MIG 인식 스케줄링을 지원하도록 구성되어 다음과 같은 기능을 제공합니다.
- 각 포드는 특정 MIG 인스턴스(예: A100의 1/7)를 요청합니다.
- Kubernetes 스케줄러는 요청에 따라 사용 가능한 GPU 슬라이스를 지능적으로 할당합니다.
- MIG 인스턴스는 NVIDIA 장치 플러그인 및 노드 기능 검색을 통해 노출되므로 OKE를 통해 검색 가능하고 일정을 잡을 수 있습니다.
- MIG 지원 GPU(예: A100 또는 H100)는 OCI 베어메탈 인스턴스 또는 OKE 작업자 노드로 배포됩니다.
- OKE는 MIG 인식 스케줄링을 통해 컨테이너화된 AI 워크로드를 처리합니다.
- 다중 인스턴스 GPU(MIG)는 NVIDIA A100 및 H100 GPU에서 사용할 수 있는 기능으로, 단일 물리적 GPU를 GPU 인스턴스라고 하는 여러 하드웨어 분리 인스턴스(또는 슬라이스)로 분할할 수 있습니다.
-
MIG 프로파일 조각 분수 전용 메모리 적합 대상... 1g.5gb 1/7 5 GB 경량 추론, 테스트 2g.10gb 2/7 10 GB 소형 모델 미세 조정 3g.20gb 3/7 20 GB 중형 모델 7g.40gb 전체 GPU 40 GB 전체 교육 - OCI 모니터링을 사용하면 수요가 많은 단계에서 병목 현상을 방지할 수 있습니다(예: 모델 학습 스프린트).
- 모델 수명 주기 및 자동화
- Git 및 컨테이너 레지스트리와 통합된 OCI DevOps 파이프라인을 통해 모델을 배포하여 CI/CD를 표준화하여 다음을 자동화합니다.
- 모델 포장
- 테스트 및 검증
- OKE 또는 함수에 배치
- 모델 동작의 회귀를 방지하기 위해 A/B 테스트, 카나리아 배포 및 롤백 논리를 통합하여 롤백 및 검증 단계를 포함합니다.
- Git 및 컨테이너 레지스트리와 통합된 OCI DevOps 파이프라인을 통해 모델을 배포하여 CI/CD를 표준화하여 다음을 자동화합니다.
- 데이터 아키텍처
- 임베딩 저장 및 Oracle AI Vector Search를 통한 의미 검색 기능을 지원하는 Oracle Database 23ai를 배포해 보세요. 이 기능을 다음과 결합합니다.
- OCI Object Storage - 문서
- 검색 통합관리를 위한 OCI Functions
- RAG 출력 정확성을 보장하기 위해 소스 문서가 변경될 때 임베딩을 정기적으로 재계산하고 업데이트하여 벡터 신선도를 유지합니다.
- 임베딩 저장 및 Oracle AI Vector Search를 통한 의미 검색 기능을 지원하는 Oracle Database 23ai를 배포해 보세요. 이 기능을 다음과 결합합니다.
- 보안, 규정 준수 및 관찰 가능성
- OCI IAM 정책, 구획 및 그룹을 사용하여 개발, 테스트 및 운영 환경 간의 명확한 경계를 정의함으로써 IAM 기반 세분화를 적용합니다.
- 모든 중요한 구성요소(OKE, 함수, 스토리지, GPU 노드)에 대해 OCI 로깅, OCI 모니터링, OCI 감사 로그를 활성화하여 모든 중요한 작업을 기록하고 감사할 수 있습니다.
- 멀티클라우드 및 하이브리드 통합
- OCI FastConnect, 서비스 게이트웨이, 프라이빗 엔드포인트를 사용하여 온프레미스 및 타사 AI 서비스(예: Azure OpenAI, AWS Bedrock)와의 빠르고 안전한 통합을 보장합니다.
- 민감한 워크로드에 대한 공용 인터넷 노출을 방지합니다. 가능한 경우 전용 서브넷, NAT 게이트웨이 및 서비스 간 인증을 사용합니다.
- 개발자를 위한 셀프 서비스 등록
- 새 사용자를 셀프 서비스 환경에 빠르고 안전하게 온보딩하기 위해 일련의 OCI Functions, OCI DevOps 파이프라인 및 노트북 템플릿을 제공하여 선별된 스타터 템플릿 및 API를 제공합니다.
- 책임 있는 모델 개발을 위한 정책, 할당량 및 공유 모범 사례를 통해 제어 권한을 유지하면서 사용자의 역량을 강화함으로써 자율성과 보호 장치의 균형을 유지합니다.
고려사항
이 참조 구조를 배치할 때는 다음 사항을 고려하십시오.
- 성능
- 교육, 추론 및 대규모 분산 AI를 포함한 특정 워크로드 요구 사항에 맞게 조정된 A100, H100, H200, B200 및 GB200와 같은 고성능 GPU 인스턴스를 배포합니다.
- RDMA 지원 GPU 클러스터를 활용하여 고대역폭, 저지연 분산 워크로드를 처리할 수 있습니다.
- 리소스 사용량을 지속적으로 모니터링하여 경합을 사전에 완화합니다.
- 보안
- 구획화 및 전용 서브넷을 구현하여 다양한 운영 환경을 격리합니다.
- OCI IAM 및 IDCS를 사용하여 엄격한 액세스 제어를 적용합니다.
- 모든 중요한 작업에 대해 포괄적인 로깅 및 감사 추적을 유지합니다.
- 가용성
- 내결함성을 보장하기 위해 여러 장애 도메인에 중요한 리소스를 분산합니다.
- 탄력성을 유지하기 위해 자동 확장과 함께 OCI Kubernetes Engine(OKE)을 활용합니다.
- 백업, 복구 및 데이터 복제 전략을 검증하여 비즈니스 연속성 목표를 달성합니다.
- 비용
- NVIDIA MIG 분수화를 통해 GPU 활용 효율성을 극대화합니다.
- OCI Object Storage 라이프사이클 정책을 활용하여 계층형 스토리지 전략을 구현합니다.
- 프로젝트 레벨 태그 지정 및 예산 할당량을 사용하여 재무 책임을 유지합니다.
- 통합 및 배포
- OCI DevOps로 CI/CD 워크플로를 표준화하여 모델 라이프 사이클을 간소화하고 자동화할 수 있습니다.
- 안전한 데이터 플로우를 위해 OCI FastConnect 및 동적 라우팅 게이트웨이(DRG)를 사용하여 일관된 멀티클라우드 통합 관행을 보장합니다.
- 데이터 관리
- 정확한 검색을 위해 Oracle Database 23ai에서 시맨틱 임베딩을 정기적으로 관리하고 새로 고칩니다.
- 데이터 사용 패턴(표준 및 아카이브)에 따라 스토리지를 적절하게 분류합니다.
- 사용자 채택 및 관리
- 셀프 서비스 도입을 가속화하기 위해 구조화된 온보딩 리소스를 제공합니다.
- 셀프 서비스 환경을 지속적으로 평가하고 정책을 조정하여 사용자의 자유와 운영 거버넌스의 균형을 맞춥니다.
자세히 살펴보기
OCI가 확장 가능하고, 안전하고, 엔터프라이즈급 생성형 AI 솔루션을 어떻게 지원하는지 확인해 보세요.
다음 추가 리소스를 검토하십시오.
- 인공 지능:
- Generative AI 에이전트
- Oracle Cloud Infrastructure 문서의 생성형 AI 에이전트
- AI 솔루션 허브
- Oracle Digital Assistant를 사용한 다중 AI 에이전트(동영상)
- 검색 증강 생성(RAG)이란?
- 멀티클라우드 생성형 AI 검색 증강 생성(RAG) 배포
- NVIDIA MIG 사용 설명서
- Oracle Cloud Infrastructure:
- Oracle Cloud Infrastructure 문서
- OCI 음성
- OCI OKE RDMA(GitHub)
- Oracle Cloud Infrastructure의 잘 설계된 프레임워크
- Oracle Cloud 비용 예측기
- Oracle Cloud Infrastructure 문서의 FastConnect 개요
- Oracle Cloud Infrastructure 문서의 네트워킹 개요
- Oracle Cloud Infrastructure 문서의 보안 개요
- Oracle Cloud Infrastructure 문서의 Object Storage 개요
- Oracle Cloud Infrastructure 문서의 GPU 구성
- 클라우드 도입 프레임워크
- 멀티클라우드 인바운드 및 아웃바운드 프라이빗 네트워크 연결 배포
- Oracle Integration:
- Oracle Cloud Infrastructure 문서의 Oracle Integration 3
- Oracle Integration 3에서 통합 사용 – 디자인 모범 사례
- Oracle Integration 3에서 통합 사용 – 연결 에이전트 정보