컴퓨트 관리

컴퓨트 클러스터 정보

범용 컴퓨트 클러스터는 AI 데이터 플랫폼 워크벤치 인스턴스에서 워크로드를 처리할 수 있는 컴퓨트 리소스를 제공합니다.

Oracle AI Data Platform Workbench의 컴퓨트 페이지에서 컴퓨트 클러스터를 관리합니다.

왼쪽 창에서 Compute가 강조 표시된 AI 데이터 플랫폼 컴퓨트 페이지

컴퓨트 유형

AI 데이터 플랫폼 워크벤치에는 범용 컴퓨트 클러스터와 기본 마스터 카탈로그 컴퓨트 클러스터의 두 가지 유형의 컴퓨트가 있습니다.

AI 데이터 플랫폼 워크벤치에서는 범용 컴퓨트 클러스터만 생성할 수 있습니다. 다목적 컴퓨트 클러스터는 다양한 워크로드에 적합하며 노트북에 연결하고 워크플로에 사용할 수 있습니다. 달리 명시되지 않는 한, 문서에서 '컴퓨트 클러스터' 또는 '클러스터'에 대한 참조는 모든 용도의 컴퓨트 클러스터를 가리킵니다.

모든 용도의 컴퓨트 클러스터를 새로 생성할 때 Quickstart 또는 사용자정의 구성을 선택할 수 있습니다. Quickstart 구성은 빠른 시작을 제공하도록 최적화되어 있으며, 사용자정의 구성을 사용하면 처리하는 데 필요한 특정 워크로드에 맞게 모든 목적의 컴퓨트 클러스터를 미세 조정할 수 있습니다. Quickstart 및 사용자 정의 구성 옵션 모두에서 원가 예측을 보고 유휴 시간 초과 옵션을 수정할 수 있습니다.

주:

Quickstart에 사용자 정의 라이브러리를 설치하면 모든 용도 컴퓨트 클러스터가 사용자 정의 구성으로 자동으로 변경됩니다. 이는 시작 성능에 영향을 줄 수 있습니다.

기본 마스터 카탈로그 컴퓨트 클러스터가 모든 AI 데이터 플랫폼 워크벤치 인스턴스에 있습니다. 이 클러스터는 검색 크롤, 카탈로그 객체 새로고침, 객체 생성, 편집 및 삭제, 접속 테스트와 같은 필수 AI 데이터 플랫폼 워크벤치 기능을 담당합니다.

클러스터 런타임

모든 용도의 컴퓨트 클러스터는 Apache Spark 3.5 런타임으로 생성할 수 있습니다. 런타임 환경은 다음과 호환됩니다.

Spark 3.5.0
델타 3.2.0 (사전 포함)
Python 3.11
Scala 2.12
Hadoop 3.3.4
Java 17

컴퓨트 클러스터의 유지보수 업데이트

AI Data Platform Workbench 컴퓨팅은 사용자 개입 없이 유지 관리 업데이트를 자동으로 적용합니다. 유지보수 업데이트는 운영체제 및 AI Data Platform Workbench 내부 구성요소에 필요한 모든 보안 패치 또는 버그 수정을 포함합니다.

AI Data Platform Workbench는 이러한 월별 유지보수 업데이트를 적용하기 전에 실행 중인 클러스터가 없는지 확인합니다.

Quickstart 클러스터 생성

AI Data Platform Workbench에서 데이터 및 AI 워크로드를 처리하도록 사전 구성된 설정으로 범용 컴퓨트 클러스터를 생성하도록 선택할 수 있습니다.

QuickStart 구성은 드라이버가 1개, 작업자가 최대 10명인 Apache Spark 클러스터로, 각각 AMD 2 OCPU 및 32GB 메모리가 장착되어 있습니다. 빠른 시작 구성을 위해 자동 스케일링이 기본적으로 사용으로 설정됩니다. 클러스터가 지속적으로 활성화되도록 설정하거나 클러스터가 자동으로 중지될 때까지(유휴 시간 초과) 비활성 간격을 설정할 수 있습니다. 연결된 워크플로우 또는 노트북에서 호출하면 정지된 클러스터가 재개됩니다.

생성 후 언제든지 클러스터를 편집할 수 있습니다.

왼쪽 탐색 패널에서 생성을 누른 다음 컴퓨트를 누릅니다. 작업영역으로 이동하고 컴퓨트를 누른 다음 클러스터 생성을 누를 수도 있습니다.
클러스터를 식별할 이름과 설명을 제공합니다.
런타임 버전을 선택합니다.
클러스터 구성으로 빠른 시작을 선택합니다.
작업자 수가 정적인지 아니면 자동으로 스케일링되는지 선택합니다. 빠른 시작 구성을 위해 자동 스케일링이 기본적으로 사용으로 설정됩니다.
실행 기간에 대해 설정된 비활성 기간 후 클러스터 실행이 정지될지 여부를 선택합니다. 유휴 시간 초과가 선택된 경우 클러스터가 시간 초과되기 전의 유휴 시간(분)을 지정합니다.
생성을 누릅니다.

사용자 정의 클러스터 만들기

AI 데이터 플랫폼 워크벤치에서 데이터 및 AI 워크로드를 처리하도록 선택한 구성 설정을 사용하여 범용 컴퓨트 클러스터를 생성할 수 있습니다.

커스터마이징 클러스터는 요구사항에 맞게 전체 범위의 구성 옵션을 활용하려는 고급 사용자를 대상으로 합니다. 처리하려는 워크로드에 가장 적합한 드라이버 및 작업자 옵션을 선택해야 합니다. 클러스터가 지속적으로 활성화되도록 설정하거나 클러스터가 자동으로 중지될 때까지(유휴 시간 초과) 비활성 간격을 설정할 수 있습니다. 연결된 워크플로우 또는 노트북에서 호출하면 정지된 클러스터가 재개됩니다.

생성 후 언제든지 클러스터를 편집할 수 있습니다.

왼쪽 탐색 패널에서 생성을 누른 다음 컴퓨트를 누릅니다. 작업영역으로 이동하고 컴퓨트를 누른 다음 클러스터 생성을 누를 수도 있습니다.
클러스터를 식별할 이름과 설명을 제공합니다.
런타임 버전을 선택합니다.
클러스터에 대한 드라이버 옵션을 선택합니다.
클러스터에 대한 작업자 옵션을 선택합니다. 이러한 옵션은 모든 클러스터 워커에 적용됩니다.
워커 수가 정적인지 아니면 자동으로 스케일링되는지 선택합니다.
- 정적 금액인 경우 워커 수를 지정합니다.
- 자동 스케일인 경우 클러스터가 확장할 수 있는 최소 및 최대 워커 수를 지정합니다.
실행 기간에 대해 설정된 비활성 기간 후 클러스터 실행이 정지될지 여부를 선택합니다. 유휴 시간 초과가 선택된 경우 클러스터가 시간 초과되기 전의 유휴 시간(분)을 지정합니다.
생성을 누릅니다.

NVIDIA GPU 클러스터 생성

모든 용도 컴퓨팅 클러스터에서 NVIDIA GPU를 사용하여 통합 AI 및 데이터 파이프라인의 모든 워크로드를 가속화하도록 선택할 수 있습니다.

NVIDIA GPU 구성은 다음과 같은 구성을 사용합니다.

표 14-1 NVIDIA GPU 구성

GPU 수	OCPU	블록 스토리지(GB)	GPU 메모리(GB)	CPU 메모리(GB)
1	15	1500	24	240
2	30	3000	48	480

주:

NVIDIA GPU 구성을 사용하는 경우 드라이버 및 워커 구성이 모두 NVIDIA GPU여야 합니다. 동일한 클러스터에 대한 CPU 및 GPU 구성 혼합은 현재 지원되지 않습니다.

왼쪽 탐색 패널에서 생성을 누른 다음 컴퓨트를 누릅니다. 작업영역으로 이동하고 컴퓨트를 누른 다음 클러스터 생성을 누를 수도 있습니다.
클러스터를 식별할 이름과 설명을 제공합니다.
런타임 버전을 선택합니다.
클러스터 구성으로 사용자정의를 선택합니다.
클러스터 드라이버 옵션의 경우:
- 드라이버 구성으로 NVIDIA GPU를 선택합니다.
- GPU 개수로 1 또는 2를 선택합니다.
클러스터 작업자 옵션의 경우:
- NVIDIA GPU를 워커 구성으로 선택합니다.
- GPU 개수로 1 또는 2를 선택합니다.
워커 수가 정적인지 아니면 자동으로 스케일링되는지 선택합니다.
- 정적 금액인 경우 워커 수를 지정합니다.
- 자동 스케일인 경우 클러스터가 확장할 수 있는 최소 및 최대 워커 수를 지정합니다.
실행 기간에 대해 설정된 비활성 기간 후 클러스터 실행이 정지될지 여부를 선택합니다. 유휴 시간 초과가 선택된 경우 클러스터가 시간 초과되기 전의 유휴 시간(분)을 지정합니다.
생성을 누릅니다.

NVIDIA GPU 클러스터 튜닝

GPU 제공업체의 권장사항을 사용하고 선택적 라이브러리를 설치하여 성능을 최적화하도록 NVIDIA GPU 클러스터를 조정할 수 있습니다.

GPU 클러스터를 튜닝하면 AI Data Platform Workbench의 작업에서 호출될 때 해당 클러스터의 성능을 최적화할 수 있습니다.

NVIDIA GPU 기반 클러스터의 경우 NVIDIA의 튜닝 가이드에 따라 성능 최적화를 위해 취할 수 있는 권장 사항과 단계를 확인할 수 있습니다.

또한 최적화를 지원하기 위해 Spark RAPIDS 라이브러리를 설치할 수도 있습니다.

Spark RAPIDS 라이브러리는 Apache Spark용 RAPIDS 가속기이며 GPU를 활용하여 처리 속도를 높이는 플러그인 세트를 제공합니다.
Spark RAPIDS ML 라이브러리는 Apache Spark에서 GPU 가속 분산 머신 러닝을 지원하고 RAPIDS cuML 라이브러리를 기반으로 하는 여러 PySpark ML 호환 알고리즘을 제공합니다.

Spark RAPIDS 라이브러리는 일반적으로 기능 엔지니어링 및 데이터 청소에 먼저 사용되며 Spark RAPIDS ML 라이브러리를 사용하여 교차 검증이 대규모로 수행됩니다. 이러한 라이브러리는 사기 감지(시계열), 웹 클릭스트림 및 A/B 실험과 같은 사용 사례에 사용할 수 있습니다.

표 14-2 권장 Spark 구성

설정	값	참고
spark.executor.instance	4	워커 수 x 워커당 GPU 수 작업자 수가 4이고 작업자당 GPU 수가 1이면 권장되는 spark.executor.instances 구성은 4 x 1 = 4입니다.
spark.executor.cores	16	GPU 수/작업자/CPU 코어, 최대 16개
spark.executor.memory	32 GB	2GB/코어 또는 작업자당 CPU 메모리/GPU 수의 80%(둘 중 적은 것)
스파크.태스크.리소스.gpu.amount	0.0625	1 / spark.executor.cores
spark.rapids.sql.concurrentGpu작업	3	GPU 메모리 / 8GB, 최대 4개
spark.rapids.shuffle.multiThreaded.writer.threads	32	CPU 코어/작업자당 GPU 수
스파크.라피드.셔플.다중 스레드.스레드	32	CPU 코어/작업자당 GPU 수
spark.shuffle.manager	com.nvidia.spark.rapids.spark350.RapidsShuffleManager	-
스파크.rapids.shuffle.mode	다중 스프레드됨	-
스파크플러그인	com.nvidia.spark.SQL 플러그인	-
스파크.엑스큐터.리소스.gpu.amount	1	-
spark.sql.files.maxPartitionBytes	2 GB	선택 사항, 큰 데이터 세트에 권장
spark.rapids.sql.batchSize바이트	2 GB	선택 사항, 큰 데이터 세트에 권장
spark.rapids.memory.host.spillStorage크기	32 G	선택 사항, 큰 데이터 세트에 권장
spark.rapids.memory.pinnedPool.size	8 G	선택 사항, 큰 데이터 세트에 권장
스파크.sql.adaptive.coalescePartitions.minPartitionSize	32 MB	선택 사항, 큰 데이터 세트에 권장
spark.sql.adaptive.advisoryPartitionSizeInBytes	160MB	선택 사항, 큰 데이터 세트에 권장
spark.rapids.filecache.enabled	True	작업로드가 데이터 집합을 재사용할 경우 선택사항, 권장됩니다.

클러스터 수정

설정을 변경하거나 클러스터에 대한 매개변수를 추가할 수 있습니다.

작업영역으로 이동하고 컴퓨트를 누릅니다.
수정할 컴퓨트 클러스터 옆에 있는 작업, 편집 순으로 누릅니다.
컴퓨트 클러스터의 속성을 수정하거나 필요에 따라 매개변수를 추가합니다.
저장을 누릅니다.

클러스터 삭제

사용되지 않거나 더 이상 필요하지 않은 컴퓨트 클러스터를 삭제할 수 있습니다.

작업영역으로 이동하고 컴퓨트를 누릅니다.
삭제할 클러스터 옆에 있는 작업을 누르고 삭제를 누릅니다.
삭제를 누릅니다.

클러스터 세부정보 보기

언제든지 클러스터의 구성 및 설정을 검토할 수 있습니다.

작업영역으로 이동하고 컴퓨트를 누릅니다.
세부정보를 보려는 클러스터의 이름을 누릅니다.
세부정보 탭을 누릅니다.

컴퓨트 클러스터의 유지보수 업데이트

Oracle AI Data Platform Compute는 사용자 개입 없이 유지보수 업데이트를 자동으로 적용합니다.

유지보수 업데이트는 운영체제 및 AI 데이터 플랫폼 내부 구성요소에 필요한 모든 보안 패치 또는 버그 수정 사항을 다룹니다. AI 데이터 플랫폼은 이러한 월별 유지보수 업데이트를 적용하기 전에 실행 중인 클러스터가 없는지 확인합니다.