Ampliación de GPU

Para activar cargas de trabajo aceleradas por GPU en el centro de datos local, una instalación de Compute Cloud@Customer se puede ampliar con nodos de servidor que tienen GPU instaladas.

Los nodos de GPU se entregan en un rack de expansión que contiene unidades de distribución de energía (PDU) y componentes de red para integrar los recursos físicos adicionales con el rack base. Un rack de expansión de GPU contiene al menos 1 y un máximo de 6 nodos de GPU instalados de fábrica. Se pueden instalar más nodos después del despliegue inicial. Se pueden conectar hasta dos bastidores de expansión a un bastidor base, para un máximo de 12 nodos de GPU.

Un nodo de GPU es un servidor de 3 RU con arquitectura Intel Xeon Platinum 8480+, conectividad Ethernet de alta velocidad y cuatro GPU NVIDIA L40S con memoria GDDR6 de 48 GB y TFLOPS FP8 pico de 1466. Una vez aprovisionados por completo estos nodos, su uso es fluido: al iniciar una nueva instancia informática, los usuarios seleccionan una unidad de computación dedicada para asignar una o más GPU a la instancia.

Para obtener especificaciones detalladas de los componentes, consulte el sitio web del fabricante.

Oracle Compute Cloud@Customer con expansión de GPU proporciona una plataforma escalable para crear aplicaciones de IA y gráficos intensivos en el perímetro. Está diseñado para impulsar la próxima generación de cargas de trabajo de centros de datos, que incluyen:

Inferencia de IA generativa: inferencia en tiempo real para pipelines de IA generativa multimodelo (texto, imagen, audio, video)
Entrenamiento y ajuste de LLM: rendimiento acelerado para ajustar LLM medianos y entrenar LLM pequeños con el motor de transformador de NVIDIA y soporte de FP8
Aplicaciones con uso intensivo de gráficos y VDI: 3D gráficos y flujos de trabajo de representación con las capacidades RTX y de rastreo de rayos de NVIDIA
Gemelos digitales con NVIDIA Omniverse: desarrolla y opera flujos de trabajo complejos de digitalización industrial 3D
Transmisión de medios: mayor densidad de codificación/descodificación y compatibilidad con AV1 para la transmisión de video 4K
HPC: análisis de datos científicos y cargas de trabajo de simulación con soporte para FP32

Requisitos de Instalación

Preparación del sitio: Si ha decidido ampliar el entorno de Compute Cloud@Customer con nodos de GPU, planifique con cuidado la instalación del hardware adicional. El rack de expansión de GPU tiene las mismas dimensiones externas que el rack base y contiene el mismo tipo de hardware. Por lo tanto, los requisitos del sitio del bastidor base también se aplican al bastidor de expansión. Se describen con detalle en la sección de instalación Preparing Your Site.
Cableado de bastidor: Las conexiones de cables entre el bastidor base y el bastidor de expansión de GPU no deben superar los 25 metros. Asigne un espacio para el rack de expansión cerca del rack base, asegurándose de que el cableado entre bastidores se encuentre dentro de la longitud máxima especificada cuando se enrute por el piso o el techo. La longitud de cable requerida se debe especificar con el pedido.
Almacenamiento de alto rendimiento: Las unidades de computación de GPU están optimizadas para alta velocidad y baja latencia. Utilizan exclusivamente almacenamiento de alto rendimiento, lo que significa que el dispositivo ZFS Storage Appliance del sistema debe proporcionar una agrupación de almacenamiento de alto rendimiento que consta de una o más bandejas de discos de rendimiento. En caso de que no haya ninguna bandeja de rendimiento en la instalación existente, se agrega una al orden de expansión de la GPU. Si el bastidor base no tiene unidades de bastidor disponibles para agregar la bandeja de rendimiento, se instalará en un bastidor de expansión de almacenamiento. La agrupación de almacenamiento de alto rendimiento se debe configurar antes de activar el rack de expansión de GPU.

Proceso de Instalación

Instalación física

Oracle realiza todas las tareas de instalación. Cuando el rack de expansión de GPU está en el espacio asignado, debe estar conectado al rack base. Los conmutadores de hoja del rack de expansión están interconectados con los conmutadores medulares del rack base para extender la red de datos al rack de expansión. De manera similar, los componentes del bastidor de expansión se agregan a la red de gestión interna mediante una conexión de cables entre los conmutadores de gestión de ambos bastidores. Los puertos necesarios para esta configuración se han reservado en todos los conmutadores conectados. Los nodos de GPU están conectados internamente a los conmutadores de rack de expansión de fábrica.

Activación de rack

Cuando las conexiones físicas están en su lugar, el rack de expansión se activa ejecutando una secuencia de comandos desde uno de los nodos de gestión. La secuencia de comandos enciende los conmutadores y activa los puertos necesarios para que se puedan detectar y registrar los nuevos componentes de hardware. Cuando finaliza la secuencia de comandos, las redes de gestión y datos funcionan en los racks interconectados. El sistema continúa con la instalación y configuración del sistema operativo y el software adicional en los nuevos nodos, preparándolos para el aprovisionamiento. Una vez aprovisionados los nodos de GPU, estarán totalmente integrados y listos para su uso.

Los nodos de GPU se agregan a los dominios de errores existentes junto con otros nodos de cálculo, pero las familias de servidores operan por separado y no se admiten migraciones entre ellos. Los dominios de errores pueden desequilibrarse porque, a diferencia de los nodos de cálculo estándar, los nodos de GPU se pueden agregar uno por uno.

Documentación de Oracle Cloud Infrastructure

Ampliación de GPU

Requisitos de Instalación

Proceso de Instalación