Expansión de GPU

Para permitir cargas de trabajo aceleradas por GPU en el centro de datos local, una instalación de Compute Cloud@Customer se puede ampliar con nodos de servidor que tienen GPU instaladas.

Los nodos de GPU se entregan en un rack de expansión que contiene unidades de distribución de energía (PDU) y componentes de red para integrar los recursos físicos adicionales con el rack base. Un rack de expansión de GPU contiene al menos 1 y un máximo de 6 nodos de GPU instalados de fábrica. Se pueden instalar más nodos después del despliegue inicial. Se pueden conectar hasta dos racks de expansión a un rack base para un máximo de 12 nodos de GPU.

Un nodo de GPU es un servidor 3 RU con arquitectura Intel Xeon Platinum 8480+, conectividad Ethernet de alta velocidad y cuatro GPU NVIDIA L40S con memoria GDDR6 de 48 GB y TFLOPS FP8 de 1466 picos. Una vez que estos nodos se han aprovisionado por completo, su uso se realiza sin problemas: al iniciar una nueva instancia informática, los usuarios seleccionan una unidad de computación dedicada para asignar una o más GPU a la instancia. Para obtener descripciones de las unidades disponibles, consulte Unidades de computación.

Para obtener especificaciones detalladas de los componentes, consulte el sitio web del fabricante.

Oracle Compute Cloud@Customer con expansión de GPU proporciona una plataforma escalable para crear aplicaciones con un uso intensivo de IA y gráficos en el perímetro. Está diseñado para impulsar la próxima generación de cargas de trabajo de centros de datos, que incluyen:

Inferencia de IA generativa: inferencias en tiempo real para pipelines de IA generativa multimodelo (texto, imagen, audio, video)
Entrenamiento y ajuste de LLM: rendimiento acelerado para ajustar LLM medianos y entrenar pequeños LLM con el motor de transformadores de NVIDIA y soporte FP8
Aplicaciones VDI y con uso intensivo de gráficos: 3D gráficos y flujos de trabajo de renderizado con las capacidades de RTX y rastreo de rayos de NVIDIA
Gemelos digitales con NVIDIA Omniverse: desarrolla y opera complejos flujos de trabajo de digitalización industrial 3D
Transmisión de medios: aumento de la densidad de codificación / decodificación y soporte AV1 para la transmisión de video 4K
HPC: análisis de datos científicos y cargas de trabajo de simulación con soporte FP32

Requisitos de Instalación

Preparación del sitio: Si ha decidido ampliar su entorno de Compute Cloud@Customer con nodos de GPU, planifique cuidadosamente con anticipación la instalación del hardware adicional. El rack de expansión de GPU tiene las mismas dimensiones externas que el rack base y contiene el mismo tipo de hardware. Por lo tanto, los requisitos del sitio del bastidor base también se aplican al bastidor de expansión. Se describen en detalle en la sección de instalación Preparing the Installation Site.
Cableado de rack: Las conexiones de cables entre el bastidor base y el bastidor de expansión de GPU no deben superar los 25 metros. Asigne un espacio para el bastidor de expansión cerca del bastidor base, asegurándose de que el cableado entre bastidores se encuentre dentro de la longitud máxima especificada cuando se enrute por el piso o el techo. La longitud de cable requerida debe especificarse con el orden.
Almacenamiento de alto rendimiento: Las unidades de computación de GPU están optimizadas para ofrecer alta velocidad y baja latencia. Utilizan almacenamiento de alto rendimiento exclusivamente, lo que significa que el dispositivo ZFS Storage Appliance del sistema debe proporcionar una agrupación de almacenamiento de alto rendimiento que consta de una o más bandejas de disco de rendimiento. En caso de que no haya ninguna bandeja de rendimiento presente en la instalación existente, se agrega una al orden de expansión de la GPU. Si el bastidor base no tiene unidades de bastidor disponibles para agregar la bandeja de rendimiento, se instalará en un bastidor de expansión de almacenamiento. La agrupación de almacenamiento de alto rendimiento se debe configurar antes de activar el rack de expansión de GPU.

Proceso de Instalación

Instalación física

Todas las tareas de instalación las realiza Oracle. Cuando el rack de expansión de GPU está en el espacio asignado, debe estar conectado al rack base. Los conmutadores de hoja del bastidor de expansión están interconectados con los conmutadores de la columna vertebral del bastidor base para extender la red de datos al bastidor de expansión. De manera similar, los componentes del bastidor de expansión se agregan a la red de gestión interna mediante una conexión de cables entre los conmutadores de gestión de ambos bastidores. Los puertos necesarios para esta configuración se han reservado en todos los conmutadores conectados. Los nodos de GPU están conectados internamente a los conmutadores de rack de expansión de fábrica.

Activación de rack

Cuando las conexiones físicas están en su lugar, el rack de expansión se activa mediante la ejecución de una secuencia de comandos desde uno de los nodos de gestión. La secuencia de comandos enciende los conmutadores y activa los puertos necesarios para que se puedan detectar y registrar los nuevos componentes de hardware. Cuando finaliza la secuencia de comandos, las redes de datos y gestión funcionan en los racks interconectados. El sistema continúa con la instalación y configuración del sistema operativo y el software adicional en los nuevos nodos, preparándolos para el aprovisionamiento. Cuando se han aprovisionado los nodos de GPU, están completamente integrados y listos para usar.

Los nodos de GPU se agregan a los dominios de errores existentes junto con otros nodos de cálculo, pero las familias de servidores funcionan por separado entre sí y no se admiten las migraciones entre ellos. Es posible que los dominios de errores no se equilibren porque, a diferencia de los nodos de cálculo estándar, los nodos de GPU se pueden agregar uno por uno.

Documentación de Oracle Cloud Infrastructure

Expansión de GPU

Requisitos de Instalación

Proceso de Instalación