Integración de nodos de expansión de GPU

Los nodos de GPU se deben detectar y aprovisionar antes de que sus recursos de hardware estén disponibles para su uso en instancias informáticas de Private Cloud Appliance. A diferencia de los nodos de cálculo estándar, que se agregan al rack base y se integran y preparan automáticamente para el aprovisionamiento, los nodos de GPU pasan por un proceso más estrictamente controlado.

Los nodos de GPU se instalan en un rack de expansión. Sus componentes de red deben estar conectados al rack base para que el nuevo hardware se pueda integrar en la administración de hardware y las redes de datos. En esta sección, suponemos que el rack de expansión de GPU se ha instalado y conectado al rack base de Private Cloud Appliance. Para conocer los requisitos de instalación, la información de instalación física del hardware y los detalles del cableado, consulte Ampliación de Private Cloud Appliance con capacidad de GPU.

El rack de expansión de GPU se activa mediante la ejecución de una secuencia de comandos desde uno de los nodos de gestión. Con una sincronización y orquestación precisas basadas en una asignación estática, este script enciende y configura cada componente en el rack de expansión de GPU. Los puertos necesarios en los conmutadores están activados para que se pueda detectar y registrar todo el hardware en la base de datos de componentes. Cuando se completan las operaciones con secuencias de comandos, las redes de gestión y datos están operativas en los racks interconectados. El sistema operativo y el software adicional se instalan en los nuevos nodos, después de lo cual están listos para aprovisionarse.

Oracle lleva a cabo la instalación y activación de los nodos de GPU y rack de expansión. A partir de este momento, el sistema trata los nodos de GPU de la misma manera que todos los demás nodos de cálculo. Después del aprovisionamiento, los administradores del dispositivo pueden gestionarlos y supervisarlos desde la interfaz de usuario o la CLI del enclave de servicio. Consulte Realización de operaciones administrativas en nodos de cálculo.

Nota

No se admite la migración activa para instancias de GPU. Esto afecta a algunas operaciones de nodo de cálculo.

La evacuación de un nodo de GPU fallará. Las instancias se deben parar manualmente.
La configuración de alta disponibilidad del servicio informático se aplica a las instancias de GPU, pero está restringida por recursos de hardware limitados.

Cuando un nodo de GPU se desconecta y vuelve al funcionamiento normal, el servicio de recursos informáticos reinicia las instancias que se detuvieron durante la interrupción. Una instancia se puede reiniciar, mediante la migración en frío, en otro nodo de GPU con suficientes recursos de hardware disponibles.

Atención

Para el mantenimiento o la actualización planificados, la mejor práctica es emitir un comando de cierre desde el sistema operativo de la instancia y, a continuación, parar correctamente la instancia desde la interfaz de usuario web de Compute o la CLI de OCI.

Los nodos de GPU se agregan a los 3 dominios de errores existentes, lo que es coherente con la arquitectura general en la nube de Oracle. Es posible que los dominios de errores no se equilibren porque, a diferencia de los nodos de cálculo estándar, los nodos de GPU se pueden agregar de uno en uno. Esto no afecta a los dominios de errores, ya que las familias de servidores funcionan por separado. Los nodos de GPU solo pueden alojar instancias informáticas basadas en una unidad de GPU, y no se admiten migraciones entre diferentes familias de servidores en el mismo dominio de errores.

En el Enclave de recursos informáticos, el consumo de recursos proporcionados por un nodo de GPU es sencillo. Los usuarios despliegan instancias informáticas con una unidad dedicada para asignar de 1 a 4 GPU. Las instancias basadas en una unidad de GPU siempre se ejecutan en un nodo de GPU.

Documentación de Oracle Cloud Infrastructure

Integración de nodos de expansión de GPU