Despliegue recursos informáticos de GPU de alto rendimiento para cargas de trabajo de IA del gobierno

La incorporación de NVIDIA DGX Cloud y NVIDIA AI Enterprise a Oracle Cloud Marketplace le permite realizar de forma rápida y sencilla cualquier tipo de formación de gran modelo para aplicaciones de IA generativa en OCI, incluidas las cargas de trabajo optimizadas por NVIDIA NeMo Framework, un marco integral nativo en la nube para crear, personalizar y desplegar IA generativa.

El entorno de recursos compartidos de DGX Cloud puede ser menos adecuado para los clientes de las regiones del Gobierno de EE. UU. que necesitan la seguridad adicional de mantener todos los datos y recursos bajo el control de sus propios arrendamientos. Tenemos otra solución para usted.

Oracle ahora facilita el despliegue de un cluster privado de sistemas de GPU NVIDIA con hardware dedicado en nuestras regiones para Oracle US Government Cloud (FedRAMP High). Todos los recursos y datos en la nube permanecen en su arrendamiento en la nube, lo que le proporciona un control total sobre las versiones de software, el acceso administrativo, las claves de cifrado y el uso compartido de recursos.

El cluster de GPU de Oracle con GPU NVIDIA A100 o GPU NVIDIA H100 se despliega iniciando la pila de cluster de HPC desde Marketplace. Con solo unos pocos clics y configuración, los scripts de Terraform y Ansible despliegan automáticamente hardware y software para un entorno de cluster con una red de cluster RoCEv2 de latencia ultrabaja basada en redes NVIDIA, controladores de redes de cluster, SLURM para la programación de trabajos, NVIDIA Pyxis y Enroot para el tiempo de ejecución de contenedores distribuidos. Traiga sus propios modelos de lenguaje grandes y cargas de trabajo de aprendizaje automático o extraiga contenedores NVIDIA PyTorch y NeMo para ejecutar cargas de trabajo compatibles con NVIDIA AI Enterprise completamente dentro de su arrendamiento seguro.

RoCEv2 Las redes de cluster están diseñadas para cargas de trabajo de procesamiento paralelo muy exigentes, incluidas las siguientes:
  • Modelos de idioma grande
  • Visión artificial
  • Aprendizaje automático
  • Simulación

Arquitectura

Esta arquitectura despliega un bastión o nodo principal, que ejecuta el programador y se puede utilizar como servidor bastión para acceder al cluster.

Puede crear un nodo de procesamiento informático, utilizando una serie de tipos de instancias de GPU NVIDIA, con sus requisitos de procesamiento. Recomendamos colocar el nodo de procesamiento de recursos informáticos en la subred privada segura. Puede desplegar una instancia de cluster de recursos informáticos de GPU de NVIDIA desde Oracle Cloud Marketplace.

Esta arquitectura se despliega mediante redes virtuales en la nube (VCN) públicas y privadas. La red del cliente solo puede acceder al nodo principal y al nodo de cálculo mediante la VPN IPSec, Oracle Cloud Infrastructure FastConnect o la red pública de Internet.

La arquitectura utiliza una región con un dominio de disponibilidad y subredes regionales. Puede utilizar la misma arquitectura en una región con varios dominios de disponibilidad. Le recomendamos que utilice subredes regionales para su despliegue, con independencia del número de dominios de disponibilidad. Puede acceder a estas redes de cluster desde Oracle Cloud Marketplace o desplegarlas manualmente. En cualquier caso, recomendamos utilizar la arquitectura de referencia de línea base y, a continuación, ajustarla para que cumpla sus requisitos específicos.

El siguiente diagrama ilustra esta arquitectura de referencia.

Descripción de nvidia-ai-gvt-hpc-oci.png siguiente
Descripción de la ilustración nvidia-ai-gvt-hpc-oci.png

nvidia-ngc-ai-gvt-hpc-oci-oracle.zip

La arquitectura tiene los siguientes componentes:

  • Región

    Una región de Oracle Cloud Infrastructure es un área geográfica localizada que contiene uno o más centros de datos, denominados dominios de disponibilidad. Las regiones son independientes de otras regiones, y pueden separarse grandes distancias (entre países e incluso continentes).

  • Dominios de Disponibilidad

    Los dominios de disponibilidad son centros de datos independientes dentro de una región. Los recursos físicos de cada dominio de disponibilidad están aislados de los recursos de los otros dominios de disponibilidad, lo que proporciona tolerancia a fallos. Los dominios de disponibilidad no comparten infraestructura, como la alimentación o la refrigeración, ni la red interna del dominio de disponibilidad. Por tanto, un fallo en un dominio de disponibilidad no debería afectar a los otros dominios de disponibilidad de la región.

  • Dominios de errores

    Un dominio de errores es una agrupación de hardware e infraestructura dentro de un dominio de disponibilidad. Cada dominio de disponibilidad consta de tres dominios de errores con una potencia y un hardware independientes. Cuando distribuye recursos en varios dominios de errores, las aplicaciones pueden tolerar fallos en el servidor físico, el mantenimiento del sistema y fallos de alimentación dentro de un dominio de errores.

  • Red y subredes virtuales en la nube (VCN)

    Una VCN es una red personalizable y definida por software que se configura en una región de Oracle Cloud Infrastructure. Al igual que las redes de los centros de datos tradicionales, las redes virtuales le proporcionan el control de su entorno de red. Una VCN puede tener varios bloques de CIDR no superpuestos que puede cambiar después de crear la VCN. Puede segmentar una VCN en subredes, las cuales se pueden acotar a una región o a un dominio de disponibilidad. Cada subred está formada por un rango contiguo de direcciones que no se solapan con las demás subredes de la VCN. Puede cambiar el tamaño de una subred después de la creación. Una subred puede ser pública o privada.

  • Host bastión

    El host bastión es una instancia informática que sirve como punto de entrada seguro y controlado a la topología desde fuera de la nube. El host de bastión se proporciona, por lo general, en una zona desmilitarizada (DMZ). Le permite proteger los recursos sensibles, colocándolos en redes privadas a las que no se puede acceder directamente desde fuera de la nube. La topología tiene un único punto de entrada conocido que puede supervisar y auditar con frecuencia. Por lo tanto, puede evitar exponer los componentes más sensibles de la topología sin comprometer el acceso.

  • Nodo de Cálculo

    Seleccione la unidad de GPU con hardware dedicado que está utilizando en este cluster. Por ejemplo, seleccione BM.GPU4.8 con 4 GPU NVIDIA A100 Tensor Core, como se muestra en el ejemplo anterior, o bien seleccione BM.GPU.H100.8 con 8 GPU NVIDIA H100 Tensor Core para obtener ventajas de rendimiento de FP8 con el motor de transformador NVIDIA.

  • Nodo de orquestación

    El nodo de orquestación realiza la gestión de nodos de cluster, el aprovisionamiento, la anulación del aprovisionamiento y el despliegue de configuraciones de software, así como la gestión de flujos de trabajo informáticos y la orquestación de trabajos.

  • Lista de Seguridad

    Para cada subred, puede crear reglas de seguridad que especifiquen el origen, el destino y el tipo de tráfico que se debe permitir dentro y fuera de la subred.

Recomendaciones

Utilice las siguientes recomendaciones como punto de partida para desplegar recursos informáticos de alto rendimiento (HPC) en Oracle Cloud Infrastructure y adaptarlas para satisfacer sus requisitos específicos según sea necesario.
  • VCN

    Al crear una VCN, determine el número de bloques de CIDR necesarios y el tamaño de cada bloque en función del número de recursos que planea asociar a las subredes de la VCN. Utilice bloques CIDR que estén dentro del espacio de dirección IP privada estándar.

    Seleccione bloques de CIDR que no se solapen con ninguna otra red (en Oracle Cloud Infrastructure, su centro de datos local u otro proveedor en la nube) en la que desee configurar conexiones privadas.

    Después de crear una VCN, puede cambiar, agregar y eliminar sus bloques de CIDR.

    Al diseñar las subredes, tenga en cuenta el flujo de tráfico y los requisitos de seguridad. Asocie todos los recursos de un nivel o rol específico a la misma subred, que puede servir como límite de seguridad.

    Utilizar subredes regionales.

  • Listas de seguridad

    Utilice listas de seguridad para definir reglas de entrada y salida que se apliquen a toda la subred.

  • Nodo de Bastion

    Utilice VM.Standard.E5. Unidad de computación flexible. Dado que el nodo se utiliza como host bastión y para programar trabajos de HPC, no requiere almacenamiento conectado localmente ni procesamiento de GPU.

  • Nodo de cluster informático de GPU

    Utilice la unidad de computación BM.GPU.A100.-v2.8 porque este nodo se utiliza para flujos de trabajo de recursos informáticos de GPU y trabajos con un uso intensivo de recursos informáticos.

Consideraciones

Al desplegar recursos informáticos de alto rendimiento (HPC) en Oracle Cloud Infrastructure, tenga en cuenta estas opciones de implantación.

  • Rendimiento

    Para obtener el mejor rendimiento, elija la unidad de computación correcta con el ancho de banda adecuado.

  • Disponibilidad

    Considere el uso de una opción de alta disponibilidad basada en los requisitos de despliegue y la región. Entre las opciones se incluyen el uso de varios dominios de disponibilidad en una región y dominios de errores.

  • Costo

    Una instancia de GPU con hardware dedicado proporciona la potencia de CPU necesaria para un mayor costo. Evalúe sus requisitos para elegir la unidad de computación adecuada.

  • Supervisión y alertas

    Configure la supervisión y las alertas sobre el uso de CPU y memoria para los nodos, de modo que pueda ampliar o reducir la unidad según sea necesario.

Despliegue

Una pila de Terraform para desplegar esta arquitectura de referencia está disponible como pila en Oracle Cloud Marketplace. También puede descargar el código de GitHub y personalizarlo según sus necesidades.

Agradecimientos

  • Autor: Kevin Colwell
  • Contribuyentes: Neil Pierson, George Boateng, Travis Lee, Michael Rutledge