Configuración de una pila de clusters de HPC para desplegar IA de NVIDIA en una región del gobierno de OCI

Configure y despliegue un cluster privado de sistemas de GPU NVIDIA con hardware dedicado en Oracle US Government Cloud (FedRAMP High). Todos los recursos y datos en la nube permanecen en su arrendamiento en la nube, lo que le proporciona un control total sobre las versiones de software, el acceso administrativo, las claves de cifrado y el uso compartido de recursos.

La pila de cluster de HPC utiliza Terraform para desplegar recursos de Oracle Cloud Infrastructure (OCI). La pila crea nodos de GPU, almacenamiento, redes estándar y redes de cluster de alto rendimiento, y un nodo bastión/cabeza para el acceso y la gestión del cluster.

Antes de empezar

Más información sobre el despliegue de NVIDIA Enterprise en Oracle Cloud Infrastructure Government Cloud. Consulte Despliegue de recursos informáticos de GPU de alto rendimiento para cargas de trabajo de IA gubernamentales.

Arquitectura

Esta arquitectura despliega un bastión o nodo principal, que ejecuta el programador y se puede utilizar como servidor bastión para acceder al cluster.

Puede crear un nodo de procesamiento informático, utilizando una serie de tipos de instancias de GPU NVIDIA, con sus requisitos de procesamiento. Recomendamos colocar el nodo de procesamiento de recursos informáticos en la subred privada segura. Puede desplegar una instancia de cluster de recursos informáticos de GPU de NVIDIA desde Oracle Cloud Marketplace.

Esta arquitectura se despliega mediante redes virtuales en la nube (VCN) públicas y privadas. La red del cliente solo puede acceder al nodo principal y al nodo de cálculo mediante la VPN IPSec, Oracle Cloud Infrastructure FastConnect o la red pública de Internet.

La arquitectura utiliza una región con un dominio de disponibilidad y subredes regionales. Puede utilizar la misma arquitectura en una región con varios dominios de disponibilidad. Le recomendamos que utilice subredes regionales para su despliegue, con independencia del número de dominios de disponibilidad. Puede acceder a estas redes de cluster desde Oracle Cloud Marketplace o desplegarlas manualmente. En cualquier caso, recomendamos utilizar la arquitectura de referencia de línea base y, a continuación, ajustarla para que cumpla sus requisitos específicos.

El siguiente diagrama ilustra esta arquitectura de referencia.

Descripción de nvidia-ai-gvt-hpc-oci.png
Descripción de la ilustración nvidia-ai-gvt-hpc-oci.png

nvidia-ngc-ai-gvt-hpc-oci-oracle.zip

La arquitectura tiene los siguientes componentes:

  • Región

    Una región de Oracle Cloud Infrastructure es un área geográfica localizada que contiene uno o más centros de datos, denominados dominios de disponibilidad. Las regiones son independientes entre sí y pueden separarse a grandes distancias (entre países e incluso continentes).

  • Dominios de disponibilidad

    Los dominios de disponibilidad son centros de datos independientes dentro de una región. Los recursos físicos de cada dominio de disponibilidad están aislados de los recursos de los otros dominios de disponibilidad, lo que proporciona tolerancia a fallos. Los dominios de disponibilidad no comparten infraestructura, como la alimentación o la refrigeración, ni la red interna del dominio de disponibilidad. Por lo tanto, un fallo en un dominio de disponibilidad no debería afectar a los otros dominios de disponibilidad de la región.

  • Dominios de errores

    Un dominio de errores es una agrupación de hardware e infraestructura dentro de un dominio de disponibilidad. Cada dominio de disponibilidad consta de tres dominios de errores con hardware y energía independientes. Al distribuir recursos entre varios dominios de errores, las aplicaciones pueden tolerar fallos físicos de servidor, mantenimiento del sistema o fallos de energía en un dominio de errores.

  • Red virtual en la nube (VCN) y subredes

    Una VCN es una red personalizable y definida por software que se configura en una región de Oracle Cloud Infrastructure. Al igual que las redes de los centros de datos tradicionales, las redes virtuales le proporcionan el control de su entorno de red. Una VCN puede tener varios bloques de CIDR no superpuestos que puede cambiar después de crear la VCN. Puede segmentar una VCN en subredes, las cuales se pueden acotar a una región o a un dominio de disponibilidad. Cada subred está formada por un rango contiguo de direcciones que no se solapan con las demás subredes de la VCN. Puede cambiar el tamaño de una subred después de la creación. Una subred puede ser pública o privada.

  • Host bastión

    El host bastión es una instancia informática que sirve como punto de entrada seguro y controlado a la topología desde fuera de la nube. El host bastión se aprovisiona, por lo general, en una zona desmilitarizada (DMZ). Le permite proteger los recursos sensibles, colocándolos en redes privadas a las que no se puede acceder directamente desde fuera de la nube. La topología tiene un único punto de entrada conocido que puede supervisar y auditar con regularidad. Por lo tanto, puede evitar exponer los componentes más sensibles de la topología sin comprometer el acceso.

  • Nodo de cálculo

    Seleccione la unidad de GPU con hardware dedicado que está utilizando en este cluster. Por ejemplo, seleccione BM.GPU4.8 con 4 GPU NVIDIA A100 Tensor Core, como se muestra en el ejemplo anterior, o seleccione BM.GPU.H100.8 con 8 GPU NVIDIA H100 Tensor Core para obtener ventajas de rendimiento de FP8 con el motor de transformador NVIDIA.

  • Nodo de orquestación

    El nodo de orquestación realiza la gestión de nodos de cluster, el aprovisionamiento, la anulación del aprovisionamiento y el despliegue de configuraciones de software, así como la gestión de flujos de trabajo informáticos y la orquestación de trabajos.

  • Lista de seguridad

    Para cada subred, puede crear reglas de seguridad que especifiquen el origen, el destino y el tipo de tráfico que se debe permitir dentro y fuera de la subred.

Acerca de los productos, los servicios y los roles necesarios

Esta solución requiere los siguientes productos, servicios y roles:

  • Oracle Cloud Infrastructure Government Cloud

  • NVIDIA AI Enterprise
  • Marco de NVIDIA NeMo

  • NVIDIA Enroot

  • NVIDIA NCCL

Estos son los roles necesarios para cada servicio.

Nombre de servicio: Rol Necesario para...
Oracle Cloud Infrastructure Government Cloud: usuario de Oracle Cloud para el arrendamiento Cree un compartimento en Oracle Cloud Infrastructure (OCI), despliegue el cluster de GPU y configure el cluster de GPU.
Nube del Gobierno de OCI: administrador de seguridad o red Cree o edite políticas de OCI, según sea necesario, para permitirle crear el cluster.
Nube del Gobierno de OCI: opc Conéctese al bastión para revisar la configuración, actualizar el sistema operativo y ejecutar la carga de trabajo de formación de LLM.

Consulte Productos, soluciones y servicios de Oracle para obtener lo que necesita.