Note:
- Este tutorial requiere acceso a Oracle Cloud. Para registrarse para obtener una cuenta gratuita, consulte Introducción a la cuenta gratuita de Oracle Cloud Infrastructure.
- Utiliza valores de ejemplo para credenciales, arrendamiento y compartimentos de Oracle Cloud Infrastructure. Al finalizar la práctica, sustituya estos valores por otros específicos de su entorno en la nube.
Migración de nodos de GPU con hardware dedicado a OKE como nodos autogestionados mediante una pila de OCI
Introducción
En este tutorial, analizaremos el proceso de migración de nodos de GPU con hardware dedicado (BM) a nodos autogestionados de Oracle Cloud Infrastructure Kubernetes Engine (OKE) mediante una pila de Oracle Cloud Infrastructure (OCI).
En primer lugar, entendamos qué son los nodos autogestionados y por qué son ideales para ejecutar GPU en OKE.
¿Qué son los nodos autogestionados de OKE?
Como su nombre indica, los nodos autogestionados son totalmente controlados y mantenidos por el cliente. Esto incluye el aprovisionamiento, la ampliación, la configuración, las actualizaciones y las tareas de mantenimiento, como la aplicación de parches del sistema operativo (SO) y la sustitución de nodos. Si bien este enfoque requiere una gestión más manual, proporciona la máxima flexibilidad y control, por lo que es adecuado para cargas de trabajo especializadas como las que se ejecutan en GPU.
Funciones clave de los nodos autogestionados:
-
Control total: el cliente tiene un control total sobre el ciclo de vida del nodo, incluido el aprovisionamiento, las actualizaciones del sistema operativo, la escala y la terminación.
-
Configuraciones personalizadas: el cliente puede utilizar imágenes personalizadas, instalar software específico, configurar redes o utilizar tipos de instancia alternativos.
-
Actualizaciones manuales: a diferencia de los pools de nodos gestionados por OKE, el cliente debe actualizar manualmente las versiones de Kubernetes, los parches de seguridad y las actualizaciones del sistema operativo.
-
Traiga sus propios nodos (BYON): el cliente puede utilizar instancias de OCI Compute existentes como nodos de trabajador en un cluster de OKE.
-
Sin ciclo automático de nodos: si falla un nodo, el cliente debe sustituirlo/ciclarlo manualmente.
En este tutorial se trata un caso de uso en el que las cargas de trabajo de GPU A100 de BM se ejecutan actualmente en un cluster de Slurm en OCI, con el objetivo de migrarlas a un cluster de OKE. Esto se puede lograr mediante la pila de OKE de recursos informáticos de alto rendimiento (HPC) para desplegar un cluster de OKE vacío y, a continuación, agregarle los nodos de GPU existentes.
Objetivos
- Migre los nodos de GPU BM A100 a OKE como nodos autogestionados mediante la pila de OKE de HPC.
Requisitos
-
Acceso de administrador a un arrendamiento de OCI y cluster de OKE en ejecución.
-
Instale NVIDIA Run:ai en los nodos BM A100 para incluir en contenedores las aplicaciones. Para obtener más información, consulte NVIDIA Run:ai.
-
Ejecute cargas de trabajo de GPU de acceso directo a memoria remota (RDMA) en OKE. Para obtener más información, consulte Ejecución de cargas de trabajo de GPU RDMA (acceso directo a memoria remota) en OKE.
Tarea 1: Migración de nodos de GPU BM A100 a OKE mediante la pila de OKE de HPC
-
Conéctese a la consola de OCI y cree las políticas necesarias como se menciona en esta página GitHub: Ejecución de cargas de trabajo de GPU RDMA (acceso directo a memoria remota) en OKE.
-
Haga clic en Desplegar en Oracle Cloud y revise las condiciones.

-
Seleccione la región en la que desea desplegar la pila.
-
En la página Información de pila, introduzca Nombre para la pila.

-
En la página Configurar variable, introduzca Nombre para la VCN.

-
En la sección Bastion & Operator, introduzca la información de instancia de Bastion y agregue la clave SSH para la instancia de Bastion.

-
(Opcional) Seleccione Configurar unidad de operador para crear un nodo de operador para supervisar o ejecutar trabajos.

-
Configure variables de cluster de OKE, nodos de Workers: Operational y nodos de Workers: GPU + RDMA. Asegúrese de seleccionar Flannel CNI para usar en redes de pod.



-
Seleccione Create a RAID 0 array using local NVMe drives y Install Node Problem Detector & Kube Prometheus Stack.

-
Revise la información de pila y haga clic en Crear.

-
Revise los detalles de pila en Resource Manager y verifique el cluster de OKE en la sección Kubernetes de la consola de OCI.


-
Conéctese al cluster de OKE mediante el cluster de acceso a través de la consola de OCI y continúe agregando nuevos nodos de GPU.
-
Siga todos los pasos mencionados aquí: Creación de un grupo dinámico y una política para nodos autogestionados.
-
Siga los pasos 1 y 2 mencionados aquí: Creación de scripts de Cloud-init para nodos autogestionados.
-
Ejecute el siguiente script para agregar los nodos de GPU al cluster de OKE.
sudo rm archive_uri-https_objectstorage_ap-osaka-1_oraclecloud_com_p_ltn5w_61bxynnhz4j9g2drkdic3mwpn7vqce4gznmjwqqzdqjamehhuogyuld5ht_n_hpc_limited_availability_b_oke_node_repo_o_ubuntu-jammy.list sudo apt install -y oci-oke-node-all* sudo oke bootstrap --apiserver-host <API SERVER IP> --ca <CA CERT> --manage-gpu-services --crio-extra-args " -
Ejecute el siguiente comando para verificar que los nodos se hayan agregado correctamente al cluster de OKE.
kubectl get nodes
Enlaces relacionados
-
Creación de un grupo dinámico y una política para nodos autogestionados
-
Presentamos la mejor plataforma para cargas de trabajo de IA: OCI Kubernetes Engine (OKE)
Agradecimientos
- Autores: Ruzhu Chen (arquitecto principal principal de Enterprise Cloud), Payal Sharma (arquitecto superior de Enterprise Cloud)
Más recursos de aprendizaje
Explore otros laboratorios en docs.oracle.com/learn o acceda a más contenido de formación gratuita en el canal YouTube de Oracle Learning. Además, visite education.oracle.com/learning-explorer para convertirse en un explorador de Oracle Learning.
Para obtener documentación sobre el producto, visite Oracle Help Center.
Migrate Bare Metal GPU Nodes to OKE as Self-Managed Nodes using an OCI Stack
G31986-01
Copyright ©2025, Oracle and/or its affiliates.