Cluster de memoria de GPU y Fabric de memoria
Puede utilizar clusters de memoria de GPU para agrupar, supervisar y gestionar instancias de computación de alto rendimiento (HPC), GPU u optimizadas, y ejecutar clusters de alto rendimiento con más flexibilidad. Cada cluster de memoria de GPU se crea en un único tejido de memoria de GPU, la infraestructura que permite la comunicación entre GPU. Los clusters de memoria de GPU se utilizan junto con clusters de recursos informáticos, no en lugar de hacerlo.
Importante
Debe ser un cliente de capacidad dedicada para utilizar clusters de memoria de GPU y tejido de memoria de GPU. Para cambiar la capacidad del host, póngase en contacto con los Servicios de Soporte Oracle abriendo una solicitud de soporte (SR).
Debe ser un cliente de capacidad dedicada para utilizar clusters de memoria de GPU y tejido de memoria de GPU. Para cambiar la capacidad del host, póngase en contacto con los Servicios de Soporte Oracle abriendo una solicitud de soporte (SR).
Con los clusters de memoria de GPU, puede:
- Crear un cluster de memoria a partir de un juego de GPU.
Por ejemplo, NVIDIA NVLink 72 admite hasta 18 hosts informáticos cada uno.
- Combine muchos clusters de memoria en un cluster grande que abarque una red grande. Los clusters de memoria de GPU están diseñados para escalar en el nivel de rack y le permiten escalar hacia arriba, mientras que los clusters de recursos informáticos le permiten escalar hacia fuera.
- Los clusters de memoria de GPU facilitan la comunicación de host a host/GPU a GPU.
- Los clusters de recursos informáticos facilitan la comunicación, a través de RoCE o InfiniBand, entre hosts/GPU en diferentes tejidos de memoria de GPU.
- Vea todos los clústeres de memoria de GPU y vea cómo están conectados.
Consulte ListComputeGpuMemoryClusters y Exploring Your GPU Memory Clusters and Memory Fabric.
- Realice un seguimiento de las métricas de rendimiento de cada cluster de memoria.
- Agregue o elimine GPU según sea necesario.
Las unidades de computación soportadas son BM.GPU.GB200.4 y BM.GPU.GB300.4.