Gestionar recursos informáticos
En esta sección se tratan las funciones básicas de crear, cambiar o eliminar clusters de recursos informáticos en el área de trabajo de AI Data Platform.
Temas:
- Acerca de los clusters de recursos informáticos
- Creación de un cluster de inicio rápido
- Creación de un cluster personalizado
- Creación de un cluster de GPU de NVIDIA
- Ajuste de cluster de GPU de NVIDIA
- Modificación de un cluster
- Suprimir un agrupamiento
- Ver detalles de cluster
- Actualizaciones de mantenimiento para clusters de recursos informáticos
Acerca de los clusters de recursos informáticos
Los clusters de recursos informáticos de uso general proporcionan los recursos informáticos necesarios para procesar las cargas de trabajo en una instancia del área de trabajo de AI Data Platform.
Puede gestionar los clusters de recursos informáticos desde la página Recursos informáticos del área de trabajo de la plataforma de datos de Oracle AI.

Tipos de cálculo
Existen dos tipos de recursos informáticos en el área de trabajo de AI Data Platform: clusters de recursos informáticos de uso general y cluster de recursos informáticos de catálogo maestro por defecto.
Solo puede crear clusters de recursos informáticos de uso general en el área de trabajo de AI Data Platform. Los clusters de recursos informáticos de uso general son adecuados para una amplia gama de cargas de trabajo versátiles y se pueden asociar a sus blocs de notas y utilizarse en flujos de trabajo. A menos que se especifique lo contrario, las referencias a "cluster de recursos informáticos" o "cluster" en la documentación hacen referencia a clusters de recursos informáticos de uso general.
Al crear un nuevo cluster de recursos informáticos completo, puede seleccionar la configuración de inicio rápido o personalizada. La configuración de inicio rápido está optimizada para proporcionar un inicio rápido, mientras que la configuración personalizada permite ajustar el cluster de recursos informáticos de uso completo para adaptarse a las cargas de trabajo específicas que necesita procesar. En las opciones de configuración Quickstart y Custom, puede ver las proyecciones de costos y modificar las opciones de timeout de inactividad.
Note:
La instalación de bibliotecas personalizadas en un cluster de recursos informáticos de inicio rápido configurado para todo el propósito cambia automáticamente a la configuración personalizada. Esto puede afectar el rendimiento de inicio.El cluster de recursos informáticos del catálogo maestro por defecto está presente en todas las instancias de AI Data Platform Workbench. Este cluster es responsable de las funciones esenciales de AI Data Platform Workbench, como exploraciones de búsqueda, refrescamiento de objetos de catálogo, creación, edición y supresión de objetos y prueba de conexiones.
Tiempo de ejecución de cluster
Los clusters de recursos informáticos específicos se pueden crear con un tiempo de ejecución de Apache Spark 3.5. El entorno de tiempo de ejecución es compatible con:
- Spark 3.5.0
- Delta 3.2.0 (preincluido)
- Python 3.11
- Scala 2.12
- Hadoop 3.3.4
- Java 17
Actualizaciones de mantenimiento para clusters de recursos informáticos
Los recursos informáticos del área de trabajo de AI Data Platform aplican automáticamente actualizaciones de mantenimiento sin intervención del usuario. Las actualizaciones de mantenimiento cubren todos los parches de seguridad o correcciones de bugs necesarios para los componentes internos del sistema operativo y del área de trabajo de AI Data Platform.
AI Data Platform Workbench verifica que no haya clusters en ejecución antes de aplicar estas actualizaciones de mantenimiento mensuales.
Creación de un cluster de inicio rápido
Puede elegir crear un cluster de recursos informáticos de uso general con configuraciones preconfiguradas para procesar cargas de trabajo de datos e IA en su AI Data Platform Workbench.
Puede editar el cluster en cualquier momento después de la creación.
Creación de un cluster personalizado
Puede crear un cluster de recursos informáticos de uso general con los valores de configuración de su elección para procesar cargas de trabajo de datos e IA en su AI Data Platform Workbench.
Puede editar el cluster en cualquier momento después de la creación.
Creación de un cluster de GPU de NVIDIA
Puede optar por utilizar una GPU NVIDIA en un cluster de recursos informáticos para todo uso para acelerar cualquier carga de trabajo en su pipeline unificado de IA y datos.
Las unidades de GPU NVIDIA utilizan las siguientes configuraciones:
Tabla 13-1 Unidades de GPU NVIDIA
| Recuento de GPU | OCPU | Almacenamiento de bloques (GB) | Memoria de GPU (GB) | Memoria de CPU (GB) |
|---|---|---|---|---|
| 1 | 15 | 1500 | 24 | 240 |
| 2 | 30 | 3000 | 48 | 480 |
Note:
Cuando se utilizan unidades de GPU NVIDIA, tanto la unidad Driver como la de Worker deben ser una GPU NVIDIA. Actualmente no está soportada la combinación de unidades de CPU y GPU para el mismo cluster.Ajuste de cluster de GPU de NVIDIA
Puede ajustar los clusters de GPU de NVIDIA para optimizar su rendimiento mediante el uso de recomendaciones del proveedor de GPU y la instalación de bibliotecas opcionales.
El ajuste de clusters de GPU puede ayudar a optimizar el rendimiento de esos clusters cuando lo solicitan los trabajos de su área de trabajo de AI Data Platform.
Para los clústeres basados en GPU de NVIDIA, puedes seguir la Guía de ajuste de NVIDIA para obtener recomendaciones y pasos que puedes tomar para optimizar el rendimiento.
También tiene la opción de instalar bibliotecas de Spark RAPIDS para ayudar con la optimización:
- La biblioteca Spark RAPIDS es un acelerador de RAPIDS para Apache Spark y proporciona un conjunto de plugins que aprovechan las GPU para acelerar el procesamiento.
- La biblioteca Spark RAPIDS ML permite el aprendizaje automático distribuido y acelerado por GPU en Apache Spark y proporciona varios algoritmos compatibles con PySpark ML basados en la biblioteca cuML de RAPIDS.
La biblioteca RAPIDS de Spark se suele utilizar primero para la ingeniería de funciones y la limpieza de datos, y luego la validación cruzada se realiza a escala mediante la biblioteca ML de RAPIDS de Spark. Puede utilizar estas bibliotecas para casos de uso como la detección de fraudes (series temporales), el flujo de clics web y la experimentación A/B.
Tabla 13-2 Configuraciones de Spark recomendadas
| Valor | Valor | Nota |
|---|---|---|
| spark.executor.instances | 4 | Número de trabajadores x recuento de GPU por trabajador
Si el número de trabajadores es 4 y el recuento de GPU por trabajador es 1, la configuración de spark.executor.instances recomendada es 4 x 1 = 4 |
| spark.executor.cores | 16 | Recuento de GPU/núcleos de trabajador/CPU, máximo de 16 |
| spark.executor.memory | 32 GB | 2 GB/núcleo o 80% de memoria de CPU/recuento de GPU por trabajador (lo que sea menor) |
| spark.task.resource.gpu.amount | 0,062 | 1 / spark.executor.cores |
| spark.rapids.sql.concurrentGpuTasks | 3 | Memoria de GPU/8 GB, máximo de 4 |
| spark.rapids.shuffle.multiThreaded.writer.threads | 32 | Núcleos de CPU/recuento de GPU por trabajador |
| spark.rapids.shuffle.multiThreaded.reader.threads | 32 | Núcleos de CPU/recuento de GPU por trabajador |
| spark.shuffle.manager | com.nvidia.spark.rapids.spark350. RapidsShuffleManager | - |
| spark.rapids.shuffle.mode | MULTITHREAD | - |
| spark.plugins | com.nvidia.spark.SQLPlugin | - |
| spark.executor.resource.gpu.amount | 1 | - |
| spark.sql.files.maxPartitionBytes | 2 GB | Opcional, recomendado para juegos de datos grandes |
| spark.rapids.sql.batchSizeBytes | 2 GB | Opcional, recomendado para juegos de datos grandes |
| spark.rapids.memory.host.spillStorageSize | 32 G | Opcional, recomendado para juegos de datos grandes |
| spark.rapids.memory.pinnedPool.size | 8 G | Opcional, recomendado para juegos de datos grandes |
| spark.sql.adaptive.coalescePartitions.minPartitionTamaño | 32 MB | Opcional, recomendado para juegos de datos grandes |
| spark.sql.adaptive.advisoryPartitionTamaño en bytes | 160 MB | Opcional, recomendado para juegos de datos grandes |
| spark.rapids.filecache.activado | True | Opcional, se recomienda si las cargas de trabajo reutilizarán los juegos de datos |
Modificación de un cluster
Puede cambiar la configuración o agregar parámetros adicionales para los clusters.
- Vaya al espacio de trabajo y haga clic en Recursos informáticos.
- Junto al cluster de recursos informáticos que desea modificar, haga clic en
Acciones y, a continuación, en Editar. - Modifique los atributos del cluster de recursos informáticos o agregue parámetros adicionales según sea necesario.
- Haga clic en Guardar.
Suprimir un agrupamiento
Puede suprimir clusters de recursos informáticos que no se utilicen o que ya no sean necesarios.
- Vaya al espacio de trabajo y haga clic en Recursos informáticos.
- Junto al cluster que desea suprimir, haga clic en
Acciones y en Suprimir. - Haga clic en Suprimir.
Ver detalles de cluster
Puede revisar la unidad y la configuración de un cluster en cualquier momento.
- Vaya al espacio de trabajo y haga clic en Recursos informáticos.
- Haga clic en el nombre del cluster para el que desea ver los detalles.
- Haga clic en el separador Detalles.
Actualizaciones de mantenimiento para clusters de recursos informáticos
Los recursos informáticos de Oracle AI Data Platform aplican automáticamente actualizaciones de mantenimiento sin intervención del usuario.
Las actualizaciones de mantenimiento cubren todos los parches de seguridad o correcciones de bugs necesarios para los componentes internos del sistema operativo y la plataforma de datos de IA. AI Data Platform verifica que no haya clusters en ejecución antes de aplicar estas actualizaciones de mantenimiento mensuales.


