Gestionar recursos informáticos

Acerca de los clusters de recursos informáticos

Los clusters de recursos informáticos de uso general proporcionan los recursos informáticos necesarios para procesar las cargas de trabajo en una instancia del área de trabajo de AI Data Platform.

Puede gestionar los clusters de recursos informáticos desde la página Recursos informáticos del área de trabajo de la plataforma de datos de Oracle AI.

Página AI Data Platform Compute con Compute resaltada en el panel izquierdo

Tipos de cálculo

Existen dos tipos de recursos informáticos en el área de trabajo de AI Data Platform: clusters de recursos informáticos de uso general y cluster de recursos informáticos de catálogo maestro por defecto.

Solo puede crear clusters de recursos informáticos de uso general en el área de trabajo de AI Data Platform. Los clusters de recursos informáticos de uso general son adecuados para una amplia gama de cargas de trabajo versátiles y se pueden asociar a sus blocs de notas y utilizarse en flujos de trabajo. A menos que se especifique lo contrario, las referencias a "cluster de recursos informáticos" o "cluster" en la documentación hacen referencia a clusters de recursos informáticos de uso general.

Al crear un nuevo cluster de recursos informáticos completo, puede seleccionar la configuración de inicio rápido o personalizada. La configuración de inicio rápido está optimizada para proporcionar un inicio rápido, mientras que la configuración personalizada permite ajustar el cluster de recursos informáticos de uso completo para adaptarse a las cargas de trabajo específicas que necesita procesar. En las opciones de configuración Quickstart y Custom, puede ver las proyecciones de costos y modificar las opciones de timeout de inactividad.

Note:

La instalación de bibliotecas personalizadas en un cluster de recursos informáticos de inicio rápido configurado para todo el propósito cambia automáticamente a la configuración personalizada. Esto puede afectar el rendimiento de inicio.

El cluster de recursos informáticos del catálogo maestro por defecto está presente en todas las instancias de AI Data Platform Workbench. Este cluster es responsable de las funciones esenciales de AI Data Platform Workbench, como exploraciones de búsqueda, refrescamiento de objetos de catálogo, creación, edición y supresión de objetos y prueba de conexiones.

Tiempo de ejecución de cluster

Los clusters de recursos informáticos específicos se pueden crear con un tiempo de ejecución de Apache Spark 3.5. El entorno de tiempo de ejecución es compatible con:

Spark 3.5.0
Delta 3.2.0 (preincluido)
Python 3.11
Scala 2.12
Hadoop 3.3.4
Java 17

Actualizaciones de mantenimiento para clusters de recursos informáticos

Los recursos informáticos del área de trabajo de AI Data Platform aplican automáticamente actualizaciones de mantenimiento sin intervención del usuario. Las actualizaciones de mantenimiento cubren todos los parches de seguridad o correcciones de bugs necesarios para los componentes internos del sistema operativo y del área de trabajo de AI Data Platform.

AI Data Platform Workbench verifica que no haya clusters en ejecución antes de aplicar estas actualizaciones de mantenimiento mensuales.

Creación de un cluster de inicio rápido

Puede elegir crear un cluster de recursos informáticos de uso general con configuraciones preconfiguradas para procesar cargas de trabajo de datos e IA en su AI Data Platform Workbench.

La configuración de inicio rápido es un cluster de Apache Spark con 1 controlador y hasta 10 trabajadores, cada uno con 2 OCPU de AMD y 32 GB de memoria. La escala automática está activada por defecto para la configuración de inicio rápido. Puede configurar los clusters para que estén constantemente activos o puede definir un intervalo de inactividad después del cual el cluster se detendrá automáticamente (tiempo de espera inactivo). Los clusters parados se reanudarán cuando un flujo de trabajo o bloc de notas asociado los llame.

Puede editar el cluster en cualquier momento después de la creación.

Haga clic en Crear en el panel de navegación de la izquierda y, a continuación, en Recursos informáticos. También puede navegar al espacio de trabajo, hacer clic en Recursos informáticos y, a continuación, en Crear cluster.
Proporcione un nombre y una descripción para identificar el cluster.
Seleccione Versión de tiempo de ejecución.
Seleccione Inicio rápido como configuración de cluster.
Seleccione si el número de trabajadores es estático o se escala automáticamente. La escala automática está activada por defecto para la configuración de inicio rápido.
En Duración de ejecución, seleccione si el cluster dejará de ejecutarse después de una duración definida de inactividad. Si se selecciona Timeout de inactividad, especifique el tiempo de inactividad, en minutos, antes de que se agote el tiempo de espera del cluster.
Haga clic en Create.

Creación de un cluster personalizado

Puede crear un cluster de recursos informáticos de uso general con los valores de configuración de su elección para procesar cargas de trabajo de datos e IA en su AI Data Platform Workbench.

Los clusters personalizados están pensados para usuarios avanzados que desean utilizar toda la gama de opciones de configuración según sus necesidades. Debe seleccionar las opciones de controlador y trabajador que mejor se ajusten a las cargas de trabajo que va a procesar. Puede configurar los clusters para que estén constantemente activos o puede definir un intervalo de inactividad después del cual el cluster se detendrá automáticamente (tiempo de espera inactivo). Los clusters parados se reanudarán cuando un flujo de trabajo o bloc de notas asociado los llame.

Puede editar el cluster en cualquier momento después de la creación.

Haga clic en Crear en el panel de navegación de la izquierda y, a continuación, en Recursos informáticos. También puede navegar al espacio de trabajo, hacer clic en Recursos informáticos y, a continuación, en Crear cluster.
Proporcione un nombre y una descripción para identificar el cluster.
Seleccione Versión de tiempo de ejecución.
Seleccione las opciones de controlador para el cluster.
Seleccione las opciones de trabajador para el cluster. Estas opciones se aplican a todos los trabajadores del cluster.
Seleccione si el número de trabajadores es estático o se escala automáticamente.
- Si es Importe estático, especifique el número de trabajadores.
- Si es Escala automática, especifique el número mínimo y máximo de trabajadores a los que se puede escalar el cluster.
En Duración de ejecución, seleccione si el cluster dejará de ejecutarse después de una duración definida de inactividad. Si se selecciona Timeout de inactividad, especifique el tiempo de inactividad, en minutos, antes de que se agote el tiempo de espera del cluster.
Haga clic en Create.

Creación de un cluster de GPU de NVIDIA

Puede optar por utilizar una GPU NVIDIA en un cluster de recursos informáticos para todo uso para acelerar cualquier carga de trabajo en su pipeline unificado de IA y datos.

Las unidades de GPU NVIDIA utilizan las siguientes configuraciones:

Tabla 14-1 Unidades de GPU NVIDIA

Recuento de GPU	OCPU	Almacenamiento de bloques (GB)	Memoria de GPU (GB)	Memoria de CPU (GB)
1	15	1500	24	240
2	30	3000	48	480

Note:

Cuando se utilizan unidades de GPU NVIDIA, tanto la unidad Driver como la de Worker deben ser una GPU NVIDIA. Actualmente no está soportada la combinación de unidades de CPU y GPU para el mismo cluster.

Haga clic en Crear en el panel de navegación de la izquierda y, a continuación, en Recursos informáticos. También puede navegar al espacio de trabajo, hacer clic en Recursos informáticos y, a continuación, en Crear cluster.
Proporcione un nombre y una descripción para identificar el cluster.
Seleccione Versión de tiempo de ejecución.
Seleccione Personalizado como configuración de cluster.
Para las opciones del controlador de cluster:
- Seleccione GPU de NVIDIA como unidad de controlador.
- Seleccione 1 o 2 como recuento de GPU.
Para las opciones de trabajador de cluster:
- Seleccione GPU de NVIDIA como unidad de trabajador.
- Seleccione 1 o 2 como recuento de GPU.
Seleccione si el número de trabajadores es estático o se escala automáticamente.
- Si es Importe estático, especifique el número de trabajadores.
- Si es Escala automática, especifique el número mínimo y máximo de trabajadores a los que se puede escalar el cluster.
En Duración de ejecución, seleccione si el cluster dejará de ejecutarse después de una duración definida de inactividad. Si se selecciona Timeout de inactividad, especifique el tiempo de inactividad, en minutos, antes de que se agote el tiempo de espera del cluster.
Haga clic en Create.

Ajuste de cluster de GPU de NVIDIA

Puede ajustar los clusters de GPU de NVIDIA para optimizar su rendimiento mediante el uso de recomendaciones del proveedor de GPU y la instalación de bibliotecas opcionales.

El ajuste de clusters de GPU puede ayudar a optimizar el rendimiento de esos clusters cuando lo solicitan los trabajos de su área de trabajo de AI Data Platform.

Para los clústeres basados en GPU de NVIDIA, puedes seguir la Guía de ajuste de NVIDIA para obtener recomendaciones y pasos que puedes tomar para optimizar el rendimiento.

También tiene la opción de instalar bibliotecas de Spark RAPIDS para ayudar con la optimización:

La biblioteca Spark RAPIDS es un acelerador de RAPIDS para Apache Spark y proporciona un conjunto de plugins que aprovechan las GPU para acelerar el procesamiento.
La biblioteca Spark RAPIDS ML permite el aprendizaje automático distribuido y acelerado por GPU en Apache Spark y proporciona varios algoritmos compatibles con PySpark ML basados en la biblioteca cuML de RAPIDS.

La biblioteca RAPIDS de Spark se suele utilizar primero para la ingeniería de funciones y la limpieza de datos, y luego la validación cruzada se realiza a escala mediante la biblioteca ML de RAPIDS de Spark. Puede utilizar estas bibliotecas para casos de uso como la detección de fraudes (series temporales), el flujo de clics web y la experimentación A/B.

Tabla 14-2 Configuraciones de Spark recomendadas

Valor	Valor	Nota
spark.executor.instances	4	Número de trabajadores x recuento de GPU por trabajador Si el número de trabajadores es 4 y el recuento de GPU por trabajador es 1, la configuración de spark.executor.instances recomendada es 4 x 1 = 4
spark.executor.cores	16	Recuento de GPU/núcleos de trabajador/CPU, máximo de 16
spark.executor.memory	32 GB	2 GB/núcleo o 80% de memoria de CPU/recuento de GPU por trabajador (lo que sea menor)
spark.task.resource.gpu.amount	0,062	1 / spark.executor.cores
spark.rapids.sql.concurrentGpuTasks	3	Memoria de GPU/8 GB, máximo de 4
spark.rapids.shuffle.multiThreaded.writer.threads	32	Núcleos de CPU/recuento de GPU por trabajador
spark.rapids.shuffle.multiThreaded.reader.threads	32	Núcleos de CPU/recuento de GPU por trabajador
spark.shuffle.manager	com.nvidia.spark.rapids.spark350. RapidsShuffleManager	-
spark.rapids.shuffle.mode	MULTITHREAD	-
spark.plugins	com.nvidia.spark.SQLPlugin	-
spark.executor.resource.gpu.amount	1	-
spark.sql.files.maxPartitionBytes	2 GB	Opcional, recomendado para juegos de datos grandes
spark.rapids.sql.batchSizeBytes	2 GB	Opcional, recomendado para juegos de datos grandes
spark.rapids.memory.host.spillStorageSize	32 G	Opcional, recomendado para juegos de datos grandes
spark.rapids.memory.pinnedPool.size	8 G	Opcional, recomendado para juegos de datos grandes
spark.sql.adaptive.coalescePartitions.minPartitionTamaño	32 MB	Opcional, recomendado para juegos de datos grandes
spark.sql.adaptive.advisoryPartitionTamaño en bytes	160 MB	Opcional, recomendado para juegos de datos grandes
spark.rapids.filecache.activado	True	Opcional, se recomienda si las cargas de trabajo reutilizarán los juegos de datos

Modificación de un cluster

Puede cambiar la configuración o agregar parámetros adicionales para los clusters.

Vaya al espacio de trabajo y haga clic en Recursos informáticos.
Junto al cluster de recursos informáticos que desea modificar, haga clic en Acciones y, a continuación, en Editar.
Modifique los atributos del cluster de recursos informáticos o agregue parámetros adicionales según sea necesario.
Haga clic en Guardar.

Suprimir un agrupamiento

Puede suprimir clusters de recursos informáticos que no se utilicen o que ya no sean necesarios.

Vaya al espacio de trabajo y haga clic en Recursos informáticos.
Junto al cluster que desea suprimir, haga clic en Acciones y en Suprimir.
Haga clic en Suprimir.

Ver detalles de cluster

Puede revisar la unidad y la configuración de un cluster en cualquier momento.

Vaya al espacio de trabajo y haga clic en Recursos informáticos.
Haga clic en el nombre del cluster para el que desea ver los detalles.
Haga clic en el separador Detalles.

Actualizaciones de mantenimiento para clusters de recursos informáticos

Los recursos informáticos de Oracle AI Data Platform aplican automáticamente actualizaciones de mantenimiento sin intervención del usuario.

Las actualizaciones de mantenimiento cubren todos los parches de seguridad o correcciones de bugs necesarios para los componentes internos del sistema operativo y la plataforma de datos de IA. AI Data Platform verifica que no haya clusters en ejecución antes de aplicar estas actualizaciones de mantenimiento mensuales.