Gerenciar Computação

Sobre Clusters de Computação

Os clusters de computação de todas as finalidades fornecem os recursos de computação para processar suas cargas de trabalho em uma instância do AI Data Platform Workbench.

Você gerencia seus clusters de computação na página Compute no Oracle AI Data Platform Workbench.

Página AI Data Platform Compute com Computação destacada no painel esquerdo

Tipos de Computação

Existem dois tipos de computação no AI Data Platform Workbench: clusters de computação de todas as finalidades e Cluster de Computação do Catálogo Mestre Padrão.

Você só pode criar clusters de computação para todas as finalidades no AI Data Platform Workbench. Os clusters de computação multifuncionais são adequados para uma gama versátil de cargas de trabalho e podem ser anexados aos seus notebooks e usados em fluxos de trabalho. A menos que especificado de outra forma, quaisquer referências a 'cluster de computação' ou 'cluster' na documentação referem-se a clusters de computação para todos os fins.

Ao criar um novo cluster de computação com todas as finalidades, você pode escolher a configuração Início Rápido ou Personalizado. A configuração de Início Rápido é otimizada para fornecer inicialização rápida, enquanto a configuração Personalizada permite ajustar seu cluster de computação para todos os fins de acordo com as cargas de trabalho específicas que você precisa processar. Nas opções de configuração Início Rápido e Personalizado, você pode exibir projeções de custo e modificar opções de tempo limite de inatividade.

Observação:

A instalação de bibliotecas personalizadas em um cluster de computação de todas as finalidades configurado pelo Quickstart as altera automaticamente para a configuração Personalizada. Isso pode afetar o desempenho da inicialização.

O Cluster de Computação do Catálogo Mestre Padrão está presente em todas as instâncias do AI Data Platform Workbench. Este cluster é responsável pelas funções essenciais do AI Data Platform Workbench, como crawls de pesquisa, atualização de objetos de catálogo, criação, edição e exclusão de objetos e teste de conexões.

Runtime do Cluster

Os clusters de computação de todas as finalidades podem ser criados com um runtime do Apache Spark 3.5. O ambiente de runtime é compatível com:

Spark 3.5.0
Delta 3.2.0 (pré-incluído)
Python 3.11
Scala 2.12
Hadoop 3.3.4
Java 17

Atualizações de Manutenção para Clusters de Computação

O AI Data Platform Workbench Compute aplica automaticamente atualizações de manutenção sem intervenção do usuário. As atualizações de manutenção abrangem todos os patches de segurança necessários ou correções de bugs para componentes internos do sistema operacional e do AI Data Platform Workbench.

O AI Data Platform Workbench verifica se não há clusters em execução antes de aplicar essas atualizações de manutenção mensal.

Criar um Cluster de Início Rápido

Você pode optar por criar um cluster de computação para todas as finalidades com configurações pré-configuradas para processar dados e cargas de trabalho de IA no seu AI Data Platform Workbench.

A configuração de início rápido é um cluster Apache Spark com 1 driver e até 10 workers, cada um com 2 OCPUs AMD e 32 GB de memória. O dimensionamento automático é ativado por padrão para configuração de início rápido. Você pode definir seus clusters como ativos constantemente ou pode definir um intervalo de inatividade após o qual o cluster será interrompido automaticamente (tempo limite ocioso). Os clusters interrompidos serão retomados quando chamados por um workflow ou notebook anexado.

Você pode editar seu cluster a qualquer momento após a criação.

Clique em Criar no painel de navegação esquerdo e, em seguida, clique em Compute. Você também pode navegar até o seu espaço de trabalho e clicar em Compute. Em seguida, clique em Criar Cluster.
Forneça um nome e uma descrição para identificar seu cluster.
Selecione Versão de runtime.
Selecione Início Rápido como configuração do cluster.
Selecione se o número de colaboradores estático ou é dimensionado automaticamente. O dimensionamento automático é ativado por padrão para configuração de início rápido.
Para Duração da execução, selecione se o cluster será interrompido após uma duração definida de inatividade. Se Timeout de inatividade for selecionado, especifique o tempo de inatividade, em minutos, antes do timeout do cluster.
Clique em Criar.

Criar um Cluster Personalizado

Você pode criar um cluster de computação para todos os fins com definições de configuração de sua própria escolha para processar dados e cargas de trabalho de IA no seu AI Data Platform Workbench.

Os clusters personalizados são destinados a usuários avançados que desejam aproveitar toda a gama de opções de configuração para atender às suas necessidades. Você deve selecionar as opções de driver e trabalhador que melhor se adaptam às cargas de trabalho que você vai processar. Você pode definir seus clusters como ativos constantemente ou pode definir um intervalo de inatividade após o qual o cluster será interrompido automaticamente (tempo limite ocioso). Os clusters interrompidos serão retomados quando chamados por um workflow ou notebook anexado.

Você pode editar seu cluster a qualquer momento após a criação.

Clique em Criar no painel de navegação esquerdo e, em seguida, clique em Compute. Você também pode navegar até o seu espaço de trabalho e clicar em Compute. Em seguida, clique em Criar Cluster.
Forneça um nome e uma descrição para identificar seu cluster.
Selecione Versão de runtime.
Selecione as opções de driver para seu cluster.
Selecione as opções de colaborador para seu cluster. Essas opções se aplicam a todos os colaboradores do cluster.
Selecione se o número de colaboradores é estático ou se é dimensionado automaticamente.
- Se Valor estático, especifique o número de colaboradores.
- Se Dimensionamento Automático, especifique o número mínimo e máximo de colaboradores para os quais o cluster pode ser dimensionado.
Para Duração da execução, selecione se o cluster será interrompido após uma duração definida de inatividade. Se Timeout de inatividade for selecionado, especifique o tempo de inatividade, em minutos, antes do timeout do cluster.
Clique em Criar.

Criar um Cluster de GPU NVIDIA

Você pode optar por usar uma GPU NVIDIA em um Cluster de Computação All Purpose para acelerar qualquer carga de trabalho em seu pipeline unificado de IA e dados.

As formas de GPU NVIDIA usam as seguintes configurações:

Tabela 14-1 Formas de GPU NVIDIA

Contagem de GPU	OCPU	Armazenamento em blocos (GB)	Memória da GPU (GB)	Memória da CPU (GB)
1	15	1500	24	240
2	30	3.000	48	480

Observação:

Quando você usa formas de GPU NVIDIA, a forma Driver e Worker deve ser uma GPU NVIDIA. No momento, não há suporte para a combinação de formas de CPU e GPU para o mesmo cluster.

Clique em Criar no painel de navegação esquerdo e, em seguida, clique em Compute. Você também pode navegar até o seu espaço de trabalho e clicar em Compute. Em seguida, clique em Criar Cluster.
Forneça um nome e uma descrição para identificar seu cluster.
Selecione Versão de runtime.
Selecione Personalizado como configuração do cluster.
Para suas opções de driver de cluster:
- Selecione GPU NVIDIA como Forma do Driver.
- Selecione 1 ou 2 como a contagem de GPUs.
Para suas opções de cluster worker:
- Selecione GPU NVIDIA como Forma do Colaborador.
- Selecione 1 ou 2 como a contagem de GPUs.
Selecione se o número de colaboradores é estático ou se é dimensionado automaticamente.
- Se Valor estático, especifique o número de colaboradores.
- Se Dimensionamento Automático, especifique o número mínimo e máximo de colaboradores para os quais o cluster pode ser dimensionado.
Para Duração da execução, selecione se o cluster será interrompido após uma duração definida de inatividade. Se Timeout de inatividade for selecionado, especifique o tempo de inatividade, em minutos, antes do timeout do cluster.
Clique em Criar.

Ajuste de Cluster de GPU NVIDIA

Você pode ajustar seus clusters de GPU NVIDIA para otimizar seu desempenho usando recomendações do provedor de GPU e instalando bibliotecas opcionais.

O ajuste de clusters de GPU pode ajudar a otimizar o desempenho desses clusters quando chamados por jobs no AI Data Platform Workbench.

Para clusters baseados em GPU NVIDIA, você pode seguir o Guia de Ajuste da NVIDIA para obter recomendações e etapas que você pode seguir para otimizar o desempenho.

Você também tem a opção de instalar bibliotecas Spark RAPIDS para auxiliar na otimização:

A biblioteca Spark RAPIDS é um acelerador RAPIDS para Apache Spark e fornece um conjunto de plug-ins que aproveitam GPUs para acelerar o processamento.
A biblioteca Spark RAPIDS ML permite machine learning distribuído e acelerado por GPU no Apache Spark e fornece vários algoritmos compatíveis com PySpark ML com a tecnologia da biblioteca cuML RAPIDS.

A biblioteca Spark RAPIDS é comumente usada primeiro para engenharia de recursos e limpeza de dados e, em seguida, a validação cruzada é executada em escala usando a biblioteca Spark RAPIDS ML. Você pode usar essas bibliotecas para casos de uso como detecção de fraude (série de tempo), fluxo de cliques na web e experimentação A/B.

Tabela 14-2 Configurações do Spark Recomendadas

Definição	Valor	Observação
spark.executor.instâncias	4	Número de colaboradores x contagem de GPUs por colaborador Se o número de colaboradores for 4 e a contagem de GPUs por colaborador for 1, a configuração spark.executor.instances recomendada será 4 x 1 = 4
spark.executor.núcleos	16	Contagem de GPUs/ núcleos de trabalhador/CPU, máximo de 16
spark.executor.memória	32 GB	2 GB / núcleo ou 80% da contagem de memória de CPU / GPU por trabalhador (o que for menor)
spark.task.resource.gpu.amount	0,062	1 / spark.executor.cores
spark.rapids.sql.concurrentGpuTasks	3	Memória de GPU / 8 GB, máximo de 4
spark.rapids.shuffle.multiThreaded.writer.threads	32	Contagem de núcleos de CPU/GPU por trabalhador
spark.rapids.shuffle.multiThreaded.reader.threads	32	Contagem de núcleos de CPU/GPU por trabalhador
spark.shuffle.manager	com.nvidia.spark.rapids.spark350. RapidsShuffleManager	-
spark.rapids.shuffle.mode	MULTITHREAD	-
faísca.plugins	com.nvidia.spark.SQLPlugin	-
spark.executor.resource.gpu.amount	1	-
spark.sql.files.maxPartitionBytes	2 GB	Opcional, recomendado para grandes conjuntos de dados
spark.rapids.sql.batchSizeBytes	2 GB	Opcional, recomendado para grandes conjuntos de dados
spark.rapids.memory.host.spillArmazenamentoTamanho	32 G	Opcional, recomendado para grandes conjuntos de dados
spark.rapids.memory.pinnedPool.size	8 G	Opcional, recomendado para grandes conjuntos de dados
spark.sql.adaptive.coalescePartitions.minPartitionSize	32 MB	Opcional, recomendado para grandes conjuntos de dados
spark.sql.adaptive.advisoryPartitionSizeInBytes	160 MB	Opcional, recomendado para grandes conjuntos de dados
spark.rapids.filecache.ativado	Verdadeiro	Opcional, recomendado se as cargas de trabalho estiverem reutilizando conjuntos de dados

Modificar um Cluster

Você pode alterar definições ou adicionar parâmetros adicionais para seus clusters.

Navegue até seu espaço de trabalho e clique em Compute.
Ao lado do cluster de computação que você deseja modificar, clique em Ações e, em seguida, clique em Editar.
Modifique os atributos do seu cluster de computação ou adicione outros parâmetros conforme necessário.
Clique em Salvar.

Excluir um Cluster

Você pode excluir clusters de computação que não são usados ou que não são mais necessários.

Navegue até seu espaço de trabalho e clique em Compute.
Ao lado do cluster que você deseja excluir, clique em Ações e clique em Excluir.
Clique em Excluir.

Exibir Detalhes do Cluster

Você pode revisar a forma e as definições de um cluster a qualquer momento.

Navegue até seu espaço de trabalho e clique em Compute.
Clique no nome do cluster cujos detalhes você deseja exibir.
Clique na guia Detalhes.

Atualizações de Manutenção para Clusters de Computação

A computação da Oracle AI Data Platform aplica automaticamente atualizações de manutenção sem intervenção do usuário.

As atualizações de manutenção abrangem todos os patches de segurança necessários ou correções de bugs para componentes internos do sistema operacional e da AI Data Platform. A AI Data Platform verifica se não há clusters em execução antes de aplicar essas atualizações de manutenção mensal.