Gerenciar Computação
Esta seção aborda as funções básicas de criação, alteração ou remoção de clusters de computação no AI Data Platform Workbench.
Sobre Clusters de Computação
Os clusters de computação de todas as finalidades fornecem os recursos de computação para processar suas cargas de trabalho em uma instância do AI Data Platform Workbench.
Você gerencia seus clusters de computação na página Compute no Oracle AI Data Platform Workbench.

Tipos de Computação
Existem dois tipos de computação no AI Data Platform Workbench: clusters de computação de todas as finalidades e Cluster de Computação do Catálogo Mestre Padrão.
Você só pode criar clusters de computação para todas as finalidades no AI Data Platform Workbench. Os clusters de computação multifuncionais são adequados para uma gama versátil de cargas de trabalho e podem ser anexados aos seus notebooks e usados em fluxos de trabalho. A menos que especificado de outra forma, quaisquer referências a 'cluster de computação' ou 'cluster' na documentação referem-se a clusters de computação para todos os fins.
Ao criar um novo cluster de computação com todas as finalidades, você pode escolher a configuração Início Rápido ou Personalizado. A configuração de Início Rápido é otimizada para fornecer inicialização rápida, enquanto a configuração Personalizada permite ajustar seu cluster de computação para todos os fins de acordo com as cargas de trabalho específicas que você precisa processar. Nas opções de configuração Início Rápido e Personalizado, você pode exibir projeções de custo e modificar opções de tempo limite de inatividade.
Observação:
A instalação de bibliotecas personalizadas em um cluster de computação de todas as finalidades configurado pelo Quickstart as altera automaticamente para a configuração Personalizada. Isso pode afetar o desempenho da inicialização.O Cluster de Computação do Catálogo Mestre Padrão está presente em todas as instâncias do AI Data Platform Workbench. Este cluster é responsável pelas funções essenciais do AI Data Platform Workbench, como crawls de pesquisa, atualização de objetos de catálogo, criação, edição e exclusão de objetos e teste de conexões.
Runtime do Cluster
Os clusters de computação de todas as finalidades podem ser criados com um runtime do Apache Spark 3.5. O ambiente de runtime é compatível com:
- Spark 3.5.0
- Delta 3.2.0 (pré-incluído)
- Python 3.11
- Scala 2.12
- Hadoop 3.3.4
- Java 17
Atualizações de Manutenção para Clusters de Computação
O AI Data Platform Workbench Compute aplica automaticamente atualizações de manutenção sem intervenção do usuário. As atualizações de manutenção abrangem todos os patches de segurança necessários ou correções de bugs para componentes internos do sistema operacional e do AI Data Platform Workbench.
O AI Data Platform Workbench verifica se não há clusters em execução antes de aplicar essas atualizações de manutenção mensal.
Criar um Cluster de Início Rápido
Você pode optar por criar um cluster de computação para todas as finalidades com configurações pré-configuradas para processar dados e cargas de trabalho de IA no seu AI Data Platform Workbench.
Você pode editar seu cluster a qualquer momento após a criação.
Criar um Cluster Personalizado
Você pode criar um cluster de computação para todos os fins com definições de configuração de sua própria escolha para processar dados e cargas de trabalho de IA no seu AI Data Platform Workbench.
Você pode editar seu cluster a qualquer momento após a criação.
Criar um Cluster de GPU NVIDIA
Você pode optar por usar uma GPU NVIDIA em um Cluster de Computação All Purpose para acelerar qualquer carga de trabalho em seu pipeline unificado de IA e dados.
As formas de GPU NVIDIA usam as seguintes configurações:
Tabela 13-1 Formas de GPU NVIDIA
| Contagem de GPU | OCPU | Armazenamento em blocos (GB) | Memória da GPU (GB) | Memória da CPU (GB) |
|---|---|---|---|---|
| 1 | 15 | 1500 | 24 | 240 |
| 2 | 30 | 3.000 | 48 | 480 |
Observação:
Quando você usa formas de GPU NVIDIA, a forma Driver e Worker deve ser uma GPU NVIDIA. No momento, não há suporte para a combinação de formas de CPU e GPU para o mesmo cluster.Ajuste de Cluster de GPU NVIDIA
Você pode ajustar seus clusters de GPU NVIDIA para otimizar seu desempenho usando recomendações do provedor de GPU e instalando bibliotecas opcionais.
O ajuste de clusters de GPU pode ajudar a otimizar o desempenho desses clusters quando chamados por jobs no AI Data Platform Workbench.
Para clusters baseados em GPU NVIDIA, você pode seguir o Guia de Ajuste da NVIDIA para obter recomendações e etapas que você pode seguir para otimizar o desempenho.
Você também tem a opção de instalar bibliotecas Spark RAPIDS para auxiliar na otimização:
- A biblioteca Spark RAPIDS é um acelerador RAPIDS para Apache Spark e fornece um conjunto de plug-ins que aproveitam GPUs para acelerar o processamento.
- A biblioteca Spark RAPIDS ML permite machine learning distribuído e acelerado por GPU no Apache Spark e fornece vários algoritmos compatíveis com PySpark ML com a tecnologia da biblioteca cuML RAPIDS.
A biblioteca Spark RAPIDS é comumente usada primeiro para engenharia de recursos e limpeza de dados e, em seguida, a validação cruzada é executada em escala usando a biblioteca Spark RAPIDS ML. Você pode usar essas bibliotecas para casos de uso como detecção de fraude (série de tempo), fluxo de cliques na web e experimentação A/B.
Tabela 13-2 Configurações do Spark Recomendadas
| Definição | Valor | Observação |
|---|---|---|
| spark.executor.instâncias | 4 | Número de colaboradores x contagem de GPUs por colaborador
Se o número de colaboradores for 4 e a contagem de GPUs por colaborador for 1, a configuração spark.executor.instances recomendada será 4 x 1 = 4 |
| spark.executor.núcleos | 16 | Contagem de GPUs/ núcleos de trabalhador/CPU, máximo de 16 |
| spark.executor.memória | 32 GB | 2 GB / núcleo ou 80% da contagem de memória de CPU / GPU por trabalhador (o que for menor) |
| spark.task.resource.gpu.amount | 0,062 | 1 / spark.executor.cores |
| spark.rapids.sql.concurrentGpuTasks | 3 | Memória de GPU / 8 GB, máximo de 4 |
| spark.rapids.shuffle.multiThreaded.writer.threads | 32 | Contagem de núcleos de CPU/GPU por trabalhador |
| spark.rapids.shuffle.multiThreaded.reader.threads | 32 | Contagem de núcleos de CPU/GPU por trabalhador |
| spark.shuffle.manager | com.nvidia.spark.rapids.spark350. RapidsShuffleManager | - |
| spark.rapids.shuffle.mode | MULTITHREAD | - |
| faísca.plugins | com.nvidia.spark.SQLPlugin | - |
| spark.executor.resource.gpu.amount | 1 | - |
| spark.sql.files.maxPartitionBytes | 2 GB | Opcional, recomendado para grandes conjuntos de dados |
| spark.rapids.sql.batchSizeBytes | 2 GB | Opcional, recomendado para grandes conjuntos de dados |
| spark.rapids.memory.host.spillArmazenamentoTamanho | 32 G | Opcional, recomendado para grandes conjuntos de dados |
| spark.rapids.memory.pinnedPool.size | 8 G | Opcional, recomendado para grandes conjuntos de dados |
| spark.sql.adaptive.coalescePartitions.minPartitionSize | 32 MB | Opcional, recomendado para grandes conjuntos de dados |
| spark.sql.adaptive.advisoryPartitionSizeInBytes | 160 MB | Opcional, recomendado para grandes conjuntos de dados |
| spark.rapids.filecache.ativado | Verdadeiro | Opcional, recomendado se as cargas de trabalho estiverem reutilizando conjuntos de dados |
Modificar um Cluster
Você pode alterar definições ou adicionar parâmetros adicionais para seus clusters.
- Navegue até seu espaço de trabalho e clique em Compute.
- Ao lado do cluster de computação que você deseja modificar, clique em
Ações e, em seguida, clique em Editar. - Modifique os atributos do seu cluster de computação ou adicione outros parâmetros conforme necessário.
- Clique em Salvar.
Excluir um Cluster
Você pode excluir clusters de computação que não são usados ou que não são mais necessários.
- Navegue até seu espaço de trabalho e clique em Compute.
- Ao lado do cluster que você deseja excluir, clique em
Ações e clique em Excluir. - Clique em Excluir.
Exibir Detalhes do Cluster
Você pode revisar a forma e as definições de um cluster a qualquer momento.
- Navegue até seu espaço de trabalho e clique em Compute.
- Clique no nome do cluster cujos detalhes você deseja exibir.
- Clique na guia Detalhes.
Atualizações de Manutenção para Clusters de Computação
A computação da Oracle AI Data Platform aplica automaticamente atualizações de manutenção sem intervenção do usuário.
As atualizações de manutenção abrangem todos os patches de segurança necessários ou correções de bugs para componentes internos do sistema operacional e da AI Data Platform. A AI Data Platform verifica se não há clusters em execução antes de aplicar essas atualizações de manutenção mensal.


