Jobs
Solucione problemas de jobs e execuções de jobs.
Não é possível criar o objeto de log em nome do usuário Erros Durante a Criação de uma Execução de Job
Se a criação da execução do job falhar e você vir os seguintes detalhes do ciclo de vida:
The specified log group is not found or not authorized. Cannot create log object on behalf of the user.
Ensure the log group is valid and the user has appropriate permissions configured
- OCID do Grupo de Logs Incorreto
-
Certifique-se de que o OCID do grupo de logs especificado na configuração de criação da execução do job esteja correto.
- Permissões Incorretas
-
Estão faltando permissões. O usuário que cria a execução do job deve ter permissões para grupos de logs e conteúdo de log. Isso serve para garantir que o usuário tenha acesso ao grupo de logs e ao objeto de log especificados. Além disso, para ajudar a criar um novo objeto de log em nome do usuário quando
enableAutoLogCreation
estiver ativado.allow group <group-name> to manage log-groups in compartment <log-compartment-name>
allow group <group-name> to use log-content in compartment <log-compartment-name>
Erros comuns são:
- Só concedendo permissões
use
ao usuário em grupos de logs. A permissãomanage
é necessária quandoenableAutoLogCreation
está ativado. - Permitir o grupo errado. O grupo refere-se ao grupo no qual o criador da execução do job está. Se você estiver criando execuções de jobs usando controladores de instâncias, a política necessária será:
dynamic group <instance-principal-dynamic-group-name>
Falha na Execução do Job Bring Your Own Container ao Fazer Download da Imagem
Ao tentar criar um job trazer seu próprio contêiner, ele falha com erros ao fazer download da imagem, certifique-se de:
- O host pode estar ausente no caminho para a imagem. O formato correto para o caminho da imagem é
<region-key>.ocir.io/<tenancy-namespace>/<repository-name>:<tag>
. Um erro comum é perder a primeira parte do caminho (o URL do host). - A imagem do contêiner está em uma região diferente da execução do job: os jobs do Data Science não suportam a extração de imagens da região cruzada do OCIR. Certifique-se de que a imagem do contêiner esteja na mesma região que a execução do job.
Por que Não Iniciar Rapidamente uma Opção na Console ao Criar um Job
A opção de inicialização rápida só está disponível nas regiões em que é suportada. Nem todas as regiões e realms suportam esse recurso. Por exemplo, geralmente não há suporte para ele em realms de DRCC (Dedicated Region Cloud@Customer).
O mesmo ocorre para o ponto final da API ListFastLaunchJobConfigs. A API responde com a lista de opções para inicialização rápida; portanto, para regiões em que a inicialização rápida não é suportada, a resposta é uma lista de erros ou vazia.
400 LimitExceeded Erro
Ao criar um job ou uma execução de job e esse erro ocorrer, significa que você atingiu os Limites de Serviço do OCI. Assista ao vídeo aumentando seus limites de serviço do Data Science para saber como enviar uma solicitação para aumentar seus limites de serviço.
No momento, não há capacidade para o Erro de forma especificado
Se esse erro ocorrer durante a criação de uma execução de job (como o detalhe do ciclo de vida descreve), não haverá capacidade para criar a execução. Tente novamente mais tarde, tente em outras regiões ou use diferentes famílias de formas.
401 NotAuthenticated Erro ao Fazer Solicitações à API do Serviço Data Science
Esse tipo de erro não está totalmente relacionado ao serviço Data Science. Em vez disso, é um problema do lado do usuário ao criar e assinar as solicitações.
Se você estiver usando o controlador do usuário para fazer a solicitação, alguns erros comuns são:
- Tendo chaves de API inválidas, consulte atribuindo chaves.
- Fazer uma solicitação imediatamente após fazer upload de uma chave pública. As informações de identidade precisam de tempo para se propagar pelas regiões de um realm. Normalmente, ocorre dentro de 5 minutos, embora ocasionalmente mais tempo possa ser necessário.
A Integração de Log de Execução de Job está Ativada Embora os Logs Não sejam Gerados
Para uma execução de job criada com sucesso que atingiu um estado IN_PROGRESS
, mas nenhum log aparece no objeto de log. Normalmente, isso ocorre quando as políticas estão ausentes ou incorretas. A execução do job deve ter permissões para gravar no log de execução do job.
Primeiro, defina um grupo dinâmico para o recurso de execução de job:
all { resource.type='datasciencejobrun', resource.compartment.id='<job-run-compartment-ocid>' }
Em seguida, defina esse acesso de grupo dinâmico:
allow dynamic-group <job-runs-dynamic-group> to use log-content in compartment <log-compartment-name>
Alguns erros comuns são:
- Um compartimento incorreto foi especificado. Observe que o compartimento descrito nas políticas anteriores é diferente.
- Para a definição de grupo dinâmico, é o compartimento da execução do job.
- Para a instrução de política de acesso ao conteúdo do log, é o compartimento do log.
- Definindo o grupo dinâmico usando
compartment.id
em vez deresource.compartment.id
. - Um tipo de recurso incorreto foi incluído na definição do grupo dinâmico. Provavelmente, o grupo dinâmico definido é para o recurso da sessão de notebook e não inclui o recurso de execução de job. O controlador de recursos
datasciencejobrun
é usado para gravar logs para integração de log de execução de job; portanto, deve ser incluído na definição de grupo dinâmico.
A Integração de Log de Execução de Job está Ativada Embora os Logs Aparecem Truncados
Os jobs do serviço Data Science suportam integração com o serviço OCI Logging para registro em log automático. Se os logs parecerem truncados ou incompletos, é provável que seja devido aos seguintes limites de serviço de Log:
- Cada entrada deve ter menos de 1 MB.
- Qualquer campo de dados de log não pode ter mais de 10.000 caracteres.
Se os dados excederem esses limites, a entrada de log será truncada durante a ingestão.
Métricas de Execução do Job Não Tem Dados
Se você não vir as métricas de execução do job durante ou após o processamento do job, provavelmente não terá as políticas corretas configuradas. Verifique se você tem a seguinte política:
allow group <user-group-name> to read metrics in compartment <compartment-name>
O compartimento é o compartimento da execução do job.
Falha na execução do artefato de execução do job com o código de saída ___ Erro
Isso significa que a execução do código falhou com o código de saída indicado relacionado ao código. Ativar integração de log e certifique-se de ter instruções de log suficientes no código para depurar o problema.
O Código de Saída da Execução do Cargo Não Está Indicado
Os jobs indicam o código de saída de uma falha na execução do job quando ele sai. Essas informações estão disponíveis no campo de detalhes do ciclo de vida da execução do job. Isso é suportado para todas as execuções de job, incluindo trazer suas próprias execuções de job de contêiner.
Se você estiver observando que o código de saída com o qual sabe que houve falha na execução do job não está indicado corretamente, provavelmente o código de saída não está sendo propagado corretamente.
Alguns erros comuns são:
- Se você estiver usando um script shell como um ponto de entrada, inicie outros arquivos a serem executados (outros arquivos python), o script shell deverá capturar o código de saída da execução do arquivo interno e, posteriormente, sair do script shell com o código de saída capturado.
- Gerar exceções pode não ser suficiente. A execução do arquivo (ou contêiner para trazer seu próprio contêiner) deve sair explicitamente com um código de saída. Em Python, isso é feito usando
sys.exit(ERROR_CODE)
. - Usar um tipo incorreto para o code value de saída. Normalmente, o tipo incorreto usado é uma string. Os códigos de saída devem ser Números ou números inteiros e entre 1 e 255, conforme descrito em Cargo com Códigos de Saída.
Ponto de Entrada Inválido da Execução do Job
A especificação de JOB_RUN_ENTRYPOINT
para um arquivo que não existe ou que não está no local especificado resulta neste erro:
Job run bootstrap failure: invalid job run entry point (JOB_RUN_ENTRYPOINT).