Implementações de Modelo BYOC (Bring Your Own Container)

Diagnosticar e solucionar problemas de implantações de modelo BYOC.

Não é possível acessar a imagem do contêiner

Ao criar, atualizar ou ativar operações de implantação de modelo, o Data Science verifica se existe um caminho autorizado para acessar a imagem do contêiner na tenancy. Se a verificação falhar, pode ser por falta de políticas de controlador de recursos, um caminho de imagem incorreto ou a imagem não existir. Certifique-se de que as políticas, o caminho e a imagem especificados estejam corretos e tente novamente.

Timeout de Download da Imagem do Contêiner

Cada recurso de implantação de modelo envolve extrair a imagem de contêiner criada do OCI Registry para a instância de Computação de implantação, na qual ela é executada como contêiner para inferência. O download da imagem deve ser concluído em 20 minutos. No entanto, se o tamanho da imagem for muito grande ou ocorrer um tempo de inatividade do serviço temporário no registro, a operação poderá expirar, de modo que o tamanho da imagem deve estar dentro de 16 GB. Se a imagem for maior que isso, considere remover quaisquer dependências desnecessárias para reduzir o tamanho e, em seguida, tente a criação da implantação novamente.

Timeout de Execução do Contêiner

Ao implantar um modelo, a imagem do contêiner é transferida da tenancy para a tenancy do serviço Data Science e usada para executar o modelo como contêiner para inferência. O recipiente tem um tempo limite definido de 10 minutos para ser executado, por isso é crucial garantir que o recipiente de serviço de inferência comece dentro desse período.

Antes da implantação, é importante validar o contêiner localmente e testar se as chamadas /predict e /health foram bem-sucedidas.

Durante a implantação, também é crucial validar se não ocorrem erros durante a execução do contêiner, a chamada de previsão ou a chamada de verificação de integridade. Além disso, certifique-se de que a saída esteja ativada durante a criação do recurso de implantação de modelo se a lógica de inferência em execução dentro do contêiner precisar acessar a internet. Não fazer isso pode resultar em uma falha de bootstrap do modelo. Para testar esse cenário, tente desativar a internet durante o teste local.

Certifique-se de que haja memória suficiente alocada para carregar e inferir o modelo para evitar problemas de falta de memória.

Revise as melhores práticas BYOC e Teste o Contêiner para obter mais informações.

Não é possível Iniciar o Contêiner

Pode haver várias razões para um contêiner não ser iniciado. Para resolver isso, é melhor identificar e corrigir a falha durante a fase de teste local. A seguir estão algumas possíveis razões e correções:

  • A imagem do contêiner deve ter o pacote curl instalado para que a política HEALTHCHECK do Docker seja bem-sucedida. Se este pacote estiver ausente, o contêiner falhará ao ser iniciado.

  • Os parâmetros de linha de comando CMD ou Entrypoint do Docker devem ser fornecidos por meio da API ou do Dockerfile para inicializar o servidor Web. Se esses parâmetros forem inválidos, o contêiner não será iniciado.

Não é Possível Acessar o Modelo

Durante o bootstrap, a instância de Computação de implantações descompacta o artefato de modelo e monta os arquivos no diretório /opt/ds/model/deployed_model dentro do contêiner em execução no modo somente leitura.

Todos os arquivos compactados desse caminho são usados na lógica de pontuação. Compactar um conjunto de arquivos (incluindo modelo de ML e lógica de pontuação) ou uma pasta contendo um conjunto de arquivos que têm um caminho de local diferente para o modelo de ML dentro do contêiner.

Certifique-se de que o caminho correto seja usado ao carregar o modelo na lógica de pontuação.