Job
Risolvere i problemi relativi ai job e alle esecuzioni dei job.
Impossibile creare l'oggetto log per conto dell'utente Errori durante la creazione di un'esecuzione job
Se la creazione dell'esecuzione del job non riesce e vengono visualizzati i dettagli del ciclo di vita riportati di seguito.
The specified log group is not found or not authorized. Cannot create log object on behalf of the user.
Ensure the log group is valid and the user has appropriate permissions configured
- OCID gruppo di log errato
-
Assicurarsi che l'OCID del gruppo di log specificato nella configurazione di creazione dell'esecuzione del job sia corretto.
- Autorizzazioni errate
-
Permessi mancanti. L'utente che crea l'esecuzione del job deve disporre delle autorizzazioni per registrare i gruppi e registrare il contenuto. Ciò garantisce che l'utente abbia accesso al gruppo di log e all'oggetto di log specificati. Inoltre, per facilitare la creazione di un nuovo oggetto log per conto dell'utente quando
enableAutoLogCreation
è abilitato.allow group <group-name> to manage log-groups in compartment <log-compartment-name>
allow group <group-name> to use log-content in compartment <log-compartment-name>
Gli errori comuni sono:
- Assegnare all'utente le autorizzazioni
use
solo per i gruppi di log. L'autorizzazionemanage
è necessaria quandoenableAutoLogCreation
è abilitato. - Permettere il gruppo sbagliato. Il gruppo fa riferimento al gruppo in cui si trova l'autore dell'esecuzione del job. Se si stanno creando esecuzioni di job utilizzando i principal delle istanze, il criterio richiesto è il seguente:
dynamic group <instance-principal-dynamic-group-name>
Errore di esecuzione del job BYOC (Bring Your Own Container) durante il download dell'immagine
Quando si tenta di creare un job Bring Your Own Container, l'esecuzione non riesce con errori durante il download dell'immagine, assicurarsi che:
- Potrebbe mancare l'host nel percorso dell'immagine. Il formato corretto per il percorso dell'immagine è
<region-key>.ocir.io/<tenancy-namespace>/<repository-name>:<tag>
. Un errore comune è quello di perdere la prima parte del percorso (l'URL host). - L'immagine del contenitore si trova in un'area diversa rispetto all'esecuzione del job: i job di Data Science non supportano il pull delle immagini da più aree OCIR. Assicurarsi che l'immagine del contenitore si trovi nella stessa area dell'esecuzione del job.
Perché non viene avviata rapidamente un'opzione nella console durante la creazione di un job
L'opzione di avvio rapido è disponibile solo nelle aree in cui è supportata. Non tutte le aree e i realm supportano questa funzione. Ad esempio, in genere non è supportato nei realm DRCC ( Dedicated Region Cloud@Customer).
Lo stesso vale per l'endpoint API ListFastLaunchJobConfigs. L'API risponde con l'elenco di opzioni per l'avvio rapido, quindi per le aree in cui l'avvio rapido non è supportato la risposta è un errore o un elenco vuoto.
Errore 400 LimitExceeded
Quando si crea un'esecuzione di job o job e si verifica questo errore, significa che si è raggiunti i limiti del servizio OCI. Guarda il video sull'aumento dei limiti del servizio Data Science per scoprire come inviare una richiesta per aumentare i limiti del servizio.
Nessuna capacità attualmente disponibile per la forma specificata Errore
Se questo errore si verifica durante la creazione di un'esecuzione di job (come descritto nei dettagli del ciclo di vita), non è disponibile alcuna capacità per creare l'esecuzione. È necessario riprovare più tardi, provare in altre aree o utilizzare famiglie di forme diverse.
401 NotAuthenticated Errore durante l'esecuzione delle richieste all'API di Data Science
Questo tipo di errore non è correlato al servizio Data Science. Si tratta piuttosto di un problema sul lato utente durante la creazione e la firma delle richieste.
Se si utilizza il principal utente per effettuare la richiesta, alcuni errori comuni sono:
- In presenza di chiavi API non valide, vedere Assegnazione delle chiavi.
- Effettuare una richiesta subito dopo aver caricato una chiave pubblica. Le informazioni sull'identità devono essere propagate nelle aree di un realm. In genere, si verifica entro 5 minuti, anche se occasionalmente potrebbe essere necessario più tempo.
Esecuzione job: integrazione log abilitata anche se i log non vengono generati
Per un'esecuzione job creata correttamente che ha raggiunto lo stato IN_PROGRESS
, ma non viene visualizzato alcun log nell'oggetto log. In genere, ciò si verifica quando i criteri sono mancanti o errati. L'esecuzione del job deve disporre delle autorizzazioni per scrivere nel log di esecuzione del job.
Definire innanzitutto un gruppo dinamico per la risorsa di esecuzione job:
all { resource.type='datasciencejobrun', resource.compartment.id='<job-run-compartment-ocid>' }
Quindi impostare questo accesso al gruppo dinamico:
allow dynamic-group <job-runs-dynamic-group> to use log-content in compartment <log-compartment-name>
Alcuni errori comuni sono:
- È stato specificato un compartimento errato. Si noti che il compartimento descritto nei criteri precedenti è diverso.
- Per la definizione del gruppo dinamico, si tratta del compartimento dell'esecuzione del job.
- Per l'istruzione dei criteri per l'accesso al contenuto del log, si tratta del compartimento del log.
- Definizione del gruppo dinamico mediante
compartment.id
anzichéresource.compartment.id
. - Tipo di risorsa errato incluso nella definizione del gruppo dinamico. È probabile che il gruppo dinamico definito faccia riferimento alla risorsa della sessione notebook e non includa la risorsa di esecuzione job. Il principal risorsa
datasciencejobrun
viene utilizzato per scrivere nei log per l'integrazione del log di esecuzione job, pertanto deve essere incluso nella definizione del gruppo dinamico.
Esecuzione job: integrazione log abilitata anche se i log vengono troncati
I job di Data Science supportano l'integrazione con il servizio di log OCI per il log automatico. Se i log vengono troncati o incompleti, è probabile che siano dovuti ai seguenti limiti del servizio di log:
- Ogni voce deve essere inferiore a 1 MB.
- I campi dei dati di log non possono superare i 10.000 caratteri.
Se i dati superano questi limiti, la voce di log viene troncata durante l'inclusione.
Metriche esecuzione job senza dati
Se le metriche di esecuzione del job non vengono visualizzate durante o dopo l'elaborazione del job, è probabile che non si disponga dei criteri corretti configurati. Assicurarsi di disporre del seguente criterio:
allow group <user-group-name> to read metrics in compartment <compartment-name>
Il compartimento è il compartimento dell'esecuzione del job.
Esecuzione dell'artifact di esecuzione job non riuscita con codice di uscita ___ Errore
Ciò significa che l'esecuzione del codice non è riuscita con il codice di uscita indicato relativo al codice. Abilitare l'integrazione del log e assicurarsi di disporre di istruzioni di log sufficienti nel codice per eseguire il debug del problema.
Codice uscita esecuzione processo non indicato
I job indicano il codice di uscita di un errore di esecuzione del job quando viene chiuso. Queste informazioni sono disponibili nel campo dei dettagli del ciclo di vita dell'esecuzione del job. Questa operazione è supportata per tutte le esecuzioni di job, incluse le esecuzioni di job BYOC (Bring Your Own Container).
Se si sta osservando che il codice di uscita con cui si conosce l'esecuzione del job non riuscita non è indicato correttamente, è probabile che il codice di uscita non venga propagato correttamente.
Alcuni errori comuni sono:
- Se si utilizza uno script shell come punto di accesso per avviare altri file da eseguire (altri file python), lo script shell deve acquisire il codice di uscita dall'esecuzione interna del file, quindi uscire dallo script shell con il codice di uscita acquisito.
- Lanciare eccezioni potrebbe non essere sufficiente. L'esecuzione del file (o contenitore per il trasferimento del proprio contenitore) deve uscire in modo esplicito con un codice di uscita. In Python, questo viene fatto utilizzando
sys.exit(ERROR_CODE)
. - Viene utilizzato un tipo errato per il valore del codice di uscita. In genere, il tipo errato utilizzato è una stringa. I codici di uscita devono essere numeri o numeri interi e compresi tra 1 e 255, come descritto in Job con codici di uscita.
Punto di ingresso non valido esecuzione job
Se si specifica JOB_RUN_ENTRYPOINT
in un file che non esiste o il file non si trova nella posizione specificata, si verifica questo errore:
Job run bootstrap failure: invalid job run entry point (JOB_RUN_ENTRYPOINT).