Catalogo modelli

Scopri come utilizzare il catalogo dei modelli di Data Science.

Catalogo modelli

Il catalogo modelli è un repository centralizzato e gestito di artifact modello. I modelli memorizzati nel catalogo modelli possono essere condivisi tra i membri di un team e possono essere caricati di nuovo in una sessione notebook. Ad esempio, i modelli nel catalogo modelli possono essere distribuiti anche come endpoint HTTP utilizzando una distribuzione dei modelli.

Una voce di modello nel catalogo modelli include due componenti:

  • Un artifact modello è un archivio zip che include l'oggetto modello salvato. Script Python che fornisce istruzioni su come utilizzare il modello a scopo di inferenza (score.py) e un file che documenta l'ambiente di runtime del modello (runtime.yaml). È possibile ottenere esempi di artifact, score.py e runtime.yaml da Github.

  • Metadati sulla provenienza del modello, incluse le informazioni relative a Git e lo script o il notebook utilizzato per inviare il modello al catalogo. È possibile documentare la risorsa in cui è stato eseguito l'addestramento del modello (una sessione notebook o un'esecuzione job) e il riferimento Git al codice di origine dell'addestramento. Questi metadati vengono estratti automaticamente dall'ambiente di sessione notebook se si salva l'artifact del modello con ADS.

Gli artifact del modello memorizzati nel catalogo modelli sono immutabili in base alla progettazione. Qualsiasi modifica che si desidera applicare a un modello richiede la creazione di un nuovo modello. L'immutabilità impedisce modifiche indesiderate e garantisce che qualsiasi modello in produzione possa essere rintracciato fino all'artifact esatto dietro le previsioni del modello.

Importante

La dimensione massima degli artifact è di 100 MB quando vengono salvati dalla console. Il limite di dimensioni è stato rimosso da ADS, dagli SDK OCI e dall'interfaccia CLI. I modelli di grandi dimensioni hanno limitazioni di artifact fino a 400 GB.

Documentazione dei modelli

È possibile utilizzare queste opzioni per documentare la modalità di addestramento del modello, il caso d'uso e le funzioni di previsione necessarie.

Nota

ADS popola automaticamente la provenienza e la tassonomia per conto dell'utente quando si salva un modello con ADS.

Provenienza

La prova del modello è una documentazione che consente di migliorare la riproducibilità e la verificabilità del modello. È possibile documentare la risorsa in cui è stato eseguito l'addestramento del modello (una sessione notebook o un'esecuzione job) e il riferimento Git al codice di origine dell'addestramento. Questi parametri vengono estratti automaticamente quando si salva un modello con l'SDK ADS.

Quando si lavora all'interno di un repository Git, ADS può ottenere informazioni Git e popolare automaticamente i campi dei metadati di provenienza del modello.

Tassonomia

Tassonomia consente di descrivere il modello che si sta salvando nel catalogo modelli. È possibile utilizzare campi preimpostati per documentare gli elementi riportati di seguito.

  • Caso d'uso del machine learning

  • Framework del modello di machine learning

  • Versione

  • Oggetto valutatore

  • Iperparametri

  • Risultati test artifact

In alternativa, è possibile creare metadati personalizzati.

Test introspezione modello

L'introspezione nel contesto dei modelli di machine learning è una serie di test e controlli eseguiti su un artifact del modello per testare tutti gli aspetti dello stato operativo del modello. Questi test sono destinati a score.py e runtime.yaml con l'obiettivo di acquisire alcuni errori e problemi comuni dell'artifact modello. I risultati dei test di introspezione fanno parte dei metadati del modello predefiniti. Se si salva il modello utilizzando la console, è possibile memorizzare i risultati del test in formato JSON nel campo Risultati test artifact quando si seleziona Tassonomia modello documento. Se si decide di salvare il modello utilizzando l'SDK Python OCI, utilizzare la chiave dei metadati ArtifactTestResults.

Come parte del nostro modello di artifact del modello, abbiamo incluso uno script Python che contiene una serie di definizioni dei test di introspezione. Questi test sono facoltativi ed è possibile eseguirli prima di salvare il modello nel catalogo modelli. È quindi possibile salvare i risultati del test come parte dei metadati del modello da visualizzare in OCI Console.

Il nostro blog su Data Science contiene ulteriori informazioni sull'uso dell'introspezione dei modelli.

Schemi di input e output dei modelli

La definizione di schema è una descrizione delle funzioni necessarie per eseguire una previsione di modello riuscita. La definizione dello schema è un contratto che definisce il payload di input richiesto che i client del modello devono fornire. Le definizioni degli schemi di input e di output vengono utilizzate solo a scopo di documentazione in questa release del catalogo modelli. Gli schemi sono in formato file JSON.

È possibile definire entrambi gli schemi. È necessario almeno uno schema di input per qualsiasi previsione modello.

Lo schema di output potrebbe non essere sempre necessario. Ad esempio, quando il modello restituisce un valore a virgola mobile semplice, non esiste un valore così elevato nella definizione di uno schema per un output così semplice. È possibile trasmettere tali informazioni nella descrizione del modello.