Catalogue de modèles

Voyez comment utiliser le catalogue de modèles du service de science des données.

Le catalogue de modèles est un référentiel centralisé et géré d'artefacts de modèle. Les modèles stockés dans le catalogue peuvent être partagés entre les membres d'une équipe et rechargés dans une session de carnet. Par exemple, les modèles du catalogue peuvent également être déployés en tant que points d'extrémité HTTP à l'aide d'un déploiement de modèle.

Une entrée de modèle dans le catalogue possède deux composants :

Un artefact de modèle est une archive zip qui inclut l'objet de modèle enregistré. Script Python fournissant des instructions sur l'utilisation du modèle à des fins d'inférence (score.py) et fichier documentant l'environnement d'exécution du modèle (runtime.yaml). Vous pouvez obtenir des exemples d'artefact, score.py et runtime.yaml à partir de Github.
Métadonnées sur la provenance du modèle, y compris les informations liées à Git et le script ou le carnet utilisé pour pousser le modèle vers le catalogue. Vous pouvez documenter la ressource dans laquelle le modèle a été entraîné (une session de carnet ou une exécution de travail) et la référence Git au code source de l'entraînement. Ces métadonnées sont automatiquement extraites de l'environnement de votre session de carnet si vous enregistrez votre artefact de modèle dans ADS.

De par leur conception, les artefacts de modèle stockés dans le catalogue de modèles sont non mutables. Toute modification à appliquer à un modèle nécessite la création d'un nouveau. L'immuabilité empêche les modifications indésirables et garantit que tout modèle en production peut être suivi jusqu'à l'artefact exact derrière les prédictions du modèle.

Important

La taille maximale des artefacts est de 100 Mo lorsqu'ils sont enregistrés à partir de la console. La limite de taille a été supprimée d'ADS, des trousses SDK OCI et de l'interface de ligne de commande. Les grands modèles ont des limites d'artefacts allant jusqu'à 400 Go.

Modèles de document

Vous pouvez utiliser ces options pour documenter la façon dont vous avez entraîné le modèle, le cas d'utilisation et les fonctions de prédiction nécessaires.

Note

ADS alimente automatiquement la provenance et la taxonomie en votre nom lorsque vous enregistrez un modèle avec ADS.

Provenance

La provenance du modèle vous aide à améliorer la reproductibilité et la vérifiabilité du modèle. Vous pouvez documenter la ressource dans laquelle le modèle a été entraîné (une session de carnet ou une exécution de travail) et la référence Git au code source de l'entraînement. Ces paramètres sont automatiquement extraits lorsque vous enregistrez un modèle avec la trousse SDK ADS.

Lorsque vous travaillez dans un référentiel Git, ADS peut obtenir des informations Git et alimenter automatiquement les champs de métadonnées de provenance du modèle.

Taxonomie

Taxonomie vous permet de décrire le modèle que vous enregistrez dans le catalogue de modèles. Vous pouvez utiliser des champs prédéfinis pour documenter les éléments suivants :

Cas d'utilisation d'apprentissage automatique
Cadre de modèle d'apprentissage automatique
Version
Objet d'évaluation
Hyperparamètres
Résultats des tests d'artefact

Vous pouvez également créer des métadonnées personnalisées.

Tests d'introspection de modèle

L'introspection dans le contexte des modèles d'apprentissage automatique désigne une série de tests et de vérifications exécutés sur un artefact de modèle pour tester tous les aspects de la état opérationnel du modèle. Ces tests ciblent score.py et runtime.yaml dans le but de saisir certaines erreurs et problèmes courants de l'artefact de modèle. Les résultats des tests d'introspection font partie des métadonnées de modèle prédéfinies. Si vous enregistrez votre modèle à l'aide de la console, vous pouvez stocker les résultats au format JSON dans le champ Résultats du test d'artefact lorsque vous sélectionnez Documenter la taxonomie de modèle. Si vous décidez d'enregistrer le modèle à l'aide de la trousse SDK Python pour OCI, utilisez la clé de métadonnées ArtifactTestResults.

Dans le cadre de notre modèle d'artefact de modèle, nous avons inclus un script Python qui contient une série de définitions de tests d'introspection. Ces tests sont facultatifs et vous pouvez les exécuter avant d'enregistrer le modèle dans le catalogue de modèles. Vous pouvez ensuite enregistrer les résultats dans les métadonnées du modèle pour les afficher dans la console OCI.

Notre blogue sur le service de science des données contient plus d'informations sur l'utilisation de l'introspection de modèle.

Schéma d'entrée et de sortie du modèle

La définition de schéma est une description des fonctions nécessaires pour réussir une prédiction de modèle. La définition de schéma est un contrat qui définit les données utiles d'entrée requises que les clients du modèle doivent fournir. Les définitions de schéma d'entrée et de sortie ne sont utilisées qu'à des fins de documentation dans cette version du catalogue de modèles. Les schémas sont au format de fichier JSON.

Vous pouvez définir les deux schémas. Au minimum, un schéma d'entrée est nécessaire pour toutes les prédictions du modèle.

Il se peut que le schéma de sortie ne soit pas toujours nécessaire. Par exemple, lorsque le modèle retourne une simple valeur à virgule flottante, la définition d'un schéma ne présente aucun intérêt pour une sortie aussi simple. Vous pouvez transmettre ces informations dans la description du modèle.

Documentation sur Oracle Cloud Infrastructure

Catalogue de modèles

Modèles de document