Appel d'un déploiement de modèle

L'appel d'un déploiement de modèle signifie que vous pouvez transmettre des vecteurs de fonction ou des échantillons de données au point d'extrémité d'inférence. Le modèle retourne alors des prévisions pour ces échantillons.

Une fois qu'un déploiement de modèle se trouve dans une instance lifecycleState active, le point d'extrémité d'inférence peut recevoir les demandes effectuées par les clients. Les points d'extrémité pris en charge par le service sont les suivants :
Types de réponse
Type de réponse Point d'extrémité Description
Unique /predict Retourne une seule réponse.
Flux /predictWithResponseStream Retourne la diffusion en temps réel des résultats partiels au fur et à mesure qu'ils sont générés par le modèle.

Dans la page des détails d'un déploiement de modèle, sélectionnez Appel du modèle pour voir un panneau avec deux catégories principales : Sans diffusion en continu et Diffusion en continu.

Chaque catégorie affiche les détails suivants :

  • Le point d'extrémité HTTP du modèle. Pour un déploiement de modèle privé, le point d'extrémité HTTP contient un nom de domaine complet privé qui a été défini lors de la création du point d'extrémité privé. Pour plus d'informations, voir Création d'un point d'extrémité privé.
  • Exemple de code pour appeler le point d'extrémité de modèle à l'aide de l'interface de ligne de commande OCI. Ou, utilisez les trousses SDK Python pour OCI et Java pour appeler le modèle avec l'exemple de code fourni.

Utilisez l'exemple de code pour appeler un déploiement de modèle.

L'appel d'un déploiement de modèle appelle le point d'extrémité d'inférence de l'URI du déploiement. Ce point d'extrémité accepte les données-échantillons en entrée et est traité à l'aide de la fonction predict() dans le fichier d'artefact de modèle score.py. Les données-échantillons sont au format JSON mais d'autres formats sont possibles. Le traitement signifie que les données-échantillons peuvent être transformées, puis transmises à une méthode d'inférence de modèles. Les modèles peuvent générer des prédictions qui peuvent être traitées avant d'être retournées au client.