Appel d'un déploiement de modèle
L'appel d'un déploiement de modèle signifie que vous pouvez transmettre à l'adresse d'inférence des vecteurs de caractéristique ou des échantillons de données, puis le modèle renvoie des prédictions pour ces échantillons de données.
lifecycleState
actif, l'adresse d'inférence peut recevoir des demandes effectuées par les clients. Les adresses prises en charge par le service sont les suivantes :Type de réponse | Point d'extrémité | Description |
---|---|---|
Unique | /predict |
Renvoie une réponse unique. |
Transmission en continu | /predictWithResponseStream |
Renvoie la transmission en temps réel des résultats partiels au fur et à mesure qu'ils sont générés par le modèle. |
Sur une page de détails de déploiement de modèle, sélectionnez Appel de modèle pour afficher un panneau avec deux catégories principales : Non-Streaming et Streaming.
Chaque catégorie affiche les détails suivants :
- Adresse HTTP du modèle. Pour un déploiement de modèle privé, l'adresse HTTP contient un nom de domaine qualifié complet privé défini lors de la création de l'adresse privée. Pour plus d'informations, reportez-vous à Création d'une adresse privée.
- Exemple de code pour appeler l'adresse de modèle à l'aide de l'interface de ligne de commande OCI. Vous pouvez également utiliser les kits SDK Java et Python OCI pour appeler le modèle avec l'exemple de code fourni.
Utilisez l'exemple de code pour appeler un déploiement de modèle.
L'appel d'un déploiement du modèle appelle l'adresse de prédiction de l'URI de déploiement du modèle. Cette adresse prend des données échantillon en tant qu'entrée, traitée à l'aide de la fonction predict()
dans le fichier d'artefact de modèle score.py
. Les données échantillon sont au format JSON, mais d'autres formats peuvent être possibles. Le traitement implique que les données échantillon peuvent être transformées, puis transmises à une méthode d'inférence de modèle. Les modèles peuvent générer des prédictions qui peuvent être traitées avant d'être renvoyées au client.