Déploiement de modèle

Suivez ces étapes pour déployer des modèles avec des actions rapides du service d'intelligence artificielle.

Création du déploiement de modèle

Vous pouvez créer un déploiement de modèle à partir des modèles de base avec le marqueur Prêt pour déploiement dans l'explorateur de modèles ou avec des modèles réglés avec précision. Lorsque vous créez un déploiement de modèle dans des actions rapides du service d'intelligence artificielle, vous créez un déploiement de modèle du service de science des données pour OCI, qui est une ressource gérée dans le service de science des données pour OCI. Vous pouvez déployer le modèle en tant que points d'extrémité HTTP dans OCI.

Vous devez disposer de la politique nécessaire pour utiliser le déploiement de modèle du service de science des données. Vous pouvez sélectionner la forme de calcul pour le déploiement de modèle. Vous pouvez configurer la journalisation pour surveiller le déploiement du modèle. La journalisation est facultative, mais il est fortement recommandé de résoudre les erreurs lors du déploiement du modèle. Vous devez disposer de la politique nécessaire pour activer la journalisation. Pour plus d'informations sur les journaux, voir Journaux de déploiement de modèle. Sous l'option avancée, vous pouvez sélectionner le nombre d'instances à déployer et la bande passante de l'équilibreur de charge.

Voir Déploiement de modèle sur GitHub pour plus d'informations et des conseils sur le déploiement de modèles.

Note

Pour accéder aux déploiements de modèle à l'aide de points d'extrémité privés, créez une session de carnet dont le type de réseau est réglé à Réseau personnalisé. Le trafic sortant personnalisé doit résider dans le même VCN et le même sous-réseau que la ressource de point d'extrémité privé.
  • Vous pouvez déployer des modèles à l'aide de trois options dans la page Déployer le modèle :

    • Déployer un modèle unique : Déployer un modèle sur une forme de calcul.
    • Déployer plusieurs modèles : Déployez plusieurs modèles sur une seule instance de calcul.
    • Déployer la pile de modèles : Déployez un modèle de base et plusieurs variantes de réglage de précision en tant que pile sur une seule forme de calcul.

    La présente section décrit chaque option de déploiement.

    1. Naviguez jusqu'à l'explorateur de modèles.
    2. Sélectionnez la carte de modèle pour le modèle à déployer.
    3. Sélectionnez Déployer pour déployer le modèle. La page Déployer le modèle s'affiche avec les trois options. Suivez les étapes ci-dessous en fonction du modèle sélectionné :
    4. Déployer un modèle unique :
      1. Attribuez un nom au déploiement.
      2. Sélectionnez une forme de calcul.
      3. (Facultatif) Sélectionnez un groupe de journaux.
      4. (Facultatif) Sélectionnez un journal de prédiction et d'accès.
      5. (Facultatif) Sélectionnez un point d'extrémité privé.
        Note

        Un point d'extrémité privé doit être créé en tant que préalable pour la ressource de déploiement de modèle.

        La fonction de point d'extrémité privé pour le déploiement de modèle n'est activée que dans le domaine OC1. Pour les autres domaines, créez une demande de service pour le service de science des données.

        La liste pour sélectionner et utiliser un point d'extrémité privé dans le déploiement de modèle n'apparaît dans la console que si un point d'extrémité privé existe dans le compartiment.
      6. Sélectionnez Afficher les options avancées.
      7. Mettez à jour le nombre d'instances et la bande passante de l'équilibreur de charge.
      8. (Facultatif) Sous Conteneur d'inférence, sélectionnez un conteneur d'inférence.
      9. (Facultatif) Sélectionnez Mode d'inférence.
      10. Sélectionnez Déployer.
    5. Déployer un modèle multiple : Seul le conteneur vLLM est pris en charge. Les modèles gérés par le service peuvent être combinés en un seul déploiement.
      1. Entrez un nom de déploiement.
      2. Sélectionnez les modèles à déployer.
      3. Sélectionnez une forme de calcul adaptée aux modèles.
      4. (Facultatif) Configurez des groupes de journaux, des journaux de prédiction et d'accès ou des points d'extrémité privés.
      5. Sélectionnez Afficher les options avancées.
      6. Mettez à jour le nombre d'instances et la bande passante de l'équilibreur de charge.
      7. (Facultatif) Sous Conteneur d'inférence, sélectionnez un conteneur d'inférence.
      8. (Facultatif) Sélectionnez Mode d'inférence.
      9. Sélectionnez Déployer.
    6. Déployer la pile de modèles : Seul le conteneur vLLM est pris en charge.
      1. Entrez un nom de déploiement.
      2. Sélectionnez le modèle de base.
      3. Sélectionnez les poids ou les variantes affinés.
      4. Sélectionnez une forme de calcul.
      5. (Facultatif) Configurez des groupes de journaux, des journaux de prédiction et d'accès ou des points d'extrémité privés.

        La journalisation est recommandée pour le suivi et le dépannage des opérations de déploiement.

      6. Sélectionnez Afficher les options avancées.
      7. Mettez à jour le nombre d'instances et la bande passante de l'équilibreur de charge.
      8. (Facultatif) Sous Conteneur d'inférence, sélectionnez un conteneur d'inférence.
      9. (Facultatif) Sélectionnez Mode d'inférence.
      10. Sélectionnez Déployer.
    7. Sous Actions rapides de l'IA, sélectionnez Déploiements.
      La liste des déploiements de modèle s'affiche. Pour le déploiement précédent créé, attendez que l'état du cycle de vie devienne Actif avant de cliquer dessus pour l'utiliser.
    8. Faites défiler l'affichage pour afficher la fenêtre d'inférence.
    9. Entrez du texte dans Invite pour tester le modèle.
    10. (Facultatif) Ajoutez les paramètres du modèle, le cas échéant.
    11. Sélectionnez Générer.
      La sortie est affichée dans Réponse.
  • Pour obtenir la liste complète des paramètres et des valeurs des commandes de l'interface de ligne de commande des actions rapides du service d'intelligence artificielle, voir Interface de ligne de commande des actions rapides du service d'intelligence artificielle.

  • Cette tâche ne peut pas être effectuée à l'aide de l'API.

Appeler un déploiement de modèle dans des actions rapides du service d'intelligence artificielle

Vous pouvez appeler le déploiement de modèle dans les actions rapides du service d'intelligence artificielle à partir de l'interface de ligne de commande ou de la trousse SDK Python.

Pour plus d'informations, voir la section sur les conseils de déploiement de modèle dans GitHub.

Artefacts de modèle

Où trouver les artefacts de modèle.

Lorsqu'un modèle est téléchargé dans une instance de déploiement de modèle, il est téléchargé dans le dossier /opt/ds/model/deployed_model/<object_storage_folder_name_and_path> .

Utilisation des déploiements de modèle dans Autonomous Database Select AI

Vous pouvez rendre les déploiements de modèle créés à l'aide d'Actions rapides de l'intelligence artificielle disponibles pour les interrogations en langage naturel avec Oracle Autonomous Database Select AI.

Conditions requises

  • Le déploiement de modèle est terminé et l'OCID du déploiement de modèle est terminé.
  • Instance Autonomous Database avec Select AI activée. Voir Sélectionner l'IA avec Autonomous Database.
  • Autorisations Oracle Cloud Infrastructure (OCI) requises pour créer des données d'identification et des profils.
  1. Dans la base de données Autonomous Database, créez des données d'identification pour accéder au déploiement de modèle.
    BEGIN
        DBMS_CLOUD.create_credential(
            credential_name   => '<CREDENTIAL_NAME>',
            user_ocid         => '<USER_OCID>',
            tenancy_ocid      => '<TENANCY_OCID>',
            private_key       => '<PRIVATE_KEY>',
            fingerprint       => '<FINGERPRINT>'
        );
    END;
    /

    Remplacez chaque paramètre fictif par des valeurs spécifiques :

    • <CREDENTIAL_NAME> : Nom des données d'identification
    • <USER_OCID> : OCID de l'utilisateur OCI
    • <TENANCY_OCID> : OCID de la location OCI
    • <PRIVATE_KEY> : Clé privée d'API au format PEM
    • <FINGERPRINT> : Empreinte numérique de clé publique d'API

    Pour plus de détails, voir Gestion des données d'identification.

  2. Créez un profil Select AI pour connecter la base de données autonome au modèle déployé.

    BEGIN
        DBMS_CLOUD_AI.CREATE_PROFILE(
            profile_name => '<PROFILE_NAME>',
            attributes => '
    {
      "credential_name": "<CREDENTIAL_NAME>",
      "model": "<MODEL_NAME>",
      "provider": "openai",
      "provider_endpoint": "<MODEL_DEPLOYMENT_OCID>",
      "conversation": "",
      "object_list": [
        {"owner": "ADMIN", "name": "customers"}
      ]
    }'
        );
    END;
    /
    Remplacez les paramètres fictifs :
    • <PROFILE_NAME> : Nom du profil.
    • <CREDENTIAL_NAME> : Nom des données d'identification à l'étape 1.
    • <MODEL_NAME> : Nom du modèle déployé (par exemple, odsc_2025llm).
    • <MODEL_DEPLOYMENT_OCID> : OCID du déploiement de modèle.
    • Mettez à jour "object_list" pour refléter le schéma et la table à exposer.