Création d'un modèle génératif personnalisé V2.0 (Nouveau)

Le service de documentation pour OCI comporte une extraction de valeur clé alimentée par de grands modèles multimodaux, offrant une précision et une adaptabilité améliorées par rapport aux méthodes conventionnelles basées sur des modèles.

À propos de

L'extraction de valeur clé du service de documents pour OCI utilise un raisonnement multimodal pour analyser à la fois le contenu textuel et les dispositions visuelles, ce qui le rend très efficace pour traiter des documents avec des formats, des modèles et des structures variés. Vous pouvez fournir un schéma décrivant les clés (champs) requis pour l'extraction, ce qui permet au service de s'adapter à différents types de document sans avoir à réentraîner le modèle.

Cette approche à grand modèle multimodal (LMM) brille dans des situations impliquant des incohérences de mise en page, un étiquetage irrégulier ou des données d'entraînement rares, des circonstances où les modèles traditionnels ou les solutions basées sur des modèles exigent souvent des mises à jour et une maintenance continues.

Régions disponibles

Vous pouvez créer des modèles personnalisés pour l'extraction de grande valeur de clé basée sur un modèle multimodal génératif (LMM) dans les régions OCI suivantes :

Nom de la région Emplacement Identificateur de la région Clé de région
Brésil - Est (Sao Paulo) São Paulo sa-saopaulo-1 GRU
Japon - Centre (Osaka) Osaka ap-osaka-1 KIX
Royaume-Uni - Sud (Londres) Londres uk-london-1 LHR
États-Unis - Midwest (Chicago) Chicago us-chicago-1 ORD

Découvrez À propos des régions et des domaines de disponibilité.

Création d'un fichier JSON pour les clés et les valeurs

Avec l'extraction générative, vous spécifiez les informations à extraire en définissant un schéma. Le schéma agit comme un ensemble d'instructions décrivant les clés (champs) d'intérêt et leurs valeurs attendues. Sur la base de ces instructions, le modèle identifie et extrait les valeurs des documents en fonction de vos spécificités.

  1. Définir le schéma JSON : Créez un fichier JSON qui contient un tableau d'objets, où chaque objet représente une clé à extraire.
  2. Spécifier les propriétés de clé : Créez chaque objet du tableau avec les propriétés suivantes :
    • key : Nom de la clé à extraire (obligatoire).
    • dataType : Type de données attendu (facultatif).
    • description : Description en langage naturel de la clé (obligatoire).
  3. Entrer les clés : Pour les noms de clé, voir Utilisation des clés de système et des clés personnalisées.
  4. (Facultatif) Ajoutez un type de données facultatif : Si vous avez besoin d'un type de données spécifique pour l'une des clés, affectez l'une des valeurs suivantes à la propriété dataType :
    • string
    • date
    • number
    • currency
    • phone
  5. Utiliser le langage naturel pour les descriptions : Dans la propriété description, fournissez des détails clairs et contextuels en anglais simple pour guider le modèle d'IA générative dans l'identification et l'extraction des valeurs correctes.

    Les documents analysés avec ce modèle personnalisé peuvent être dans différentes langues, comme indiqué dans la colonne version 2 pour l'extraction de valeur de clé personnalisée dans le tableau Langues prises en charge.

    Une description efficace clarifie explicitement :

    • Ce que le champ représente.

    • il apparaît généralement dans le document (emplacement visuel ou contextuel), par exemple dans le coin supérieur droit.

    • Comment il est formaté (modèles, séparateurs, contraintes), comme les formats de date.

    • Ce qu'il faut exclure, y compris du texte similaire visuellement ou sémantiquement que vous ne voulez pas extraire.

  6. Alimenter le fichier JSON : Ajoutez les clés requises et leurs descriptions. Vous pouvez laisser le champ description comme une chaîne vide si vous préférez que le modèle déduise la valeur.
  7. Dans une région prise en charge, enregistrez ce fichier JSON dans un seau de stockage d'objets de votre location.
Exemple de fichier JSON

Voici un exemple de fichier JSON pour l'extraction de clé-valeur :

[
                    {
                    "key": "InvoiceId",
                    "dataType": "String",
                    "description": "A unique alphanumeric identifier assigned to the invoice. Usually labelled Invoice No., Inv #, 
Bill Number and appears near the top of the invoice, often right after the text label."
                    },
                    {
                    "key": "InvoiceDate",
                    "description": "Date the invoice was issued. Common formats include DD-MM-YYYY or MM/DD/YYYY."
                    },
                    {
                    "key": "DueDate",
                    "description": ""
                    },
                    {
                    "key": "PurchaseOrder",
                    "description": ""
                    },
                    {
                    "key": "InvoiceTotal",
                    "description": "Total amount due. Exclude subtotals, taxes, and discounts. 
Look for labels such as Grand Total, Amount Payable, or Balance Due near the bottom of the document."
                    },
                    {
                    "key": "TotalTax",
                    "description": ""
                    },
                    {
                    "key": "SubTotal",
                    "description": ""
                    },
                    {
                    "key": "AmountDue",
                    "description": ""
                    },
                    {
                    "key": "PreviousUnpaidBalance",
                    "description": ""
                    }
                    ]
Conseil

Pour plus d'exemples d'écriture de descriptions, voir Meilleures pratiques pour les descriptions personnalisées.

Utilisation des clés système et des clés personnalisées

Document Understanding fournit un jeu de clés système prédéfinies. Ces clés sont réglées pour fonctionner avec différents types de document et dispositions. Vous pouvez réutiliser ces clés telles quelles ou modifier leur description.

Commencer avec des clés fournies par le système

Commencez par utiliser les définitions de clé de système prédéfinies et évaluez leur rendement sur un échantillon représentatif de vos documents. Pour obtenir la liste des clés fournies par le système, voir Extraction de clé-valeur.

  • Si les résultats répondent aux exigences, réutilisez les clés fournies par le système.
  • Vous n'avez pas besoin d'ajouter des descriptions pour ces clés.

Personnaliser les descriptions de clé si nécessaire

Si une clé fournie par le système ne répond pas aux exigences, définissez une description personnalisée basée sur les documents.

Meilleures pratiques pour les descriptions personnalisées

Voici quelques bonnes pratiques avec des exemples pour écrire des descriptions clés :

Soyez explicite et sans ambiguïté

Faites clairement la distinction entre les champs qui peuvent sembler similaires, comme les différents identificateurs numériques.

Exemple

"key": "Invoice number"   
"description": "A unique alphanumeric identifier assigned to the invoice. 
Usually labeled Invoice No., Inv #, Bill Number and appears near the top of the invoice, 
often right after the text label." 

décrire les variations de contexte et d'étiquette

Les modèles génératifs dépendent fortement du texte et des étiquettes environnants. Inclure les variantes d'étiquette communes.

Exemple

"key": "Company GST Number" "description": "Company GST number, 
often labeled as GSTIN, GST No., or Tax ID. Usually appears 
in the header with other business identifiers."

Spécifier les formats de valeur attendus

Si le champ respecte un format connu, indiquez-le explicitement.

Exemple

"key": "Invoice Date" "description": "Date the invoice was issued. 
Common formats include DD-MM-YYYY or MM/DD/YYYY."

Clarifier les éléments à exclure

Identifiez explicitement les champs similaires que vous ne souhaitez pas extraire.

Exemple

"key": "Total Amount" "description": "Total amount due. 
Exclude subtotals, taxes, and discounts. 
Look for labels such as Grand Total, Amount Payable, or Balance Due near the bottom of the document."

Inclure les synonymes et les variations d'étiquette

Fournissez différentes étiquettes pour améliorer la robustesse des différentes variantes de document.

Exemple

"key": "Customer Phone Number" "description": "Customer phone number. 
A 10-digit numeric value labeled as Phone, Tel, Contact, or Mobile, typically adjacent to the 
customer name or address."

Ajouter des conseils d'emplacement de référence

Si les documents suivent des dispositions cohérentes, incluez des repères de position relative.

Exemple

"key": "Supplier Address" "description": "Supplier address 
located under the business name in the top-left area of the first page." 

Inclure des exemples lorsque cela est utile

Des exemples concrets améliorent la précision d'extraction.

Exemple

"key": "Invoice Date" "description": "Invoice date, 
for example 24-12-2025 or Dec 24, 2025. 
Usually follows labels such as Date or Invoice Date."

Soyez concis et précis

Préférez une phrase descriptive claire complétée par des contraintes ou des exemples essentiels.

Définir le comportement de secours

Le cas échéant, indiquez comment déduire les valeurs si l'étiquette principale est manquante.

Exemple :

Si le total de la facture est manquant, utilisez plutôt le montant total dû.

Encoder explicitement la conscience de la section

Pour les documents à sections multiples (tels que les formulaires), spécifiez le contexte de section et l'ordre des champs.

Exemple

"key": "First Name" "description": "Person’s given name. 
Appears under the Personal Information or Applicant   Details section header. 
Usually the first field in the section and appears before Last Name. 
Might contain multiple words (for example, MaryAnn)."

Gérer les valeurs multi-mot et multi-ligne

Autorisez explicitement l'extraction à plusieurs jetons ou lignes, le cas échéant.

Exemple

"key": "Address" "description": "Full residential address. 
May span multiple consecutive lines within the same section. 
Extract all adjacent address lines as a single value."

Utiliser des conseils négatifs pour éviter les faux positifs

Indiquez explicitement à partir duquel les valeurs ne doivent pas être extraites.

Exemple

"key": "Applicant Name" "description": "Applicant name. 
Do not extract names appearing in signature blocks, declaration sections, 
or references to officials or witnesses."

Traitement des champs sans étiquettes explicites

Pour les champs implicites, utilisez les repères de rôle sémantique et de disposition :

  • Position par rapport aux en-têtes de section

  • Tri dans les champs à proximité

  • Proximité des étiquettes associées

Exemples d'expression

  • Apparaît immédiatement après...
  • Situé à côté de…
  • Suit l'en-tête de section...

Création d'un modèle génératif personnalisé

Pour créer un modèle personnalisé pour l'extraction de clé-valeur à l'aide de l'intelligence artificielle générative, procédez comme suit :

Sélectionner des données

Créez un modèle génératif personnalisé de clé-valeur à l'aide du service de compréhension de documents.

  1. Naviguez jusqu'à la page de liste Projets. Si vous avez besoin d'aide pour trouver la page de liste, voir Liste des projets.
  2. Sélectionnez une des options suivantes :
    • Si vous n'avez pas de projet existant, créez un projet, puis sélectionnez ce projet.
    • Si vous avez un projet existant, sélectionnez-le dans la liste.
  3. Dans la page des détails du projet, sélectionnez Créer un modèle. Si vous avez besoin d'aide pour trouver la page des détails d'un projet, voir Consultation d'un projet.
  4. Sélectionnez Créer un modèle.
  5. Pour les détails du modèle, sélectionnez les éléments suivants :
    • Sélectionner le type de modèle à entraîner : Extraction de valeurs de clé
    • Version de modèle : V2.0 (Extraction générative)
  6. Pour Données d'entraînement, sélectionnez Sélectionner un jeu de données existant.
  7. Pour Source de données, sélectionnez Stockage d'objets.
  8. Sélectionnez le seau qui contient le fichier JSON que vous avez préparé dans Création d'un fichier JSON pour les clés et les valeurs. Si le seau se trouve dans un compartiment différent de celui du projet, sélectionnez le compartiment avec le seau.
  9. Pour Fichier d'étiquetage de données, sélectionnez le fichier JSON, puis Suivant.

Former le modèle

  1. Entrez un nom pour le modèle personnalisé.
  2. (Facultatif) Donnez une description au modèle pour vous aider à le trouver.
  3. Nombre d'unités d'inférence est une ressource de calcul dédiée à votre point d'extrémité et réglée à 1. Vous ne pouvez pas la modifier.
  4. Pour Langue du document de formation, sélectionnez EN pour l'anglais.
  5. Pour Durée de formation, sélectionnez une des options suivantes :
    • Formation recommandée : Document Understanding sélectionne automatiquement la durée d'entraînement pour créer le meilleur modèle. La formation peut prendre jusqu'à 24 heures.
    • Personnalisé : Avec cette option, vous pouvez définir la durée maximale de l'entraînement (en heures).
  6. Sélectionnez Suivant.

Vérifier

  1. Vérifiez les informations que vous avez fournies dans les étapes précédentes. Vous pouvez apporter des modifications, le cas échéant, en sélectionnant Précédent ou Modifier.
  2. Lorsque vous êtes satisfait des sélections, sélectionnez Créer et entraîner.

Tester le modèle

  1. Une fois le modèle personnalisé créé, dans la page des détails du modèle, naviguez jusqu'à la section Analyser.
  2. Chargez un document à partir d'un fichier local ou du stockage d'objets pour tester le modèle personnalisé.
  3. Sélectionnez Analyser.
  4. Sert à consulter les clés et leurs valeurs extraites.
  5. Si vous n'êtes pas satisfait des résultats, par exemple, pour ajouter une clé ou pour mettre à jour une description, mettez à jour votre fichier JSON et répétez les étapes précédentes.