Modelli di analisi delle immagini pre-addestrati
Vision fornisce modelli AI di analisi delle immagini pre-addestrati che consentono di trovare e contrassegnare oggetti, testo e intere scene nelle immagini.
I modelli pre-addestrati ti consentono di utilizzare l'intelligenza artificiale senza alcuna esperienza di data science. Fornire un'immagine al servizio Vision e recuperare informazioni su oggetti, testo, scene e facce nell'immagine senza dover creare il proprio modello.
Casi d'uso
Di seguito sono riportati diversi casi d'uso per i modelli di analisi delle immagini pre-addestrati.
- Digital Asset Management
- Contrassegna le immagini digitali simili a quelle di un supporto per migliorare l'indicizzazione e il recupero.
- Monitoraggio delle scene
- Rileva se gli articoli sono sugli scaffali al dettaglio, la vegetazione sta crescendo nell'immagine di sorveglianza di una linea elettrica o se i camion sono disponibili molto per la consegna o la spedizione.
- Rilevamento facciale
-
- Privacy: nascondi le identità aggiungendo una sfocatura all'immagine utilizzando le informazioni sulla posizione del volto restituite tramite la funzione di rilevamento del volto.
- Prerequisito per la biometria: utilizzare il punteggio di qualità del viso per decidere se un viso è chiaro e senza ostacoli.
- Gestione degli asset digitali: tag immagini con informazioni facciali per una migliore indicizzazione e recupero.
Formati supportati:
Vision supporta diversi formati di analisi delle immagini.
- JPG
- PNG
Modelli pre-addestrati
Vision dispone di quattro tipi di modello di analisi delle immagini pre-addestrato.
Rilevamento oggetti
Il rilevamento degli oggetti viene utilizzato per trovare e identificare gli oggetti all'interno di un'immagine. Ad esempio, se si dispone di un'immagine di un soggiorno, Vision trova gli oggetti presenti, ad esempio una sedia, un divano e una TV. Quindi fornisce riquadri per ciascuno degli oggetti e li identifica.
Vision fornisce un punteggio di affidabilità per ogni oggetto identificato. Il punteggio di affidabilità è un numero decimale. I punteggi più vicini a 1 indicano una maggiore affidabilità nella classificazione degli oggetti, mentre i punteggi più bassi indicano un punteggio di affidabilità più basso. L'intervallo del punteggio di affidabilità per ogni etichetta è compreso tra 0 e 1.
- Etichette
- Punteggio affidabilità
- Polighi delimitati da oggetti
- Richieste singole
- Richieste batch
Esempio di utilizzo di Rilevamento oggetti in Vision.
- Immagine di input
-
Immagine di input per Rilevamento oggetti
- output:
-
Immagine di output per rilevamento oggetti
{ "imageObjects":
[ { "name": "Bus",
"confidence": 0.98872757,
"boundingPolygon":
{ "normalizedVertices":
[ { "x": 0.232,
"y": 0.16114457831325302 },
{ "x": 0.407,
"y": 0.16114457831325302 },
{ "x": 0.407,
"y": 0.36596385542168675 },
{ "x": 0.232,
"y": 0.36596385542168675 } ]
} },
}, ... }
Classificazione immagini
La classificazione delle immagini può essere utilizzata per identificare entità geografiche e oggetti in un'immagine. È possibile disporre di una o più classificazioni, a seconda del caso d'uso e del numero di elementi in un'immagine. Ad esempio, se si dispone di un'immagine di una persona in esecuzione, Vision identifica la persona, l'abbigliamento e le calzature.
Vision fornisce un punteggio di affidabilità per ogni etichetta. Il punteggio di affidabilità è un numero decimale. I punteggi più vicini a 1 indicano una maggiore fiducia nell'etichetta, mentre i punteggi più bassi indicano un punteggio di affidabilità più basso. L'intervallo del punteggio di affidabilità per ogni etichetta è compreso tra 0 e 1.
- Etichette
- Punteggio affidabilità
- Classi di ontologia
- Richieste singole
- Richieste batch
Esempio di utilizzo della classificazione delle immagini in Vision.
- Immagine di input
-
Immagine di input per classificazione immagine
- output:
- Risposta API:
{ "labels": [ { "name": "Overhead power line", "confidence": 0.99315816 }, { "name": "Transmission tower", "confidence": 0.9927904 }, { "name": "Plant", "confidence": 0.9924676 }, { "name": "Sky", "confidence": 0.9924451 }, { "name": "Line", "confidence": 0.9912027 } ] ...
Rilevamento facciale
La visione può rilevare e riconoscere i volti in un'immagine.
Il rilevamento facciale consente di passare un'immagine o un batch di immagini a Vision per rilevare quanto segue utilizzando un modello pre-addestrato:
- L'esistenza di volti in ogni immagine.
- La posizione dei volti in ogni immagine.
- Punti di riferimento per ogni viso.
- Qualità visiva di ogni viso.
Per utilizzare questo modello pre-addestrato non è richiesta alcuna esperienza di data science.
Un esempio di rilevamento del volto in Vision.
- Immagine di input
-
Immagine di input per la richiesta API
di rilevamento facciale:{ "compartmentId": "ocid1.compartment.oc1..aaaaaaaau3mwjanch4k54g45rizeqy52jcaxmiu4ii3kwy7hvn6pncs6yyba", "image": { "namespaceName": "axwlrwe7tbir", "bucketName": "demo_examples", "objectName": "FaceDetection/FaceDetection1.jpeg", "source": "OBJECT_STORAGE" }, "features": [ { "featureType": "FACE_DETECTION", "maxResults": 50, "shouldReturnLandmarks": true } ] } - output:
-
Immagine di output per il rilevamento del volto
{
"ontologyClasses": [],
"detectedFaces": [
{
"confidence": 0.9838427,
"boundingPolygon": {
"normalizedVertices": [
{
"x": 0.48696465492248536,
"y": 0.2889890061576746
},
{
"x": 0.6339863777160645,
"y": 0.2889890061576746
},
{
"x": 0.6339863777160645,
"y": 0.586297366400352
},
{
"x": 0.48696465492248536,
"y": 0.586297366400352
}
]
},
"qualityScore": 0.9043028,
"landmarks": [
{
"type": "LEFT_EYE",
"x": 0.5203125,
"y": 0.41114983
},
{
"type": "RIGHT_EYE",
"x": 0.590625,
"y": 0.41231126
},
{
"type": "NOSE_TIP",
"x": 0.553125,
"y": 0.4715447
},
{
"type": "LEFT_EDGE_OF_MOUTH",
"x": 0.5210937,
"y": 0.5005807
},
{
"type": "RIGHT_EDGE_OF_MOUTH",
"x": 0.5914062,
"y": 0.5017422
}
]
},
{
"confidence": 0.9775677,
"boundingPolygon": {
"normalizedVertices": [
{
"x": 0.7882407665252685,
"y": 0.26365977075734065
},
{
"x": 0.9403343200683594,
"y": 0.26365977075734065
},
{
"x": 0.9403343200683594,
"y": 0.5528718281567582
},
{
"x": 0.7882407665252685,
"y": 0.5528718281567582
}
]
},
"qualityScore": 0.786416,
"landmarks": [
{
"type": "LEFT_EYE",
"x": 0.81328124,
"y": 0.37514517
},
{
"type": "RIGHT_EYE",
"x": 0.88125,
"y": 0.39140534
},
{
"type": "NOSE_TIP",
"x": 0.8296875,
"y": 0.44134727
},
{
"type": "LEFT_EDGE_OF_MOUTH",
"x": 0.8078125,
"y": 0.46689895
},
{
"type": "RIGHT_EDGE_OF_MOUTH",
"x": 0.8726562,
"y": 0.48083624
}
]
},
{
"confidence": 0.97464997,
"boundingPolygon": {
"normalizedVertices": [
{
"x": 0.038544440269470216,
"y": 0.2764744597998784
},
{
"x": 0.17794162034988403,
"y": 0.2764744597998784
},
{
"x": 0.17794162034988403,
"y": 0.560027438173726
},
{
"x": 0.038544440269470216,
"y": 0.560027438173726
}
]
},
"qualityScore": 0.8527186,
"landmarks": [
{
"type": "LEFT_EYE",
"x": 0.08984375,
"y": 0.3809524
},
{
"type": "RIGHT_EYE",
"x": 0.15234375,
"y": 0.39140534
},
{
"type": "NOSE_TIP",
"x": 0.12421875,
"y": 0.44599304
},
{
"type": "LEFT_EDGE_OF_MOUTH",
"x": 0.07734375,
"y": 0.46689895
},
{
"type": "RIGHT_EDGE_OF_MOUTH",
"x": 0.14375,
"y": 0.47619048
}
]
},
{
"confidence": 0.96874785,
"boundingPolygon": {
"normalizedVertices": [
{
"x": 0.2698225736618042,
"y": 0.24420403492713777
},
{
"x": 0.38425185680389407,
"y": 0.24420403492713777
},
{
"x": 0.38425185680389407,
"y": 0.4686152760575457
},
{
"x": 0.2698225736618042,
"y": 0.4686152760575457
}
]
},
"qualityScore": 0.8934359,
"landmarks": [
{
"type": "LEFT_EYE",
"x": 0.29453126,
"y": 0.3240418
},
{
"type": "RIGHT_EYE",
"x": 0.3484375,
"y": 0.33681765
},
{
"type": "NOSE_TIP",
"x": 0.31328124,
"y": 0.3821138
},
{
"type": "LEFT_EDGE_OF_MOUTH",
"x": 0.2890625,
"y": 0.39372823
},
{
"type": "RIGHT_EDGE_OF_MOUTH",
"x": 0.3453125,
"y": 0.40301976
}
]
},
{
"confidence": 0.95825064,
"boundingPolygon": {
"normalizedVertices": [
{
"x": 0.6876011371612549,
"y": 0.10002164585942037
},
{
"x": 0.8045546531677246,
"y": 0.10002164585942037
},
{
"x": 0.8045546531677246,
"y": 0.3600864033804261
},
{
"x": 0.6876011371612549,
"y": 0.3600864033804261
}
]
},
"qualityScore": 0.9237982,
"landmarks": [
{
"type": "LEFT_EYE",
"x": 0.7171875,
"y": 0.19976771
},
{
"type": "RIGHT_EYE",
"x": 0.7703125,
"y": 0.21254355
},
{
"type": "NOSE_TIP",
"x": 0.7367188,
"y": 0.2601626
},
{
"type": "LEFT_EDGE_OF_MOUTH",
"x": 0.7085937,
"y": 0.2752613
},
{
"type": "RIGHT_EDGE_OF_MOUTH",
"x": 0.76640624,
"y": 0.2857143
}
]
}
],
"faceDetectionModelVersion": "1.0.27",
"errors": []
}
riconoscimento ottico dei caratteri (OCR)
Vision è in grado di rilevare e riconoscere il testo in un documento.
La classificazione della lingua identifica la lingua di un documento, quindi OCR disegna caselle di delimitazione attorno al testo stampato o scritto a mano che trova in un'immagine e digitalizza il testo. Ad esempio, se si dispone di un'immagine di stop, Vision trova il testo nell'immagine ed estrae il testo STOP. Fornisce riquadri per il testo identificato.
Vision fornisce un punteggio di affidabilità per ogni raggruppamento di testo. Il punteggio di affidabilità è un numero decimale. I punteggi più vicini a 1 indicano una maggiore fiducia nel testo estratto, mentre i punteggi più bassi indicano un punteggio di affidabilità più basso. L'intervallo del punteggio di affidabilità per ogni etichetta è compreso tra 0 e 1.
Il rilevamento del testo può essere utilizzato con i modelli AI documento o Analisi immagine.
Il supporto OCR è limitato all'inglese. Se sai che il testo nelle tue immagini è in inglese, imposta la lingua su Eng.
- Estrazione parola
- Estrazione righe di testo
- Punteggio affidabilità
- Polighi di delimitazione
- Richiesta singola
- Richiesta batch
Esempio di utilizzo di OCR in Vision.
- Immagine di input
- Immagine di input per la richiesta API
OCR:{ "analyzeImageDetails": { "compartmentId": "", "image": { "namespaceName": "", "bucketName": "", "objectName": "", "source": "OBJECT_STORAGE" }, "features": [ { "featureType": "TEXT_DETECTION" } ] } } - output:
-
Immagine di output per OCR
...
{ "text": "585-XRP",
"confidence": 0.9905539,
"boundingPolygon":
{ "normalizedVertices":
[ { "x": 0.466,
"y": 0.7349397590361446 },
{ "x": 0.552,
"y": 0.7319277108433735 },
{ "x": 0.553,
"y": 0.7831325301204819 },
{ "x": 0.467,
"y": 0.7876506024096386 } ]
}
}
...
Uso dei modelli di analisi delle immagini predefiniti
Vision fornisce ai clienti modelli pre-addestrati per estrarre insight sulle loro immagini senza dover ricorrere ai data scientist.
Prima di utilizzare un modello pre-addestrato, è necessario eseguire le operazioni riportate di seguito.
-
Account tenancy a pagamento in Oracle Cloud Infrastructure.
-
Familiarità con Oracle Cloud Infrastructure Object Storage.
Puoi chiamare i modelli di analisi delle immagini pre-addestrati come richiesta batch utilizzando le API Rest, l'SDK o l'interfaccia CLI. Puoi chiamare i modelli di analisi delle immagini pre-addestrati come una singola richiesta utilizzando la console, le API Rest, l'SDK o l'interfaccia CLI.
Per informazioni sugli elementi consentiti nelle richieste batch, vedere la sezione Limiti.