Gespeicherte Videos mit einem benutzerdefinierten Modell analysieren
Identifizieren Sie szenenbasierte Funktionen und Objekte, und erkennen Sie Gesichter und Etikettenrahmen in einem Video, indem Sie ein benutzerdefiniertes Videoanalysemodell aufrufen.
Die maximale Größe und Dauer jedes Videos wird im Abschnitt Limits angezeigt.
Weitere Informationen zur Videoanalyse finden Sie im Abschnitt zur Analyse gespeicherter Videos.
- Dataset erstellen
- Benutzerdefinierte Modelle erstellen
- Benutzerdefiniertes Modell trainieren
- Benutzerdefiniertes Modell aufrufen
Dataset erstellen
Benutzerdefinierte Vision-Modelle sind für Benutzer ohne Data Science-Hintergrund gedacht. Wenn Sie ein Dataset erstellen und Vision anweisen, ein Modell basierend auf dem Dataset zu trainieren, können Sie ein benutzerdefiniertes Modell für Ihr Szenario bereitstellen.
Datenlabeling ist der Prozess, mit dem Eigenschaften von Datensätzen, wie z.B. Dokumenten, Texten und Bildern, identifiziert und mit Labels versehen werden, um diese Eigenschaften zu identifizieren. Die Beschriftung eines Bildes und die Identifizierung eines Objekts in einem Bild sind beide Beispiele für eine Datenbeschriftung. Sie können das Datenlabeling mit Oracle Cloud Infrastructure Data Labeling ausführen. Weitere Informationen finden Sie in der Dokumentation zum Data Labeling-Service. Nachfolgend finden Sie eine Übersicht über die zu ergreifenden Schritte:
- Sammeln Sie genügend Bilder, die der Verteilung der beabsichtigten Anwendung entsprechen.
Wenn Sie auswählen, wie viele Bilder für Ihren Datensatz benötigt werden, verwenden Sie so viele Bilder wie möglich in Ihrem Trainings-Dataset. Geben Sie für jedes zu erkennende Label mindestens 10 Bilder für das Label an. Stellen Sie im Idealfall 50 oder mehr Bilder pro Etikett bereit. Je mehr Bilder Sie liefern, desto besser ist die Erkennungsrobustheit und -genauigkeit. Robustheit ist die Fähigkeit, sich auf neue Bedingungen wie Blickwinkel oder Hintergrund zu verallgemeinern.
- Sammeln Sie ein paar verschiedene Arten von anderen Bildern, um verschiedene Kameraaufnahmewinkel, Lichtbedingungen, Hintergründe und andere zu erfassen.
Erfassen Sie einen Datensatz, der für das Problem und den Speicherplatz steht, auf den Sie das trainierte Modell anwenden möchten. Während Daten aus anderen Domänen funktionieren können, übertrifft ein Datensatz, der von denselben beabsichtigten Geräten, Umgebungen und Nutzungsbedingungen generiert wird, alle anderen.
Bieten Sie genügend Perspektiven für die Bilder, da das Modell nicht nur die Anmerkungen verwendet, um zu lernen, was richtig ist, sondern auch den Hintergrund, um zu erfahren, was falsch ist. Stellen Sie beispielsweise Ansichten von verschiedenen Seiten des erfassten Objekts mit unterschiedlichen Lichtverhältnissen von verschiedenen Bildaufnahmegeräten usw. bereit. - Beschriften Sie alle Instanzen der Objekte, die im Quell-Dataset auftreten.Halten Sie die Etiketten konsistent. Wenn Sie viele Äpfel zusammen als einen Apfel kennzeichnen, tun Sie dies konsequent in jedem Bild. Sie haben keinen Platz zwischen den Objekten und dem Begrenzungsrahmen. Die Begrenzungsrahmen müssen eng mit den beschrifteten Objekten übereinstimmen.Wichtig
Prüfen Sie jede dieser Anmerkungen, da sie für die Performance des Modells wichtig sind.
Benutzerdefiniertes Modell erstellen
Erstellen Sie benutzerdefinierte Modelle in Vision, um Erkenntnisse aus Bildern zu extrahieren, ohne Data Scientists zu benötigen.
- Ein kostenpflichtiger Mandantenaccount in Oracle Cloud Infrastructure.
- Vertrautheit mit Oracle Cloud Infrastructure Object Storage.
- Die richtigen Richtlinien.
Erfahren Sie in der Konsole, wie Sie ein Vision-Projekt erstellen und wie Sie ein Bildklassifizierungs- und Objekterkennungsmodell trainieren.
Mit dem Befehl create und den erforderlichen Parametern können Sie ein Projekt erstellen:
oci ai-vision project create [OPTIONS]Verwenden Sie den Befehl create und die erforderlichen Parameter, um ein Modell zu erstellen:
Eine vollständige Liste der Flags und Variablenoptionen für CLI-Befehle finden Sie in der CLI-Befehlsreferenz.oci ai-vision model create [OPTIONS]Führen Sie zunächst den Vorgang CreateProject aus, um ein Projekt zu erstellen.
Führen Sie dann den Vorgang CreateModel aus, um ein Modell zu erstellen.
Benutzerdefiniertes Modell trainieren
Nachdem Sie Ihr Dataset erstellt haben, können Sie Ihr benutzerdefiniertes Modell trainieren.
- Empfohlenes Training: Vision wählt automatisch die Trainingsdauer aus, um das beste Modell zu erstellen. Das Training kann bis zu 24 Stunden dauern.
- Schnelles Training: Diese Option erzeugt ein Modell, das nicht vollständig optimiert ist, aber in etwa einer Stunde verfügbar ist.
- Benutzerdefinierte Dauer: Mit dieser Option können Sie Ihre eigene maximale Trainingsdauer festlegen.
Die beste Trainingsdauer hängt von der Komplexität Ihres Erkennungsproblems, der typischen Anzahl von Objekten in einem Bild, der Auflösung und anderen Faktoren ab. Berücksichtigen Sie diese Anforderungen, und weisen Sie mit zunehmender Komplexität des Trainings mehr Zeit zu. Die empfohlene Trainingsdauer beträgt mindestens 30 Minuten. Eine längere Trainingszeit gibt eine höhere Genauigkeit, verringert aber die Renditen mit der Zeit. Verwenden Sie den Schnelltrainingsmodus, um sich ein Bild von der kleinsten Zeit zu machen, die benötigt wird, um ein Modell zu erhalten, das eine angemessene Leistung bietet. Verwenden Sie den empfohlenen Modus, um ein Basismodell zu erhalten. Wenn Sie ein besseres Ergebnis wünschen, erhöhen Sie die Trainingszeit.
Benutzerdefiniertes Modell aufrufen
Benutzerdefinierte Modelle können genauso aufgerufen werden wie das vortrainierte Modell.
Metriken für benutzerdefinierte Modelle
Die folgenden Metriken werden für benutzerdefinierte Modelle in Vision bereitgestellt.
- mAP@0.5-Score
- Der mittlere Durchschnittsgenauigkeitsscore (mAP) mit einem Schwellenwert von 0,5 wird nur für benutzerdefinierte Objekterkennungsmodelle bereitgestellt. Dieser Wert wird unter Verwendung des Mittelwerts der Durchschnittsgenauigkeit für alle Klassen berechnet. Es reicht von 0,0 bis 1,0, wobei 1,0 das beste Ergebnis ist.
- Genauigkeit
- Der Anteil der relevanten Instanzen unter den abgerufenen Instanzen.
- Abrufen
- Der Anteil der relevanten Instanzen, die abgerufen wurden.
- Schwellenwert
- Der Entscheidungsschwellenwert für die Erstellung einer Klassenvorhersage für die Metriken.
- Bilder gesamt
- Die Gesamtanzahl der Bilder, die für Schulungen und Tests verwendet werden.
- Testbilder
- Die Anzahl der Bilder aus dem Dataset, die zum Testen verwendet und nicht für Schulungen verwendet wurden.
- Trainingsdauer
- Die Zeit in Stunden, die das Modell trainiert wurde.