Gespeicherte Videos mit einem benutzerdefinierten Modell analysieren

Identifizieren Sie szenenbasierte Funktionen und Objekte, und erkennen Sie Gesichter und Etikettenrahmen in einem Video, indem Sie ein benutzerdefiniertes Videoanalysemodell aufrufen.

Die maximale Größe und Dauer jedes Videos wird im Abschnitt Limits angezeigt.

Weitere Informationen zur Videoanalyse finden Sie im Abschnitt zur Analyse gespeicherter Videos.

Führen Sie diese Schritte aus, um ein benutzerdefiniertes Modell in Vision zu verwenden. Metriken sind zum Analysieren der Performance des benutzerdefinierten Modells verfügbar.

Dataset erstellen

Benutzerdefinierte Vision-Modelle sind für Benutzer ohne Data Science-Hintergrund gedacht. Wenn Sie ein Dataset erstellen und Vision anweisen, ein Modell basierend auf dem Dataset zu trainieren, können Sie ein benutzerdefiniertes Modell für Ihr Szenario bereitstellen.

Der Schlüssel zum Erstellen eines nützlichen benutzerdefinierten Modells besteht darin, es mit einem guten Dataset vorzubereiten und zu trainieren. Vision unterstützt das folgende Dataset-Format:Erfassen Sie einen Datensatz, der für das Problem und den Speicherplatz steht, auf den Sie das trainierte Modell anwenden möchten. Während Daten aus anderen Domänen funktionieren können, übertrifft ein Datensatz, der von denselben beabsichtigten Geräten, Umgebungen und Nutzungsbedingungen generiert wird, alle anderen.

Datenlabeling ist der Prozess, mit dem Eigenschaften von Datensätzen, wie z.B. Dokumenten, Texten und Bildern, identifiziert und mit Labels versehen werden, um diese Eigenschaften zu identifizieren. Die Beschriftung eines Bildes und die Identifizierung eines Objekts in einem Bild sind beide Beispiele für eine Datenbeschriftung. Sie können das Datenlabeling mit Oracle Cloud Infrastructure Data Labeling ausführen. Weitere Informationen finden Sie in der Dokumentation zum Data Labeling-Service. Nachfolgend finden Sie eine Übersicht über die zu ergreifenden Schritte:

  1. Sammeln Sie genügend Bilder, die der Verteilung der beabsichtigten Anwendung entsprechen.

    Wenn Sie auswählen, wie viele Bilder für Ihren Datensatz benötigt werden, verwenden Sie so viele Bilder wie möglich in Ihrem Trainings-Dataset. Geben Sie für jedes zu erkennende Label mindestens 10 Bilder für das Label an. Stellen Sie im Idealfall 50 oder mehr Bilder pro Etikett bereit. Je mehr Bilder Sie liefern, desto besser ist die Erkennungsrobustheit und -genauigkeit. Robustheit ist die Fähigkeit, sich auf neue Bedingungen wie Blickwinkel oder Hintergrund zu verallgemeinern.

  2. Sammeln Sie ein paar verschiedene Arten von anderen Bildern, um verschiedene Kameraaufnahmewinkel, Lichtbedingungen, Hintergründe und andere zu erfassen.

    Erfassen Sie einen Datensatz, der für das Problem und den Speicherplatz steht, auf den Sie das trainierte Modell anwenden möchten. Während Daten aus anderen Domänen funktionieren können, übertrifft ein Datensatz, der von denselben beabsichtigten Geräten, Umgebungen und Nutzungsbedingungen generiert wird, alle anderen.

    Bieten Sie genügend Perspektiven für die Bilder, da das Modell nicht nur die Anmerkungen verwendet, um zu lernen, was richtig ist, sondern auch den Hintergrund, um zu erfahren, was falsch ist. Stellen Sie beispielsweise Ansichten von verschiedenen Seiten des erfassten Objekts mit unterschiedlichen Lichtverhältnissen von verschiedenen Bildaufnahmegeräten usw. bereit.
  3. Beschriften Sie alle Instanzen der Objekte, die im Quell-Dataset auftreten.
    Halten Sie die Etiketten konsistent. Wenn Sie viele Äpfel zusammen als einen Apfel kennzeichnen, tun Sie dies konsequent in jedem Bild. Sie haben keinen Platz zwischen den Objekten und dem Begrenzungsrahmen. Die Begrenzungsrahmen müssen eng mit den beschrifteten Objekten übereinstimmen.
    Wichtig

    Prüfen Sie jede dieser Anmerkungen, da sie für die Performance des Modells wichtig sind.

Benutzerdefiniertes Modell erstellen

Erstellen Sie benutzerdefinierte Modelle in Vision, um Erkenntnisse aus Bildern zu extrahieren, ohne Data Scientists zu benötigen.

Sie benötigen Folgendes, bevor Sie ein benutzerdefiniertes Modell erstellen:
  • Ein kostenpflichtiger Mandantenaccount in Oracle Cloud Infrastructure.
  • Vertrautheit mit Oracle Cloud Infrastructure Object Storage.
  • Die richtigen Richtlinien.
  • Erfahren Sie in der Konsole, wie Sie ein Vision-Projekt erstellen und wie Sie ein Bildklassifizierungs- und Objekterkennungsmodell trainieren.

    1. Erstellen Sie ein Projekt.
      1. Wählen Sie auf der Vision-Homepage unter Benutzerdefinierte Modelle die Option Projekte aus.
      2. Wählen Sie Projekt erstellen aus
      3. Wählen Sie das Compartment für das Projekt aus.
      4. Geben Sie einen Namen und eine Beschreibung für das Projekt ein. Geben Sie dabei keine vertraulichen Informationen ein.
      5. Wählen Sie Projekt erstellen aus.
    2. Wählen Sie in der Liste der Projekte den Namen des von Ihnen erstellten Projekts aus.
    3. Wählen Sie auf der Seite "Projektdetails" die Option Modell erstellen aus.
    4. Wählen Sie den zu trainierenden Modelltyp aus: Imageklassifizierung oder Objekterkennung.
    5. Wählen Sie die Trainingsdaten aus.
      • Wenn Sie keine mit Anmerkungen versehenen Bilder haben, wählen Sie Neues Dataset erstellen aus.

        Sie gelangen zu OCI Data Labeling, wo Sie ein Dataset erstellen und Labels hinzufügen oder Begrenzungsfelder über den Bildinhalt zeichnen können. Weitere Informationen finden Sie unter Dataset erstellen und im Abschnitt zum Labeling von Images in der Data Labeling-Dokumentation.

      • Wenn ein annotiertes Dataset vorhanden ist, wählen Sie Vorhandenes Dataset auswählen und dann die Datenquelle aus:
        • Wenn Sie das Dataset in Data Labeling mit Anmerkungen versehen haben, wählen Sie Data Labeling-Service und dann das Dataset aus.
        • Wenn Sie die Images mit einem Drittanbietertool kommentiert haben, klicken Sie auf Objektspeicher, und wählen Sie den Bucket aus, der die Images enthält.
    6. Wählen Sie Weiter aus.
    7. Geben Sie einen Anzeigenamen für das benutzerdefinierte Modell ein.
    8. (Optional) Geben Sie dem Modell eine Beschreibung, die Sie bei der Suche unterstützt.
    9. Wählen Sie die Schulungsdauer aus.
      • Empfohlene Schulung Vision wählt automatisch die Schulungsdauer aus, um das beste Modell zu erstellen. Das Training kann bis zu 24 Stunden dauern.
      • Schnellschulung Mit dieser Option wird ein Modell erstellt, das nicht vollständig optimiert ist, aber in etwa einer Stunde verfügbar ist.
      • Benutzerdefiniert Mit dieser Option können Sie Ihre eigene maximale Schulungsdauer (in Stunden) festlegen.
    10. Wählen Sie Weiter aus.
    11. Prüfen Sie die Informationen, die Sie in den vorherigen Schritten angegeben haben. Um Änderungen vorzunehmen, wählen Sie Zurück aus.
    12. Wenn Sie mit dem Training des benutzerdefinierten Modells beginnen möchten, wählen Sie Erstellen und trainieren aus.
  • Mit dem Befehl create und den erforderlichen Parametern können Sie ein Projekt erstellen:

    oci ai-vision project create [OPTIONS]

    Verwenden Sie den Befehl create und die erforderlichen Parameter, um ein Modell zu erstellen:

    oci ai-vision model create [OPTIONS]
    Eine vollständige Liste der Flags und Variablenoptionen für CLI-Befehle finden Sie in der CLI-Befehlsreferenz.
  • Führen Sie zunächst den Vorgang CreateProject aus, um ein Projekt zu erstellen.

    Führen Sie dann den Vorgang CreateModel aus, um ein Modell zu erstellen.

Benutzerdefiniertes Modell trainieren

Nachdem Sie Ihr Dataset erstellt haben, können Sie Ihr benutzerdefiniertes Modell trainieren.

Trainieren Sie Ihr Modell mit einem der benutzerdefinierten Modelltrainingsmodi von Vision. Die Schulungsmodi sind:
  • Empfohlenes Training: Vision wählt automatisch die Trainingsdauer aus, um das beste Modell zu erstellen. Das Training kann bis zu 24 Stunden dauern.
  • Schnelles Training: Diese Option erzeugt ein Modell, das nicht vollständig optimiert ist, aber in etwa einer Stunde verfügbar ist.
  • Benutzerdefinierte Dauer: Mit dieser Option können Sie Ihre eigene maximale Trainingsdauer festlegen.

Die beste Trainingsdauer hängt von der Komplexität Ihres Erkennungsproblems, der typischen Anzahl von Objekten in einem Bild, der Auflösung und anderen Faktoren ab. Berücksichtigen Sie diese Anforderungen, und weisen Sie mit zunehmender Komplexität des Trainings mehr Zeit zu. Die empfohlene Trainingsdauer beträgt mindestens 30 Minuten. Eine längere Trainingszeit gibt eine höhere Genauigkeit, verringert aber die Renditen mit der Zeit. Verwenden Sie den Schnelltrainingsmodus, um sich ein Bild von der kleinsten Zeit zu machen, die benötigt wird, um ein Modell zu erhalten, das eine angemessene Leistung bietet. Verwenden Sie den empfohlenen Modus, um ein Basismodell zu erhalten. Wenn Sie ein besseres Ergebnis wünschen, erhöhen Sie die Trainingszeit.

Metriken für benutzerdefinierte Modelle

Die folgenden Metriken werden für benutzerdefinierte Modelle in Vision bereitgestellt.

mAP@0.5-Score
Der mittlere Durchschnittsgenauigkeitsscore (mAP) mit einem Schwellenwert von 0,5 wird nur für benutzerdefinierte Objekterkennungsmodelle bereitgestellt. Dieser Wert wird unter Verwendung des Mittelwerts der Durchschnittsgenauigkeit für alle Klassen berechnet. Es reicht von 0,0 bis 1,0, wobei 1,0 das beste Ergebnis ist.
Genauigkeit
Der Anteil der relevanten Instanzen unter den abgerufenen Instanzen.
Abrufen
Der Anteil der relevanten Instanzen, die abgerufen wurden.
Schwellenwert
Der Entscheidungsschwellenwert für die Erstellung einer Klassenvorhersage für die Metriken.
Bilder gesamt
Die Gesamtanzahl der Bilder, die für Schulungen und Tests verwendet werden.
Testbilder
Die Anzahl der Bilder aus dem Dataset, die zum Testen verwendet und nicht für Schulungen verwendet wurden.
Trainingsdauer
Die Zeit in Stunden, die das Modell trainiert wurde.