Dataset erstellen

Benutzerdefinierte Vision-Modelle sind für Benutzer ohne Data Science-Hintergrund gedacht. Wenn Sie ein Dataset erstellen und Vision anweisen, ein Modell basierend auf dem Dataset zu trainieren, können Sie ein benutzerdefiniertes Modell für Ihr Szenario bereitstellen.

Der Schlüssel zum Erstellen eines nützlichen benutzerdefinierten Modells besteht darin, es mit einem guten Dataset vorzubereiten und zu trainieren. Vision unterstützt das folgende Dataset-Format:Erfassen Sie ein Dataset, das für das Problem und den Speicherplatz steht, auf das bzw. den Sie das trainierte Modell anwenden möchten. Während Daten aus anderen Domains möglicherweise funktionieren, übertrifft ein Dataset, das aus denselben beabsichtigten Geräten, Umgebungen und Nutzungsbedingungen generiert wird, alle anderen.

Datenlabeling ist der Prozess, mit dem Eigenschaften von Datensätzen, wie z.B. Dokumenten, Texten und Bildern, identifiziert und mit Labels versehen werden, um diese Eigenschaften zu identifizieren. Die Beschriftung eines Bildes und die Identifizierung eines Objekts in einem Bild sind beide Beispiele für eine Datenbeschriftung. Sie können das Datenlabeling mit Oracle Cloud Infrastructure Data Labeling ausführen. Weitere Informationen finden Sie in der Dokumentation zum Data Labeling-Service. Nachfolgend finden Sie eine Übersicht über die zu ergreifenden Schritte:

  1. Sammeln Sie genügend Bilder, die der Verteilung der beabsichtigten Anwendung entsprechen.

    Wenn Sie auswählen, wie viele Bilder für Ihren Datensatz benötigt werden, verwenden Sie so viele Bilder wie möglich in Ihrem Trainings-Dataset. Geben Sie für jedes zu detektierende Label mindestens 10 Bilder für das Label an. Stellen Sie idealerweise 50 oder mehr Bilder pro Label bereit. Je mehr Bilder Sie bereitstellen, desto besser sind die Robustheit und Genauigkeit der Erkennung. Robustheit ist die Fähigkeit, sich auf neue Bedingungen wie Blickwinkel oder Hintergrund zu verallgemeinern.

  2. Sammeln Sie einige verschiedene andere Bilder, um verschiedene Kameraaufnahmewinkel, Lichtbedingungen, Hintergründe und andere aufzunehmen.

    Erfassen Sie ein Dataset, das für das Problem und den Speicherplatz steht, auf das bzw. den Sie das trainierte Modell anwenden möchten. Während Daten aus anderen Domains möglicherweise funktionieren, übertrifft ein Dataset, das aus denselben beabsichtigten Geräten, Umgebungen und Nutzungsbedingungen generiert wird, alle anderen.

    Geben Sie genügend Perspektiven für die Bilder, da das Modell nicht nur die Anmerkungen verwendet, um zu erfahren, was richtig ist, sondern auch den Hintergrund, um zu lernen, was falsch ist. Stellen Sie beispielsweise Ansichten von verschiedenen Seiten des erfassten Objekts mit unterschiedlichen Beleuchtungsbedingungen von verschiedenen Bildaufnahmegeräten bereit usw.
  3. Beschriften Sie alle Instanzen der Objekte, die im bezogenen Dataset auftreten.
    Halten Sie die Etiketten konsistent. Wenn Sie viele Äpfel als einen Apfel bezeichnen, tun Sie dies konsequent in jedem Bild. Zwischen den Objekten und dem Begrenzungsrahmen darf kein Leerzeichen stehen. Die Begrenzungsrahmen müssen eng mit den beschrifteten Objekten übereinstimmen.
    Wichtig

    Prüfen Sie jede dieser Anmerkungen, da sie für die Performance des Modells wichtig sind.