データセットの作成
Visionカスタム・モデルは、データ・サイエンスの背景がないユーザーを対象としています。データセットを作成し、データセットに基づいてモデルをトレーニングするようVisionに指示することで、シナリオに適したカスタム・モデルを作成できます。
有用なカスタム・モデルを構築する鍵は、適切なデータセットを使用してそれを準備し、トレーニングすることです。Visionは、次のデータセット形式をサポートしています。トレーニング済モデルを適用する問題および領域を表すデータセットを収集します。他のドメインからのデータは動作する可能性がありますが、同じ目的のデバイス、環境、および使用条件から生成されたデータセットは、ほかのどのドメインよりも優れています。
データ・ラベル付けは、ドキュメント、テキスト、イメージなどのレコードのプロパティを識別し、それらのプロパティを識別するためのラベルを付加するプロセスです。イメージのキャプションとイメージ内のオブジェクトの識別は、両方ともデータ・ラベルの例です。Oracle Cloud Infrastructure Data Labelingを使用して、データ・ラベル付けを行うことができます。詳細は、データ・ラベリング・サービス・ガイドを参照してください。次に、実行するステップの概要を示します。
- 目的のアプリケーションの配布に一致するイメージを十分に収集します。
データセットに必要なイメージの数を選択する場合は、トレーニング・データセットでできるだけ多くのイメージを使用します。検出するラベルごとに、ラベルに少なくとも10個のイメージを指定します。ラベルごとに50以上のイメージを提供するのが理想的です。イメージが多いほど、検出の堅牢性と精度が向上します。堅牢性は、視野角や背景などの新しい条件に一般化する機能です。
- いくつかの種類の他の画像を収集して、異なるカメラのキャプチャ角度、照明条件、背景などをキャプチャできます。
トレーニング済モデルを適用する問題および領域を表すデータセットを収集します。他のドメインからのデータは動作する可能性がありますが、同じ目的のデバイス、環境、および使用条件から生成されたデータセットは、ほかのどのドメインよりも優れています。
モデルは注釈を使用して何が正しいかを学習するだけでなく、何が間違っているかを学習するための背景も使用するため、イメージに十分なパースペクティブを提供します。たとえば、検出されたオブジェクトの異なる側面から、異なる照明条件、異なるイメージ・キャプチャ・デバイスからのビューなどを提供します。 - ソース・データセットで発生するオブジェクトのすべてのインスタンスにラベルを付けます。ラベルの整合性を保ちます。多くのリンゴに1つのリンゴとしてラベルを付ける場合は、各イメージで一貫してラベルを付けます。オブジェクトと境界ボックスの間にスペースを入れないでください。境界ボックスは、ラベル付けされたオブジェクトと厳密に一致する必要があります。重要
これらの各注釈は、モデルのパフォーマンスにとって重要であるため、検証します。