ラベルスタジオ
データセットのラベル付けにはLabel Studioを使用します。
Oracleのデータ・ラベリング・サービスは非推奨になりました。ラベル付きデータセットは、オープン・ソースおよびマーケットプレイスでサポートされているラベリング・ツールであるLabel Studioに移行する必要があります。データ・ラベリングが非推奨になった場合、この項では、データ・ラベリング・スナップ・ショット・エクスポートをLabel StudioインポートおよびLabel Studio JSONエクスポート形式に変換する方法について説明します。これらの形式は、Label Studioまたは直接モデル・トレーニングでさらに注釈として使用できます。
カスタム・モデルをトレーニングするには、次の2つのファイルが必要です。
- マニフェストファイル
- このファイルには注釈ファイルに関するメタデータが含まれ、通常は
.jsonl
拡張子が付きます。
- レコード・ファイル
-
これは、注釈の後にLabel Studioからエクスポートされたデータセットです。ファイルの拡張子は
.json
です。-
カスタムKVの場合、レコード・ファイルはJSON-MIN形式です。
-
カスタムDCの場合、レコード・ファイルは標準JSON形式です。
-
1.Label Studio環境の設定
1.1 ラベルスタジオの開始
2. カスタム・キー値抽出のラベル付けワークフロー
詳細は、Label StudioでPDF注釈をネイティブにサポートしていません。Label StudioドキュメントのPDFラベリングの基本ツールを参照してください。
ページ区切りマルチイメージラベリングには回避方法があります。
PDFにラベルを付けるには、次のステップに従います。
2.1 タスク・リストの生成
研修文書がPDF形式の場合は、まずそれらをイメージに変換する必要があります。pdf_to_images
ファンクションは、この変換を実行し、指定された入力ディレクトリのルートに作成されるoutput_images
フォルダ(Images_input_root)にイメージを保存します。PDFごとに、対応するイメージを格納するために、output_images
ディレクトリ内に個別のフォルダ(PDFファイルの後に名前が付けられます)が作成されます。
- Label Studio注釈の場合は、タスク・リストを生成する必要があります。各タスクは、単一のドキュメントの注釈に対応しています。
- コマンドラインから、前のタスクのステップ6でダウンロードしたユーティリティ・スクリプトに含まれているファイルgenerate_tasks.kv.pvを実行します。
2.2 事前注釈用のOCR統合の設定
注釈ワークフローを効率化し、手作業を最小限に抑えるために、Label Studioでインタラクティブな事前注釈を有効にできます。この設定により、OCRサービスを使用して境界ボックスが自動的に生成されます。OCI OCRはMLバックエンドとして統合され、キー値注釈のイメージに境界ボックスを生成します。次のリポジトリをクローニングし、必要な依存関係をインストールします。
詳細は、Label Studioのドキュメントの独自のMLバックエンドの記述を参照してください。
2.3 プロジェクトの作成および構成
2.4 Label Studioのデータセット注釈
3. カスタム文書分類のラベル付けワークフロー
詳細は、Label StudioでPDF注釈をネイティブにサポートしていません。Label StudioドキュメントのPDFラベリングの基本ツールを参照してください。
ページ区切りマルチイメージラベリングには回避方法があります。
PDFにラベルを付けるには、次のステップに従います。
3.1 タスク・リストの生成
研修文書がPDF形式の場合は、まずそれらをイメージに変換する必要があります。pdf_to_images
ファンクションは、この変換を実行し、指定された入力ディレクトリのルートに作成されるoutput_images
フォルダ(Images_input_root)にイメージを保存します。PDFごとに、対応するイメージを格納するために、output_images
ディレクトリ内に個別のフォルダ(PDFファイルの後に名前が付けられます)が作成されます。
- Label Studio注釈の場合は、タスク・リストを生成する必要があります。各タスクは、単一のドキュメントの注釈に対応しています。
- コマンドラインから、前のタスクのステップ6でダウンロードしたユーティリティ・スクリプトに含まれるファイルgenerate_tasks_dc.pvを実行します。