OCI Document Understandingモデルによる分析対象のドキュメントの作成

OCIオブジェクト・ストレージのバケットを使用して、分析するドキュメントを格納し、Oracle Analyticsでこれらのドキュメントにアクセスするためのデータセットを作成します。

通常、入力ドキュメントとAIモデルは同じOracle Cloudアカウント(テナンシ)に格納され、これにより、Oracle Analyticsの設定が容易になります。

入力ドキュメントとAIモデルが異なるテナンシに格納されている場合:
  • 入力ドキュメントを含むストレージ・バケットの可視性がパブリックであることを確認してください。バケットの可視性の変更を参照してください。
  • ドキュメントが格納されているOCIバケットの単一URLではなく、個々のドキュメントURLをデータ・フローの入力データセットに移入します。
Oracle Analyticsデータ・フローは、事前トレーニング済モデルの場合は最大10,000、カスタム・モデルの場合は最大2,000のドキュメントを1回の実行で処理できます。1回の実行で処理できる最大数を超えるドキュメントがある場合、OCIのオブジェクト・ストレージおよびアーカイブ・ストレージで、それぞれに最大数を超えないドキュメントを含む複数のバケットを作成します。次に、バケットごとに個別のデータセットおよびデータ・フローを作成し、シーケンスを使用してデータ・フローを順番に処理します。

OCIユーザーがアクセスでき、ドキュメントに関するOCIの一般的な制限事項に準拠しているプライベートまたはパブリック・バケットを使用できます。OCIのドキュメントを参照してください。

  1. OCIコンソールで、「オブジェクト・ストレージとアーカイブ・ストレージ」に移動し、ドキュメントを格納するためのバケットを作成します。

  2. 「オブジェクト・ストレージおよびアーカイブ・ストレージ」領域でバケット名をクリックし、ページの「オブジェクト」リージョンの下にある「アップロード」をクリックし、ドキュメントをアップロードします。
    処理対象ではない無関係なファイルがバケットに含まれていないことを確認します。Oracle Analyticsは、バケット内のすべてのファイルを処理します。
  3. 各バケットで、バケットURLをカンマ区切り(CSV)ファイルに追加します。
    1. オブジェクト・ストレージでバケットを選択して、「オブジェクト」ダイアログにドキュメントを表示します。
    2. ブラウザのURLバーからURLをコピーします。
    3. IDBucket NameおよびBucket URLのフィールドを含むCSVファイルを作成します。
    4. バケットURLをBucket URLの値としてCSVファイルに貼り付けます。
      または、入力ドキュメントとAIモデルが異なるテナンシに格納されている場合、それらをCSVファイルに個別に追加します。
      IDDocument NameおよびDocument URLのフィールドを含むCSVファイルを作成します。オブジェクト・ストレージ内の各ドキュメントで、省略アイコン省略アイコンをクリックし、「オブジェクト詳細の表示」を選択し、「名前」値および「URLパス(URI)」値をコピーします。

      名前値をドキュメント名として貼り付け、URLパス(URI)値をドキュメントURLとして貼り付けます。

  4. Oracle Analyticsで、ドキュメントの格納に使用している各バケットに対して、「作成」「データセット」の順にクリックします。
  5. ステップ3で作成したCSVファイルをアップロードし、データセットを保存します。
    バケットごとに4から5のステップを繰り返します。ドキュメントが10,000を超える場合は、通常、最大10,000ドキュメントで構成される複数のバケットを作成し、バケットごとに個別のデータセットを作成します。