文書ライフサイクルの自動化
AIは、次の方法でライフ・サイクルを強化します。
- アーカイブ後のインテリジェンス
- デジタル化
- トランザクション分析
可能なパイプラインには、次のものがあります。
- スケーラブルなOCRおよび推論のためのドキュメント理解(DU)とテキストLLM
- ビジュアル/複雑なレイアウトのためのマルチモーダルLLM
- より高い保証のための比較/コンセンサス モード
この設計は、業界全体で一般的であり、ヘルスケアおよび金融サービス向けのスポットライトを備えています。
アーキテクチャ
このアーキテクチャは、取込みとストレージから抽出とダウンストリームの統合まで、文書処理の論理フローを示しています。OCI Document UnderstandingやOCI Generative AIサービス(テキストおよびビジョンLLM)など、複数のOracle Cloud Infrastructure(OCI)コンポーネントが、統合オーケストレーションでどのように連携しているかを示します。
次の図は、論理フローを示しています。
論理フローに表示される概念コンポーネントは次のとおりです。
- リモートデータストレージ
- 外部リポジトリ、エンタープライズ・ファイル・システム、またはネットワーク・ドライブ、DMS、クラウド・バケットなどの共有ストレージであるドキュメントの元のソースを表します。
- ドキュメントは、定期的にフェッチすることも、処理のためにトリガー時にフェッチすることもできます。
- 入力UI
- ドキュメントをアップロードまたは送信するための単純なユーザー向けエントリ・ポイント。
- Webフォーム、内部ポータル、またはOracle Digital Assistantなどのツールで構築されたアプリケーションのフロントエンドを使用できます。
- チャットボット(オプション)
- パイプラインへの会話型アクセスを提供します。
- ユーザーは、自然言語を使用して文書をアップロードまたは問合せできます(「$50 Kを超えるすべての請求書を表示」など)。
- 内部的には、入力UIと同じ取込みレイヤーにルーティングされます。
- 統合
- オーケストレーションおよびルーティング・レイヤーとして機能します。
- 文書タイプまたはビジネス・ロジックに応じて正しいパイプラインをトリガーする責任を負います。たとえば、OCI Document Understandingと構造化ドキュメント用のLLM、イメージ重い入力用のビジョンLLMなどです。
- ERP、CRMまたはデータ・プラットフォームへのエラー・リカバリ、再試行、メタデータ管理およびダウンストリームAPIコールを処理します。
- データ記憶域
- RAWデータと処理済データの両方を格納します。
- 通常、バイナリにはOCI Object Storage、構造化されたJSON出力および監査ログにはOracle Autonomous AI Databaseを使用して実装されます。
- ドキュメント・ライフサイクル全体にわたるトレーサビリティ、再処理および分析を可能にします。
- 光学式文字認識(OCR)
- キーと値のペア、表およびフリー・テキストの光学文字認識、レイアウト検出および抽出を実行します。
- テキストベースのLLM推論の入力として機能するクリーン・テキストを生成します。
- OCI Document Understandingは、決定的かつスキーマベースであり、予測可能な抽出品質を確保します。
- テキストLLM (Cohere Command-A)
- OCI Document Understanding出力を使用し、推論、正規化および書式設定を適用します。
- OCI Document Understandingの固定スキーマを超える要約、分類およびコンテキスト抽出を処理します。
- ノイズのあるOCR出力を消去し、フィールド・ネーミングを統合し、コンテキストに基づいて欠落値を推測できます。
- マルチモーダルLLM (Llama 4 Maverick)
- OCI Document Understandingおよびテキストのみのモデルで完全に解釈できないビジュアル・コンテンツおよび複雑なレイアウトを処理します。
- チャート、手書き文字、スタンプ、イメージとして埋め込まれた表、および複数ページの連続性を処理します。
- 結合フローでは、その出力がOCI Document UnderstandingおよびテキストLLMの結果と照合され、完全性と正確性が向上します。
- 埋込みおよびデータ・ロード・ロジック
- 抽出されたテキストおよびイメージをベクトル埋込みに変換して、セマンティック検索およびドキュメント取得を行います。
- ダウンストリームRAGワークフローをサポートし、LLMが実際にドキュメント固有のデータで応答をアースできるようにします。
- OCI関数またはカスタムETLパイプラインを使用して実装できます。
- ベクトル・ストア
- テキストおよびイメージの埋込みを格納します。
- コンテキストに類似したコンテンツの迅速な取得を可能にし、エンタープライズ・ドキュメント・セットに対する生成Q&Aをサポートします。
- 一般的な実装には、Qdrant、Autonomous AI DatabaseのAI Vector Search、その他のOCI互換ストアなどがあります。
これは、論理フロー図に示されているエンドツーエンドのフローです。
- 文書取込み
- ドキュメントは、入力UIを介してアップロードされるか、リモート・データ・ストレージから取得されます。
- 統合レイヤーは、メタデータをログに記録し、ファイル形式を検証し、対応する処理パイプラインをトリガーします。
- チャットボットの送信では、手動アップロードと同じAPIルートが使用されます。
- ストレージと準備
- ファイルはOCIオブジェクト・ストレージに保持されます。
- メタデータおよびステータス・エントリは、監査および制御のためにOracle Autonomous AI Databaseに書き込まれます。
- ワークフロー・トリガー(OCI関数またはOracle Integrationを使用)によって、OCR/LLM順序が開始されます。
- データの抽出とエンリッチメント
- OCI Document Understandingでは、OCRおよびレイアウト分析が実行され、構造化テキストが返されます。
- テキストLLM(Command-Aなど)は、このテキストを解釈してクレンジングし、正規化された出力(JSONまたはMarkdown)を生成します。
- ドキュメントに複雑なビジュアル要素が含まれている場合、Llama 4 Maverickなどのテキストおよびイメージ理解AIはイメージを分析して、抽出結果をエンリッチまたは検証します。
- 両方の出力は、オーケストレーション・ロジック(信頼ベースのリコンシリエーション)を介して比較またはマージできます。
- 統合とナレッジのロード
- 最終的な構造化データおよびコンテキスト化データは、埋込みステップを通過し、テキストまたはビジュアル・インサイトをベクトルに変換します。
- 埋込みおよびデータ・ロード・ロジック・コンポーネントでは、これらのベクトルがベクトル・ストアに格納され、RAG統合ステージが完了します。
- 分析ダッシュボード、検索ポータル、GenAIチャットボットなどのダウンストリーム・アプリケーションは、セマンティック取得および質問回答のために処理されたデータにアクセスできるようになりました。
オプションで、ステップ3と4の間にヒューマン・イン・ザ・ループ(HITL)ステップを追加できます。
- この段階では、回答の信頼度、データ型の追加チェック、フォーマットなどの様々な基準に基づいて、HITLをフローに統合できます。これにより、ユーザーは必要に応じて結果を承認または編集できます。
- 任意のルート内で選択したHITLを追加すると、継続的な学習のレイヤーが追加され、ソリューションが使用状況に適応して拡張し、有効性を向上できます
- HITLのトリガー: 低信頼度、スキーマ違反、照合の失敗、見えないベンダー/レイアウトまたはレギュレータ・クリティカル・フィールド。
- 卒業規則の使用を検討してください。つまり、特定のベンダー/レイアウトに対して N回の連続したクリーンパスのあとにHITLを削除してください。
- 修正の保持、フィード・プロンプト・リファイナおよびバリデータ、ベンダー/レイアウト・フィンガープリントの追跡。
次の図は、実装例を示しています。
アーキテクチャには次のコンポーネントがあります。
- OCIのリージョン
OCIリージョンとは、可用性ドメインをホストする1つ以上のデータ・センターを含む、ローカライズされた地理的領域のことです。リージョンは他のリージョンから独立しており、長距離の場合は複数の国または大陸にまたがる領域を分離できます。
- コンパートメント
コンパートメントは、OCIテナンシ内のリージョン間の論理パーティションです。コンパートメントを使用して、Oracle Cloudリソースの使用量割当てを編成、制御および設定します。特定のコンパートメントでは、アクセスを制御し、リソースの権限を設定するポリシーを定義します。
- 可用性ドメイン
可用性ドメインは、リージョン内の独立したスタンドアロン・データ・センターです。各可用性ドメイン内の物理リソースは、他の可用性ドメイン内のリソースから分離されているため、フォルト・トレランスが提供されます。可用性ドメインどうしは、電力や冷却、内部可用性ドメイン・ネットワークなどのインフラを共有しません。そのため、あるアベイラビリティ・ドメインでの障害が、リージョン内の他のアベイラビリティ・ドメインに影響を及ぼすことはありません。
- フォルト・ドメイン
フォルト・ドメインは、可用性ドメイン内のハードウェアおよびインフラストラクチャのグループです。各可用性ドメインには、独立した電源とハードウェアを備えた3つのフォルト・ドメインがあります。複数のフォルト・ドメインにリソースを分散すると、アプリケーションは、フォルト・ドメイン内の物理サーバー障害、システム・メンテナンスおよび電源障害を許容できます。
- OCI仮想クラウド・ネットワークおよびサブネット
仮想クラウド・ネットワーク(VCN)は、ソフトウェアで定義されたカスタマイズ可能なネットワークであり、OCIリージョン内に設定します。従来のデータ・センター・ネットワークと同様に、VCNsではネットワーク環境を制御できます。VCNには、VCNの作成後に変更できる重複しないクラスレス・ドメイン間ルーティング(CIDR)ブロックを複数含むことができます。VCNをサブネットにセグメント化して、そのスコープをリージョンまたは可用性ドメインに設定できます。各サブネットは、VCN内の他のサブネットと重複しない連続した範囲のアドレスで構成されます。サブネットのサイズは、作成後に変更できます。サブネットはパブリックにもプライベートにもできます。
- 動的ルーティング・ゲートウェイ(DRG)
The DRG is a virtual router that provides a path for private network traffic between VCNs in the same region, between a VCN and a network outside the region, such as a VCN in another OCI region, an on-premises network, or a network in another cloud provider.
- サービス・ゲートウェイ
サービス・ゲートウェイは、VCNからOracle Cloud Infrastructure Object Storageなどの他のサービスへのアクセスを提供します。VCNからOracle serviceへのトラフィックは、Oracleネットワーク・ファブリックを経由し、インターネットを経由しません。
- Oracle Services Network
Oracle Services Network (OSN)は、Oracleサービス用に予約されているOCI上の概念的なネットワークです。これらのサービスには、インターネットを介してアクセス可能なパブリックIPアドレスが含まれます。Oracle Cloud外部のホストは、Oracle Cloud Infrastructure FastConnectまたはVPN接続を使用してOSNにプライベートにアクセスできます。VCNs内のホストは、サービス・ゲートウェイを介してOSNにプライベートにアクセスできます。
- Oracle Autonomous AI Database
Oracle Autonomous AI Databaseは、柔軟 にスケーリングし、高速な問合せパフォーマンスを提供する、使いやすい完全自律型(自己管理)データベースを提供します。サービスとして、データベース管理は必要ありません。ハードウェアを構成または管理したり、ソフトウェアをインストールしたりする必要もありません。データベースのプロビジョニング、バックアップ、パッチ適用とアップグレード、拡張または縮小を自動的に処理し、柔軟なサービスです。組み込みのAI機能を使用して、あらゆるデータでスケーラブルなAI搭載アプリケーションを開発します。任意の大規模言語モデル(LLM)を使用して、クラウドまたはデータ・センターにデプロイできます。
- Oracle AI Database 26ai
Oracle AI Database 26ai with AI Vector Searchでは、キーワードではなく意味でデータをクエリできます。ベクトル表現(埋込み)は、テキスト、イメージ、オーディオなどのセマンティクスをキャプチャするため、類似したコンテンツを効率的に見つけることができます。組込みのSQL距離関数では、ベクトルを使用した類似性検索が可能です。より正確で関連性の高い回答を得るために、セマンティック類似度およびその他の検索基準を基礎大規模言語モデル(RAG)と組み合せることができます。
- OCI Document Understanding
Oracle Cloud Infrastructure Document Understandingは、ディープラーニング・ドキュメント分析を大規模に実行するためのAIサービスです。提供されるデフォルトのモデルにより、開発者は機械学習の専門知識がなくても、アプリケーションにインテリジェントなドキュメント処理を簡単に構築できます。
- Oracle Digital Assistant
Oracle Digital Assistantは、ユーザーのためにデジタル・アシスタントを作成してデプロイできるプラットフォームであります。Oracle Digital Assistantを使用すると、テキスト、チャットおよび音声インタフェースを介してビジネス・アプリケーション用のAI駆動インタフェース(またはチャットボット)を作成できます。各デジタル・アシスタントには、ユーザーが自然言語での会話で様々なタスクを完了するのに役立つ、1つ以上の専門的なスキルの集合があります。たとえば、個々のデジタル・アシスタントには、在庫の追跡、タイム・カードの送信、経費精算書の作成など、特定のタイプのタスクに焦点を当てたスキルがある場合があります。
- Oracle AI Data Platform
Oracle AI Data Platformは、データ資産全体のデータのカタログ化、準備および分析を簡素化する統合プラットフォームです。データ、AI、分析、ガバナンスを一貫したユーザー・エクスペリエンスにまとめ、セキュアでスケーラブルなAI搭載アプリケーションを構築できます。Oracle AI Data Platformは、Autonomous AI Lakehouse、Oracle Analytics Cloud、OCI Object Storage、OCI Generative AI、およびFusion Data Intelligenceを統合します。
このプラットフォーム内では、Oracle AI Data Platform Workbenchは、データ・パイプラインおよびモデルの設計、オーケストレーションおよびデプロイ、RBACポリシーの設定、Sparkなどのオープン・ソース・テクノロジを使用したデータの準備、分析およびエンリッチを行うための専用の開発環境を提供します。
- OCI生成AI
Oracle Cloud Infrastructure Generative AIは、テキスト生成、要約、セマンティック検索などの幅広いユース・ケースをカバーする、最先端のカスタマイズ可能な大規模言語モデル(LLM)のセットを提供するフルマネージドOCIサービスですプレイグラウンドを使用して、すぐに使用できる事前トレーニング済モデルを試すか、専用AIクラスタ上で独自のデータに基づいて独自のファインチューン済カスタム・モデルを作成してホストしてください。
- Oracle Integration
Oracle Integrationは、クラウドとオンプレミスのアプリケーションを統合し、ビジネス・プロセスを自動化し、ビジュアル・アプリケーションを開発できる、完全に管理された事前構成済の環境です。SFTP準拠のファイル・サーバーを使用してファイルを格納および取得し、何百ものアダプタおよびレシピのポートフォリオを使用してOracleおよびサード・パーティ・アプリケーションに接続することで、ビジネス間取引パートナとドキュメントを交換できます。
- OCIオブジェクト・ストレージ
OCI Object Storageでは、データベースのバックアップ、分析データ、画像やビデオなどのリッチ・コンテンツなど、あらゆるコンテンツ・タイプの構造化データおよび非構造化データが大量にアクセスできます。アプリケーションから直接、またはクラウド・プラットフォーム内から、データを安全かつ安全に保管できます。パフォーマンスやサービスの信頼性を低下させることなく、ストレージを拡張することができます。
迅速、即時、頻繁にアクセスする必要のあるホット・ストレージに標準ストレージを使用します。アーカイブ・ストレージは、長期間保存し、ほとんどまたはめったにアクセスしないコールド・ストレージに使用します。
レコメンデーション
- VCN
VCNを作成するときには、必要なCIDRブロックの数を決定し、VCN内のサブネットにアタッチする予定のリソースの数に基づいて各ブロックのサイズを決定します。標準プライベートIPアドレス領域内にあるCIDRブロックを使用します。
プライベート接続を設定する他のネットワーク(Oracle Cloud Infrastructure、オンプレミス・データ・センターまたは別のクラウド・プロバイダ)と重複しないCIDRブロックを選択します。
VCNの作成後、そのCIDRブロックを変更、追加および削除できます。
サブネットを設計するときには、トラフィック・フローおよびセキュリティ要件を考慮してください。特定の層またはロール内のすべてのリソースを同じサブネットにアタッチします。これは、セキュリティ境界として機能します。
- ネットワーク・セキュリティ・グループ(NSG)
NSGを使用して、特定のVNICに適用されるイングレスおよびエグレス・ルールのセットを定義できます。NSGを使用すると、VCNのサブネット・アーキテクチャをアプリケーションのセキュリティ要件から分離できるため、セキュリティ・リストではなくNSGを使用することをお薦めします。
- クラウド・ガード
Oracleが提供するデフォルト・レシピをクローニングおよびカスタマイズして、カスタム・ディテクタおよびレスポンダ・レシピを作成します。これらのレシピを使用すると、警告を生成するセキュリティ違反のタイプと、警告に対して実行を許可するアクションを指定できます。たとえば、可視性がパブリックに設定されているOCIオブジェクト・ストレージ・バケットを検出できます。
Oracle Cloud Guardをテナンシ・レベルで適用して、最も広い範囲をカバーし、複数の構成を維持する管理上の負担を軽減します。
また、管理対象リスト機能を使用して、特定の構成をディテクタに適用することもできます。
- セキュリティ・ゾーン
最大限のセキュリティーを必要とするリソースの場合、Oracleではセキュリティーゾーンを使用することをお勧めします。セキュリティ・ゾーンは、ベスト・プラクティスに基づくセキュリティ・ポリシーのOracle定義レシピに関連付けられたコンパートメントです。たとえば、セキュリティ・ゾーン内のリソースには、パブリック・インターネットからアクセスできない必要があり、顧客管理キーを使用して暗号化する必要があります。セキュリティ・ゾーンでリソースを作成および更新すると、OCIはレシピ内のポリシーに対して操作を検証し、ポリシーに違反する操作を防止します。
考慮事項
ドキュメント・ライフサイクルの様々なステージで、次のアーキテクチャの実装を検討します。
アーカイブ後のインテリジェンス:
- 履歴PDF/イメージをOCIオブジェクト・ストレージにバッチ取り込みます。
- 要約、分類およびエンティティ抽出のためにテキストLLM(デフォルト)にルーティングされるOCI Document Understanding。
- モデル信頼度が定義済のしきい値を下回った場合(抽出/分類の低い信頼度など)、出力をHITLレビューにルーティングします。
- チャートまたはビジュアル・キューのオプション・ビジョンLLM。
- 分析と取得にルーティングされた構造化結果(Autonomous AI Database/Parquet)を格納します。
デジタル化の加速:
- OCI Document Understanding OCRおよびレイアウトにルーティングされたスキャン。
- テキストLLMは、フィールドを正規化し、タクソノミを適用し、メタデータをタグ付けします。
- 表または手書き用のビジョンLLMとのオプションの比較。
- モデル信頼度が定義済のしきい値を下回った場合(抽出/分類の低い信頼度など)、出力をHITLレビューにルーティングします。
- 永続化して索引付けし、検索とダウンストリームの自動化を有効にします。
トランザクション分析(リアルタイム):
- APIまたはポータルを介してOCIオブジェクト・ストレージに新しい送信が届きます。
- レイテンシSLO内でテキストLLMにルーティングされるOCI Document Understandingには、不正/異常および完全性チェックが含まれます。
- Oracle IntegrationとERP/OTMを使用したクロスチェック、ゲート承認。
- HITLは例外にのみ適用され、停止はまっすぐ行われます。
これらの問題に対処する際に取れるアプローチと、採用する追加のパイプライン戦略について、次の異なるベースを検討してください。
- デフォルト: OCI Document Understandingは、クリーニングおよび抽出用のテキストLLM (Command-Aなど)です。
- ビジョン・ルート: Llama 4 Maverickは、OCI Document Understandingの信頼度が高かったり低かったりします。
- 比較/コンセンサス(オプション): OCI Document UnderstandingをLLMおよびOCI Visionで実行し、競合(優先度ルールおよびビジネス・バリデータ)を照合します。
- マルチページ/マルチイメージ・ポリシー:
- 継続性を維持するために、Maverickコールごとに最大10ページ/イメージ。
- ローリング・サマリー・プロンプトとともにスライド・ウィンドウ(1-10、6-15など)を使用して、トークンを削減し、コンテキストを維持します。
- 言語処理: 言語の普及とOCI Document Understandingのサポートに基づいてルーティングします。OCI Visionルートまたはテキストのみのフォールバックにルーティングされる少数言語。
詳細の参照
GenAI、OCIでドキュメント・プロセスを自動化し、Oracleでクラウド・ジャーニーを開始する方法の詳細をご覧ください。
次の追加リソースを確認します:
- Oracleでは、GenAIサンプル・アプリケーションで複数のドキュメント処理を提供しています。GitHubに移動します。
- Oracle Developers YouTubeチャネルのDeveloper Coaching - Discovering Multi-modal Models for Complex Documents
- Oracle Cloud Infrastructureドキュメンテーション
- Oracle Cloud Infrastructure用のWell-architectedフレームワーク
- Oracle Cloudコスト見積り機能
- クラウド導入フレームワーク

