1 コンテンツ・キャプチャについて学習

Oracle Content Managementのコンテンツ・キャプチャ機能は、ミッションクリティカルなビジネス・コンテンツをキャプチャ、索引付け、格納および管理するための1つのシステムを提供します。ドキュメントを一括してスキャンおよびインポートし、Oracle Content Managementにアップロードする前に自動的に処理できます。ドキュメントは、スキャナから取得されたり、ファイルからインポートされた1つ以上のイメージで構成されます。また、MicrosoftWordやPDFファイルなどのイメージ以外の電子ファイルである場合もあります。イメージ以外のファイルをインポートする場合は、定義されたキャプチャ・フローによって元の形式が保持されるか、イメージ形式に変換されるか、またはインポートされないかが決まります。

作成するドキュメントのバッチはスケーラブルであるため、ドキュメントの再編成、ビジネス・ニーズに合せたグループ化の自動化、請求またはファイリングの目的でのバー・コードの読取り、ドキュメントの索引付けによる検索の容易化、組織の標準形式への変換が可能です。物理ドキュメントと電子ドキュメントの一括処理とルーティングを自動化するコンテンツ・キャプチャ・ワークフロー、つまりプロシージャを作成します。

コンテンツをキャプチャするためのプライマリ・ドライバは、バッチとドキュメントです。ドキュメントはスキャンまたはインポートされ、バッチに保持されます。バッチは、スキャンされたイメージまたは電子ドキュメント・ファイル(PDFやMicrosoft Officeファイルなど)で構成され、ドキュメントに編成されてメタデータ値が割り当て(索引付け)られます。各ドキュメントは、メタデータ値のセットを共有します。Oracle Content Managementには、ドキュメントのインポート、PDFやTIFFへの変換、バー・コードの自動認識、ドキュメントの自動分割、メタデータ値の移入およびOracle Content Managementへの最終出力の提供を行う様々なコンテンツ・キャプチャ・ プロセッサが用意されています。

コンテンツ・キャプチャ・プロセスには次の主なコンポーネントが含まれます:

キャプチャ

コンテンツ・キャプチャ・プロシージャでドキュメントをスキャンしたり、バッチにインポートする場合、様々な方法で行えます:

  • 本番ドキュメント・イメージ・スキャナを使用した大量スキャン

  • ビジネス・アプリケーションなどからのアド・ホックなリモート・スキャンまたはインポート

  • 電子メール・アカウントやモニター対象のフォルダなどからの自動インポート

エンド・ユーザーは(プロシージャ・マネージャによって作成されたクライアント・プロファイルに基づいて)コンテンツ・キャプチャ・クライアント・ソフトウェアを使用して手動でハードコピー・ドキュメントをスキャンしたり、電子ドキュメントをインポートできます。または、インポート・ジョブに格納されている設定を使用して、インポート・プロセッサは、イメージやその他の電子ドキュメントを電子メール、ネットワーク・フォルダ、またはリスト・ファイルから直接自動的にインポートすることもできます。

変換

ビジネス・ニーズに応じて、イメージ以外の入力ドキュメントおよび添付を別の形式に変換する必要が生じる場合があります。たとえば、インポートされた電子メール・メッセージに添付されたPDFの経費報告書を、バー・コードを読み取るためにイメージに変換する必要がある場合があります。この場合、TIFF変換プロセッサでPDFファイルをTIFFイメージに変換します。TIFF変換プロセッサは、変換ジョブに格納されている設定を使用してドキュメントまたは添付を自動的に変換し、バッチ内にマージします。PDF変換プロセッサでは、ドキュメントがソース・ドキュメントと同じコンテンツ・タイプのPDFおよび検索可能なPDFに変換されます。

分類

分類は、バッチを論理ドキュメントに分割し、ドキュメント・プロファイルを割り当てるプロセスです。クライアント・プロファイルは、各ドキュメントに使用可能なメタデータ・フィールドおよび添付タイプのセットを指定します。分類には、バッチへのステータスの割当ても含まれます。

分類は、様々な方法で手動または自動で行うことができます:

ドキュメントの分割

  • コンテンツ・キャプチャ・クライアント・ユーザーによって手動で。たとえば、ユーザーは、ドキュメントごとに特定のページ数に構成されたクライアント・プロファイルを選択できます。また、スキャンして新しいドキュメントを識別する前に、ドキュメント間にセパレータ・シートを挿入することもできます。コンテンツ・キャプチャ・クライアント・ユーザーは、バッチを視覚的に検査しながら、大きなドキュメントを複数の小さなドキュメントに分割することで新しいドキュメントを作成できます。

  • コンテンツ・キャプチャ・クライアントでのファイルのインポート中にユーザーによって手動で。

  • インポート・プロセッサでジョブの設定に基づいてドキュメントをインポートする際に自動的に。

  • 認識プロセッサによるバー・コードの認識時に自動的に。バッチが認識プロセッサに送信される場合、プロセッサは、バー・コードの認識とドキュメントの分類を自動的に行います。

メタデータの割当て

ドキュメントには、ドキュメント・プロファイルに基づいてメタデータ値のセットが割り当てられますが、これは索引付けと呼ばれます。このプロファイルは、特定のタイプのドキュメントの索引付けに使用可能なメタデータ・フィールドを識別します。メタデータ値は、様々な方法で割り当てることができます:

  • コンテンツ・キャプチャ・クライアントのメタデータ・ペインでユーザーによって手動で。

  • インポート・プロセッサでジョブの設定に基づいてドキュメントを処理する際に自動的に。

  • 認識プロセッサでジョブの設定に基づいて処理する際に自動的に。

  • アセット・ルックアップ・プロセッサでジョブの設定に基づいて処理する際に自動的に。

メタデータ・フィールドは、様々な方法で構成できます。入力マスクや表示形式を構成したり、検証のための正規表現を指定したりできます。メタデータ値は自動的に移入したり、選択リストや依存選択リストから選択したり(バー・コードから導出したり)できます。プロシージャ・マネージャはプロシージャでこれらのメタデータ・フィールド定義を構成し、クライアント・プロファイルまたはプロセッサ・ジョブで使用します。

添付タイプ

添付とは、プライマリ・ドキュメントに関連付けられたイメージ・ファイルまたはイメージ以外のファイルのことです。プロシージャ・マネージャが、ドキュメント・プロファイルに割り当てることができる添付タイプ,を定義します。これらの添付タイプを使用して、ドキュメント・プロファイルに割り当てられているドキュメントの添付を分類できます。コンテンツ・キャプチャ・クライアントのユーザーは、添付の表示、添付タイプの変更、添付の作成、およびイメージ添付の変更を行えます。

バッチ・ステータス

プロシージャ・マネージャは、ビジネス・ニーズに合せてバッチ・ステータスを定義します。そのバッチへの割当ては、コンテンツ・キャプチャ・プロセスでユーザーによって手動で行われたり、いずれかのプロセッサによって自動的に行われます。

リリース

Oracle Content Managementではロックアンドリリース方式を使用して、ある時点では常に1つのユーザーまたはプロセッサのみがコンテンツ・キャプチャ・バッチにアクセスできるようにします。バッチを作成したり、開く(展開する)と、バッチは自動的にロックされます。他のユーザーが使用できるようにするには、バッチをリリースするか、ロック解除する必要があります。バッチの作業が完了したら、リリースするかロック解除します。バッチをリリースすると、自動的にドキュメントおよびメタデータがOracle Content Managementと同期され、クライアント・プロファイルに次の処理が構成されている場合はバッチが次の処理(コミット、認識または変換)に送られます。

コミット

バッチがコミットされると、そのドキュメントおよびそのメタデータの全部がOracle Content Managementにアップロードされ、その後バッチから削除されます。これにより、Oracle Content Management内でメタデータまたはコンテンツを介してドキュメントを検出およびアクセスできるようになります。ドキュメントの一部をコミットできない場合もあります。たとえば、必須のフィールドが入力されていないドキュメントはスキップされます。バッチ内のすべてのドキュメントがコミットされると、そのバッチもプロシージャから削除されます。

コミット・プロセスの間、イメージ形式に変換されなかったイメージ以外のファイルは、当初の形式のまま残ります。