機械翻訳について

1 コンテンツ・キャプチャについて学習

Oracle Content Managementのコンテンツ取得機能は、ミッション・クリティカルなビジネス・コンテンツを取得、索引付け、格納および管理するための1つのシステムを提供します。 「スキャンおよびインポート」ドキュメントは一括して処理でき、Oracle Content Managementにアップロードする前に自動的に処理されます。 ドキュメントは、スキャナから取得されたり、ファイルからインポートされた1つ以上のイメージで構成されます。また、MicrosoftWordやPDFファイルなどのイメージ以外の電子ファイルである場合もあります。 イメージ以外のファイルをインポートする場合は、定義されたキャプチャ・フローによって元の形式が保持されるか、イメージ形式に変換されるか、またはインポートされないかが決まります。

作成するドキュメントのバッチはスケーラブルであるため、ドキュメントの再編成、ビジネス・ニーズに合せたグループ化の自動化、請求またはファイリングの目的でのバー・コードの読取り、ドキュメントの索引付けによる検索の容易化、組織の標準形式への変換が可能です。 コンテンツ・キャプチャ・ワークフロー(「プロシージャ」)を作成すると、物理ドキュメントおよび電子ドキュメントの処理とルーティングが一括で自動化されます。

コンテンツをキャプチャするためのプライマリ・ドライバは、バッチとドキュメントです。 ドキュメントは「スキャン」または「インポート」され、「バッチ」で管理されます。 バッチは、スキャンされたイメージまたは電子ドキュメント・ファイル(PDFやMicrosoft Officeファイルなど)で構成され、ドキュメントおよび割り当てられたメタデータ値(indexed)に編成されます。 各ドキュメントは、一連のメタデータ値を共有します。 Oracle Content Managementには、ドキュメントのインポート、PDFまたはTIFFへの変換、バー・コードの自動認識、ドキュメントの自動分離、メタデータ値の移入、最終出力のOracle Content Managementへの配信など、様々なコンテンツ取得「プロセッサ」が用意されています。

コンテンツ・キャプチャ・プロセスには次の主なコンポーネントが含まれます:

キャプチャ

コンテンツ・キャプチャ・プロシージャでドキュメントをスキャンしたり、バッチにインポートする場合、様々な方法で行えます:

  • 業務用ドキュメント・イメージング・スキャナを使用した大量のスキャン

  • ビジネス・アプリケーションなどからの一時的なリモート・スキャンまたはインポート

  • 電子メール・アカウントやモニター対象のフォルダなどからの自動インポート

エンドユーザーは、(「プロシージャ」マネージャが作成した「クライアント・プロファイル」に基づいて)Content Captureクライアント・ソフトウェアを使用して、「スキャン」ハード・コピー・ドキュメントまたは「インポート」電子ドキュメントをバッチに手動で作成できます。 または、インポート・ジョブに格納されている設定を使用して、インポート・プロセッサは、イメージやその他の電子ドキュメントを電子メール、ネットワーク・フォルダ、またはリスト・ファイルから直接自動的にインポートすることもできます。

変換

ビジネス・ニーズに応じて、イメージ以外の入力ドキュメントおよび添付を別の形式に変換する必要が生じる場合があります。 たとえば、インポートされた電子メール・メッセージに添付されたPDFの経費報告書を、バー・コードを読み取るためにイメージに変換する必要がある場合があります。 この場合、TIFF変換プロセッサでPDFファイルをTIFFイメージに変換します。 TIFF変換プロセッサは、変換ジョブに格納されている設定を使用してドキュメントまたは添付を自動的に変換し、バッチ内にマージします。 PDF変換プロセッサは、文書をソース文書と同じコンテンツ・タイプのPDFに変換します。

分類

「分類」は、バッチを論理ドキュメントに分割し、ドキュメント・プロファイルを割り当てるプロセスです。 クライアント・プロファイルでは、各ドキュメントで使用できる「メタデータ・フィールド」および「添付タイプ」のセットを指定します。 分類には、バッチへのstatusの割当ても含まれます。

分類は、様々な方法で手動または自動で行うことができます:

ドキュメントの分割

  • コンテンツ・キャプチャ・クライアント・ユーザーによって手動で。 たとえば、ユーザーは、1ドキュメント当り数ページに構成されたクライアント・プロファイルを選択できます。 また、新しいドキュメントを識別するスキャンの前に、ドキュメント間にセパレータ・シートを挿入できます。 コンテンツ・キャプチャ・クライアント・ユーザーは、バッチを視覚的に検査しながら、大きなドキュメントを複数の小さなドキュメントに分割することで新しいドキュメントを作成できます。

  • コンテンツ・キャプチャ・クライアントでのファイルのインポート中にユーザーによって手動で。

  • インポート・プロセッサでジョブの設定に基づいてドキュメントをインポートする際に自動的に。

  • 認識プロセッサによるバー・コードの認識時に自動的に。 バッチが認識プロセッサに送信される場合、プロセッサは、バー・コードの認識とドキュメントの分類を自動的に行います。

メタデータの割当て

ドキュメントには、ドキュメント・プロファイル(「インデックス作成」)に基づいて一連のメタデータ値が割り当てられます。 このプロファイルは、特定のタイプのドキュメントの索引付けに使用可能なメタデータ・フィールドを識別します。 メタデータ値は、様々な方法で割り当てることができます:

  • コンテンツ・キャプチャ・クライアントのメタデータ・ペインでユーザーによって手動で。

  • インポート・プロセッサでジョブの設定に基づいてドキュメントを処理する際に自動的に。

  • 認識プロセッサでジョブの設定に基づいて処理する際に自動的に。

  • アセット・ルックアップ・プロセッサでジョブの設定に基づいて処理する際に自動的に。

メタデータ・フィールドは、様々な方法で構成できます。 入力マスクや表示形式を構成したり、検証のための正規表現を指定したりできます。 メタデータ値は自動的に移入したり、選択リストや依存選択リストから選択したり(バー・コードから導出したり)できます。 プロシージャ・マネージャはプロシージャでこれらのメタデータ・フィールド定義を構成し、クライアント・プロファイルまたはプロセッサ・ジョブで使用します。

添付の種類

添付とは、プライマリ・ドキュメントに関連付けられたイメージ・ファイルまたはイメージ以外のファイルのことです。 プロシージャ・マネージャは、ドキュメント・プロファイルに割り当てることができる「添付タイプ」を定義します。 これらの添付タイプを使用して、ドキュメント・プロファイルに割り当てられているドキュメントの添付を分類できます。 コンテンツ・キャプチャ・クライアントのユーザーは、添付の表示、添付タイプの変更、添付の作成、およびイメージ添付の変更を行えます。

バッチ・ステータス

プロシージャ・マネージャは、ビジネス・ニーズに合わせて「バッチ・ステータス」を定義します。 そのバッチへの割当ては、コンテンツ・キャプチャ・プロセスでユーザーによって手動で行われたり、いずれかのプロセッサによって自動的に行われます。

リリース

Oracle Content Managementは、1人のユーザーまたはプロセッサのみが任意のコンテンツ取得バッチにアクセスできるよう、ロック・アンド・リリース方式を使用します。 バッチを作成したり、開く(展開する)と、バッチは自動的にロックされます。 他のユーザーがバッチを使用できるようにするには、「リリース」またはロック解除する必要があります。 バッチの作業が完了したら、リリースするかロック解除します。 バッチをリリースすると、ドキュメントおよびメタデータがOracle Content Managementに自動的に同期され、クライアント・プロファイルにこれが構成されている場合は、そのバッチがさらに処理(コミット、認識または変換)されるようにルーティングされます。

コミット

バッチがコミットされると、そのすべてのドキュメントとそのメタデータがOracle Content Managementにアップロードされ、バッチから削除されます。 これにより、ドキュメントを検索してメタデータまたはコンテンツ経由でOracle Content Managementでアクセスできます。 ドキュメントの一部をコミットできない場合もあります。 たとえば、必須フィールドに入力されていないドキュメントはスキップされます。 バッチ内のすべてのドキュメントがコミットされると、そのバッチもプロシージャから削除されます。

コミット・プロセスの間、イメージ形式に変換されなかったイメージ以外のファイルは、当初の形式のまま残ります。