機械翻訳について

2 コンテンツ・キャプチャ・プロセスの理解

コンテンツを取得し、それをOracle Content Managementにアップロードする基本的なプロセスについて説明します。

必要なプロセッサ(場合によってはファイル・インポート・エージェント)と適切なコミット・ドライバを使用して、最初のステージから最後のステージにドキュメントを処理する方法を示します

ソース

コンテンツは、様々なソースからキャプチャできます:

プロセッサ

ソースに関係なく、取得された各ドキュメントは、ストレージまたは後続の処理のためにOracle Content Managementにアップロードされる前に、多数のプロセッサを介してルーティングされます:
  • インポート・プロセッサでは、ファイル・システム・フォルダ、区切り記号付きリストのテキスト・ファイル、または電子メール・サーバー・アカウントの受信ボックス/フォルダなどのソースから自動一括インポートできます。 インポート・ジョブはソースをモニターし、指定された頻度で(1分、1時間または1日に1回)コンテンツをインポートします。

  • TIFF変換プロセッサでは、イメージ以外のドキュメントおよび添付をTIFFまたはJPEG形式に自動的に変換します。 変換時に様々な方法でドキュメントと添付をマージするよう選択できます。 たとえば、変換プロセッサは、バー・コード処理用にPDFやMicrosoft Officeドキュメントなどのドキュメント・ファイルをTIFFイメージに変換できます。

  • PDF変換プロセッサでは、ドキュメント、イメージおよび添付をPDFに変換します。
  • 認識プロセッサでは、自動的にバー・コードを認識し、ドキュメントを編成して索引を付けます。

  • 「コミット・プロセッサ」はコミット・プロファイルを実行して、ドキュメントを自動的にOracle Content Managementに出力およびアップロードし、そのバッチをプロシージャから削除します。

    コミット・プロファイルには、ドキュメントとそのメタデータの出力方法が指定され、メタデータ・フィールドのマッピング、出力形式、エラー処理手順、およびコミット・ドライバ設定が含まれます。

  • 「アセット参照プロセッサ」を使用すると、クライアント・ユーザーはOracle Content Managementリポジトリでサポートされるアセットを検索できます。

  • 「XML変換プロセッサ」を使用すると、クライアント・ユーザーはXMLドキュメントをXSLTファイルに基づいて目的のスタイルに変換できます。
  • 「タクソノミ参照プロセッサ」を使用すると、ユーザーはContent Captureフィールド値を使用してタクソノミ・カテゴリを選択したり、タクソノミ検索を自動化できます。
  • 「外部プロセッサ」を使用すると、既存の機能または新しい機能をContent Captureと統合できます。 これらの機能には、Microsoft PowerPointなどのイメージ形式へのドキュメント変換のタイプを含めることができます。 または、外部プロセッサは、ドキュメント・コンテンツまたは送信者の電子メール・アドレスに基づいてメタデータ値を割り当てることができます。 一般に、プロシージャを介してドキュメント・フローとしてContent Captureの機能を拡張する方法です。
  • 「条件付き割り当てプロセッサ」には、メタデータ・フィールド値の操作およびドキュメント・プロファイルの変更を行う柔軟性を提供する基本的な条件ロジックが用意されています。
  • 「光学文字認識(OCR)」を使用すると、イメージ・ドキュメントをPDFまたはテキストに変換できます。
  • 「分類ジョブ」プロセッサを使用すると、ドキュメントの受信時に言語の検出およびドキュメントの分類を自動化できます。 分類ジョブがコミットされると、Oracle Content Managementでアセット言語が設定されます。

各プロセッサは、それらすべてが使用されるように構成されている場合、他のプロセッサと連携して動作します。 バッチ・フロー内の多くのタスクは、インポート・プロセッサから始まり、構成されている形式にドキュメントを変換するためにPDFまたはTIFF変換プロセッサに渡されます。 その後、バー・コードの認識、指定された方法でのドキュメントの編成、および索引付けのために認識プロセッサに引き継がれます。 最後に、コミット・プロセッサは出力をOracle Content Managementに配信(アップロード)します。

取得されたすべてのドキュメントは、コンテンツ取得プロセス中にメタデータが割り当てられた個別のコンテンツ・アイテムとしてOracle Content Managementにアップロードおよび格納されます。 これらのアイテムには、Oracle Content Management内の他のアイテムと同様にアクセスおよび管理できます。

プロシージャ

「プロシージャ」は、初期ソースからOracle Content Managementへの最終アップロードまで、定義済のコンテンツ取得ワークフローです。 各プロシージャは、特定の環境のメタデータ、処理ルール、構成プロファイルおよびバッチ・データを構成するための一元的な場所を提供する完全なコンテンツ・キャプチャ・システムです。 コンテンツ・キャプチャ・クライアント・ユーザーは、アクセス権が付与されたプロシージャ内でバッチを作成したり、アクセスします。

組織に複数のプロシージャを作成することで、コンテンツ・キャプチャおよび処理のあらゆるニーズ(部門別、場所別など)を効率的に管理できます。 また、最適な再利用のために、複数のプロシージャ間で共通の構成要素を共有することもできます。 また、プロシージャをコピーして他の環境に簡単に適応させることもできます。

バッチ

「バッチ」には、1つ以上のドキュメントが含まれます。これらのドキュメントは、関連するドキュメント(たとえば、1人の顧客に複数のドキュメント)または関連のないドキュメント(たとえば、セパレータ・シートで分割されたドキュメント)です。
  • ドキュメントは、スキャンされたイメージや、Microsoft WordまたはPDFファイルなどの電子ファイルで構成されます。

  • ドキュメントには、イメージや電子ファイルなどの添付が含まれていることも、含まれていないこともあります。

バッチを操作するときは、それをロックできます。 自分または別のユーザーがバッチをロックしている場合には、ロック・アイコンが表示されます。 バッチをリリースすると、ロック・アイコンが削除され、クライアント・プロファイル設定に従って、別のユーザーまたはシステム・プロセッサが作業できるようにバッチが解放されます。

クライアント・プロファイル

プロシージャ・マネージャが定義したクライアント・プロファイルを使用して、バッチで「スキャン」または「インポート」ページのグループをグループ化します。 「クライアント・プロファイル」は、バッチでドキュメントをスキャン、インポートまたは索引付けする方法を決定する設定のグループです。 クライアント・プロファイルで行われる処理は次のとおりです:
  • スキャナの設定、バッチ内のドキュメントの作成方法と分割方法、メタデータ・フィールドが使用可能かどうか、バー・コードが処理されるかどうかとその方法、およびバッチをリリースした後にバッチに対して行われる処理などが制御されます。

  • ドキュメントのキャプチャのみするか、ドキュメントのキャプチャおよび索引付けするか、またはドキュメントの索引付けのみをするかを決定します。

  • イメージ以外の電子ファイル(PDFドキュメントなど)が元の形式で保持されるか、イメージ形式に変換されるか、またはインポートされないかが決まります。

  • 選択したドキュメントに対して入力するメタデータ・フィールド・セットが識別されます。

クライアント・プロファイルに索引付けが含まれている場合、顧客IDや名前などのメタデータ値をドキュメントに割り当てることができます。 通常、バッチ内の異なるタイプのドキュメントには、異なるメタデータ・フィールド・セットを使用できます。 索引のみのバッチのドキュメントにメタデータを割り当てることはできますが、ページを追加、挿入または置換することはできません。

バッチ内のドキュメントの作業が完了したら、バッチをリリースします。これにより、排他的使用からロックが解除されます(リリース・プロセスが定義されていない場合)。 使用可能なリリース・プロセスを選択してバッチをリリースした場合、バッチで実行される次のアクションは、そのリリース・プロセスによって異なります。 次に実行される処理は、クライアント・プロファイル設定によって異なります。
  • バッチは、バッチ・ペイン・リストから削除され、Oracle Content Managementにコミットされるか、またはPDF/TIFF変換やバー・コード認識などの追加処理のためにキューに配置できます。

  • バッチはリストに残る場合もありますが、ロックは解除されます(ロック・アイコンは表示されません)。 これによって、自分または別のユーザーがバッチをロックして、別の変更を追加できるようになります。