2 了解 Content Capture 进程

下面来了解一下捕获内容并将其上载到 Oracle Content Management 的基本过程。

显示文档从第一阶段到最后一个阶段的处理方式

可以从各种源捕获内容:

处理器

不管源是什么,每个捕获的文档在上载到 Oracle Content Management 进行存储和/或进一步处理之前,都会经由一系列处理器:
  • 导入处理器可对各种源进行自动批量导入,比如文件系统文件夹、分隔列表文本文件或电子邮件服务器账户上的收件箱/文件夹。导入作业会监视该源并以指定频率导入内容(例如,每分钟一次、每小时一次或每天一次)。

  • TIFF 转换处理器自动将非图像文档和附件转换为 TIFF 或 JPEG 格式。在转换过程中,您可以选择以各种方式合并文档和附件。例如,转换处理器可以将 PDF 或 Microsoft Office 文档等文档文件转换为 TIFF 图像,以便进行条形码处理。

  • PDF 转换处理器将文档、图像和附件转换为 PDF。
  • 识别处理器自动识别条形码、组织文档和对文档编制索引。

  • 提交处理器执行提交概要信息以自动将批处理中的文档输出并上载到 Oracle Content Management,然后从过程中删除这些批处理。

    提交概要信息指定如何输出文档及其元数据,而且包含元数据字段映射、输出格式、错误处理说明和提交驱动程序设置。

  • 资产查找处理器使客户端用户能够搜索 Oracle Content Management 资料档案库中支持的资产。

  • 使用 XML 转换处理器,客户端用户可以基于 XSLT 文件将 XML 文档转换为所需的样式。

如果配置为全部使用,则每个处理器都与其他处理器配合工作。批处理流中的很多任务都是从导入处理器开始,然后传递到 PDF 或 TIFF 转换处理器,以便将文档转换为配置的格式。识别处理器随后开始识别条形码,以指定方式组织文档,然后对文档编制索引。最后,提交处理器将输出传送(上载)到 Oracle Content Management。

在内容捕获过程中,所有捕获的文档均以单独的内容项(分配有元数据)上载并存储到 Oracle Content Management 中。在 Oracle Content Management 中,您可以像对待任何其他项一样访问和管理这些内容项。

过程

过程是定义的内容捕获工作流,从初始来源一直到最后加载到 Oracle Content Management。每个过程表示一个完整的内容捕获系统,为特定环境配置元数据、处理规则、配置概要信息和批数据提供了一个集中的位置。Content Capture 客户端用户可以在他们具有相应访问权限的过程中创建和访问批处理。

您可以为组织创建多个过程,以便您可以按部门或位置等有效地管理所有内容捕获和处理需求。您还可以在过程间共享公用配置元素,以实现最佳重用。您还可以复制过程,以便轻松适应其他环境。

批处理

一个批处理包含一个或多个文档,这些文档可能相关(例如,一位客户的多个文档)也可能无关(例如,由分隔页划分的文档)。
  • 文档可能包含扫描的图像或电子文件,例如 Microsoft Word 或 PDF 文件。

  • 文档可能包含也可能不包含图像或电子文件之类的附件。

当您处理批处理时,可以将其锁定。在由您或其他用户锁定了批处理时,将显示锁定图标。释放批处理将会删除锁定图标,并根据客户端概要信息设置释放批处理供其他用户或系统处理器使用。

客户端概要信息

可以使用程序管理器为您定义的客户端概要信息扫描导入批处理中的页组。客户端概要信息是一组用于确定如何扫描、导入或索引批处理中的文档的设置。客户端概要信息执行以下操作:
  • 控制扫描仪设置、如何在批处理中创建和分隔文档、元数据字段是否可用、是否处理条形码和如何处理,释放后批处理后会发生什么情况等内容。

  • 确定仅可捕获文档、捕获和索引文档还是仅索引文档。

  • 确定非图像电子文件(如 PDF 文档)是保留其原始格式、转换为图像格式,还是禁止文件导入。

  • 标识要为所选文档完成的元数据字段集。

如果客户端概要信息包括索引,可以将客户 ID 和名称之类的元数据值分配给文档。批处理中不同类型的文档通常具有不同的可用元数据字段集。在仅索引批处理中,可以将元数据值分配到文档,但不能附加、插入或替换页。

在处理完批处理中的文档之后,您应当释放批处理,这将取消因您独占使用而导致的锁定(如果没有定义释放进程)。如果您释放一个批处理并选择了一个可用的释放进程,则在批处理上执行的下一项操作将取决于该释放进程。接下来发生的情况取决于客户机概要信息设置:
  • 该批处理可能会从批处理窗格列表中被删除并提交到 Oracle Content Management,也可能被放在队列中进行进一步处理(例如,进行 PDF/TIFF 转换或条形码识别)。

  • 该批处理可能被保留在列表中,但处于未锁定状态(不显示锁定图标)。这允许您或其他用户锁定该批处理并进行进一步的更改。