1 了解 Content Capture

Oracle Content Management 的内容捕获功能为您提供了一个可以捕获、索引、存储和管理您的任务关键型业务内容的系统。您可以批量扫描和导入文档,并在文档上载到 Oracle Content Management 之前对文档进行自动处理。文档可能包含从扫描仪获取或从文件导入的一个或多个图像,文档也可能是非图像的、电子文件,例如 Microsoft Word 或 PDF 文件。导入非图像文件时,定义的捕获流决定了文件是保留其原始格式、转换为图像格式,还是禁止文件导入。

创建的文档批处理是可扩展的,您可以重组文档、自动将其分组以满足业务需求、出于计费或申报目的读取条形码、对文档编制索引以使其易于搜索,以及将文档转换为贵组织的标准格式。您可以创建内容捕获工作流,也就是过程,这样即可自动批量处理和路由物理及电子文档。

捕获内容的主要推动因素是批处理和文档。扫描导入文档,并以批处理的形式维护文档。批处理由可组织到文档和已分配元数据值(建立索引)的已扫描图像或电子文档文件(例如 PDF 或 Microsoft Office 文件)组成。每个文档都共享了一组元数据值。Oracle Content Management 提供了各种内容捕获 处理器,它们可以导入文档、将文档转换为 PDF 和/或 TIFF 格式、自动重组条形码、自动分隔文档、填充元数据值和向 Oracle Content Management 传送最终输出。

内容捕获过程涉及以下主要组件:

捕获

在内容捕获过程内,可通过多种方式将文档扫描或导入到批处理中:

  • 使用生产文档成像扫描仪进行大批量扫描

  • 临时远程扫描或导入,例如从业务应用程序中导入

  • 自动导入,例如从电子邮件账户或受监视文件夹中导入

最终用户可以使用 Content Capture 客户端软件(基于过程管理者创建的客户端概要信息)手动扫描硬拷贝文档或将电子文档导入到批处理中。导入处理器也可以使用存储在导入作业中的设置,直接从电子邮件、网络文件夹或列表文件中自动导入图像和其他电子文档。

转换

根据您的业务需要,您可能需要将非图像输入文档和附件转换为其他格式。例如,可能需要将附加到导入的电子邮件的 PDF 费用报表转换为图像格式,以便读取其条形码。在这种情况下,TIFF 转换处理器会将 PDF 文件转换为 TIFF 图像。TIFF 转换处理器会自动转换文档或附件并使用转换作业中存储的设置将其合并到一个批处理中。PDF 转换处理器将文档转换为内容类型与源文档相同的 PDF,另外还转换为可搜索的 PDF。

分类

分类是将批处理分隔到其逻辑文档中并分配文档概要信息的过程。客户端概要信息指定每个文档可用的一组可能的元数据字段附件类型。分类还涉及向批处理分配状态

分类的方式多种多样,可以手动,也可以自动:

文档分隔

  • 由 Content Capture 客户端用户手动完成。例如,用户可以选择为每个文档配置特定页数的客户端概要信息。他们还可以在扫描之前在文档间插入分隔页以标识新文档。在目视检查批处理的同时,Content Capture 客户端用户可以通过将大文档拆分成多个小文档来创建新文档。

  • 由用户在 Content Capture 客户端中导入文件期间手动完成。

  • 在导入处理器根据作业设置导入文档时自动完成。

  • 在设备处理器识别条形码期间自动完成。如果批处理发送到识别处理器,则处理器会自动执行条形码识别和文档分类。

元数据分配

根据文档概要信息为文档分配一组元数据值,这称为建立索引。该文档概要信息标识可用于对特定类型的文档编制索引的元数据字段。可以通过多种方式分配元数据值:

  • 手动分配,由用户手动在 Content Capture 客户端的元数据窗格中分配。

  • 自动分配,在导入处理器根据作业设置处理文档时分配。

  • 自动分配,在识别处理器根据作业设置进行处理时分配。

  • 自动分配,资产查找处理器在根据作业设置进行处理时分配。

可以通过多种方式配置元数据字段。您可以配置输入掩码和显示格式,或提供用于验证的正则表达式。元数据值可以自动填充,也可以从选项列表(或从条形码派生)或从属选项列表中选择。过程管理者在过程中配置这些元数据字段定义,然后在客户端概要信息或处理器作业中使用它们。

附件类型

附件是与主要文档关联的图像或非图像文件。过程管理者定义可以分配给文档概要信息的附件类型。这些附件类型可用于通过已分配给文档概要信息的文档对附件进行分类。Content Capture 客户端用户可以查看附件、更改附件类型、创建附件以及修改图像附件。

批处理状态

过程管理者通过定义批处理状态来满足其业务需求。在内容捕获过程中,用户可以随时手动将它们分配给批处理,也可以由其中一个处理器自动将它们分配给批处理。

释放

Oracle Content Management 使用“锁定并释放”方法来确保只有一个用户或处理器有权在任何给定时间访问任何内容捕获批处理。当您创建或打开(展开)批处理时,批处理会自动变为锁定供您处理。您需要释放或取消锁定该批处理,才能使其对其他人可用。使用完批处理后,可以将其释放或取消锁定。如果在客户端概要信息中进行了配置,释放批处理则会将其文档和元数据与 Oracle Content Management 自动同步,并路由该批处理以供进一步处理(提交、识别或转换)。

提交

提交批处理后,它的所有文档及其元数据都会上载到 Oracle Content Management,然后从批处理中删除。这样,便可通过文档的元数据或内容在 Oracle Content Management 中定位和访问文档。某些文档可能不会提交。例如,会跳过未填充必填字段的文档。如果某个批处理中的所有文档均已提交,该批处理也会从过程中删除。

在提交过程中,未转换为图像格式的非图像文件会保留原始格式。