配置导入处理器作业

使用导入处理器功能,您可以自动将文档从电子邮件、网络文件夹或列表文件批量导入到 Content Capture 过程中。

要了解有关导入处理的信息以及如何将其配置为自动批量导入文档,请参见:

关于导入处理

通过导入处理器,您可以自动将文档(图像和非图像)从电子邮件、网络文件夹或列表文件批量导入到 Oracle Content Management 中。

关键导入处理器作业设置

导入处理器自动将图像和其他电子文档导入到 Content Capture 的功能可用于诸多应用,如多功能设备、使用第三方软件扫描的图像和作为电子邮件发送的文档。

根据要导入的文件,可以创建以下导入处理器作业:
  • 电子邮件源:对于电子邮件源处理器作业,导入处理器会将附加到传入电子邮件的文件导入到 Content Capture 中。还可以导入电子邮件正文和整封电子邮件。

  • 文件夹源:对于文件夹源处理器作业,导入处理器会监视导入文件夹,并导入其找到的具有指定文件掩码的所有文件。

  • 列表文件源:导入处理器会监视导入文件夹,并读取列表(文本)文件,该文件包含的记录可标识要导入的每个文件、要导入的零个或多个附件文件,并选择性地包含要分配给文件的元数据值。

导入处理的相关要点

  • 与处理已排队批处理的其他批处理处理器不同,导入处理器以指定的频率进行轮询(范围从每 30 秒一次到每天一次),期间并在指定的源中搜索要导入的文件,如果找到,则开始处理这些文件。

  • 您可以在导入源设置页上配置特定于所选源(电子邮件或文件夹)的设置:例如,
    • 对于电子邮件源,您可以指定要监视的电子邮件账户以及要导入的电子邮件和/或附件。

    • 对于列表文件作业,您可以标识要读取的文件夹和列表文件。

    • 对于文件夹导入作业,您可以标识要导入的文件夹和文件类型。

添加或编辑导入处理器作业

  • 在导入处理器作业联机时,请勿对其过程元素进行重大更改。例如,如果修改或删除作业使用的元数据字段,将会发生错误,因为批处理中的数据与作业的设置不再匹配。

  • 编辑处理器作业设置时,请运行客户端来查看导入的批处理。在客户端中,您必须刷新批处理列表才能看到新导入的批处理。

要添加或编辑导入处理器作业,请执行以下操作:
  1. 在左侧的过程窗格中选择您的过程。

    所选过程的配置页会显示在右侧。

  2. 打开过程的捕获选项卡。

  3. 导入处理器作业表中,单击 添加导入处理器作业 创建新作业。要编辑现有作业,请选择该作业,然后单击 编辑导入处理器作业

    您还可以复制导入处理器作业,方法是选择该导入处理器作业,单击 复制导入处理器作业 并在出现提示时输入新名称。通过复制作业可以快速复制并修改作业。

  4. 选择“一般设置”页中的设置。

    1. 导入作业名字段中输入名称,在批处理前缀字段中输入前缀。导入的批处理会使用此前缀进行命名,后跟一个随每个新批处理递增的数字。

    2. 导入源字段中,指定导入文件的源:电子邮件源文件夹源列表文件源

      您选择的源决定了“导入源设置”页中显示的设置。

    3. 对于文件夹源列表文件源,在导入频率字段中,指定导入处理器作业检查要导入的文件的时间间隔。您可以选择每 30 秒、每 1、5、15 或 30 分钟、每 1 小时或每天。如果选择每天,请在显示的时间 小时分钟字段中指定时间。

    4. 完成该页上的其他设置,例如,指定默认批处理状态或创建批处理时要分配给批处理的优先级。

  5. 在“图像设置”页上,完成有关如何格式化和验证导入的图像文件的设置。

    1. 选择保留图像文件选项可以保留图像文件,并允许导入处理器导入图像而不执行任何图像处理。选择此选项将自动禁用此页上的所有其他选项。无法编辑保留的图像文件文档(如附加页、删除页或移动页)。

    2. 图像下采样字段中,指定如何转换图像:保留图像格式(),将颜色转换为灰度(将彩色下采样为 8 位灰度)或转换为黑白(将彩色或灰度下采样为黑白)。

    3. JPEG 图像质量字段中,指定一个介于 0 和 99 之间的值,其中 99 表示最高质量,85 是默认设置。此字段不适用于黑白图像。

    4. 如果图像验证失败字段中,指定在图像页解压缩验证失败时的操作:
      • 批处理失败:整个批处理进入错误状态,并发送到 Content Capture 客户端。
      • 隔离文件:创建仅包含失败文档的新批处理。未失败的其他文档会成功处理。
      • 删除批处理:当您在“一般设置”页上选择电子邮件源作为导入源时,此选项才可用。
      • 跳过该文件:当您在“一般设置”页上选择电子邮件源作为导入源时,此选项才可用。
    5. 用于黑色和白色的空白页字节阈值用于彩色或灰度的空白页字节阈值字段中,输入文件大小值(以字节为单位)。大小小于或等于阈值的所有图像都将视为空白页,从而被删除。

      注:

      对于黑白(200 x 200 DPI 图像),建议值是 1500。在这种设置下,通常会区分空白页和包含少量文本的页。
  6. 在“文档概要信息”页上,配置将元数据分配给导入文档的相关设置。请参见配置导入过程中的元数据分配

  7. 在“导入源设置”页上,配置特定于源的设置。

  8. 在“后处理”页上,指定导入处理完成后发生的操作。请参见配置导入处理器作业的后处理

  9. 检查“导入作业概要”页上的设置,然后单击提交

现在即可测试您创建的导入处理器作业,将频率设为 30 秒,并监视文件夹或电子邮件账户以查看处理活动。

停用或删除导入处理器作业

删除导入作业时,导入处理器将不再以指定的频率监视文件。如果导入作业处于联机状态,则以作业的“一般设置”页上导入频率字段中指定的时间间隔运行。您可以临时停止作业运行(使其脱机)或更改已停用的作业使其重新运行。

要停用或删除导入处理器作业,请执行以下操作:
  1. 在左侧的过程窗格中选择您的过程。
    所选过程的配置页会显示在右侧。
  2. 打开捕获选项卡。
  3. 导入处理器作业表中,选择要首先停用的作业,然后单击 停用或激活处理器作业

    还可以通过取消选中或选中“一般设置”页上的联机字段来停用或激活导入处理器作业。

  4. 选择已停用的作业,然后单击 删除处理器作业
  5. 出现提示时,单击,确认要删除该导入处理器作业。

在导入处理器作业中配置空白页检测

用户常常会导入包含空白页的图像文档。您可以将 Content Capture 配置为自动检测和删除文档中的空白页。只需指定阈值文件大小即可,这样小于或等于此阈值大小的所有图像都将视为空白页。

要配置空白页检测,请执行以下操作:
  1. 添加或编辑导入处理器作业,然后选择图像设置页。
  2. 用于黑色和白色的空白页字节阈值用于彩色或灰度的空白页字节阈值字段中,输入文件大小值(以字节为单位)。这些字段仅适用于导入的图像文件,不适用于非图像文件。如果应保留空白图像,改为选择保留图像文件选项。
  3. 单击提交,保存导入处理器作业。
您可以在客户端中验证此配置的结果。空白图像在后处理时将被视为有效图像。

配置电子邮件和电子邮件附件导入

导入处理器将附加到传入电子邮件的文件以及电子邮件元素(如主题和正文文本)导入 Content Capture 中。每个导入的电子邮件都成为一个批处理,其中的电子邮件元素(如附件、邮件正文)或整个电子邮件作为批处理中的单独文档创建。

要配置电子邮件导入处理器作业设置,请执行以下操作:

  1. 添加、编辑或复制导入处理器作业,请在“一般设置”页的导入源字段中选择电子邮件源

  2. 要配置电子邮件导入,选择导入源设置页。

  3. 电子邮件账户选项卡上,配置导入处理器作业应连接到的电子邮件服务器。
    连接协议 可用选项
    标准 IMAP 电子邮件服务器 标准 IMAP 电子邮件服务器 输入 DNS 名称或 IP 地址。例如,emailserver.example.com。此电子邮件服务器必须支持 TLS 1.2 或更高版本,并通过端口 993 接受连接。
    Microsoft Exchange Web 服务 Exchange 服务类型:基本验证。仅电子邮件账户身份证明。 使用以下格式输入 Microsoft Exchange Web 服务 URL:https://<hostname>/ews/exchange.asmx。例如,https://outlook.office365.com/ews/exchange.asmx
    Microsoft Exchange Web 服务 Exchange 服务类型:OAuth。电子邮件账户身份证明与 Exchange Online 密钥组合。
    • Microsoft Email Exchange 服务 URL 字段:按以下格式输入要使用的 Exchange Web 服务 URL:https://<hostname>/ews/exchange.asmx。例如,https://outlook.office365.com/ews/exchange.asmx
    • 应用程序客户端 ID应用程序客户端密钥应用程序租户 ID:要获得客户端 ID、客户端密钥和租户 ID,请使用 Azure 门户注册新的应用程序。有关详细信息,请参见向 Microsoft 身份平台注册应用程序
    • 应用程序范围中的 EWS.AccessAsUser.All:输入所需值。
    • 添加用户账户并配置其他作业设置。
    Google Mail (OAuth) Google Mail (OAuth) 请参见为电子邮件导入设置 Google Mail (OAuth)
  4. 配置作业会检查邮件的电子邮件账户:
    1. 要处理的电子邮件账户表中,单击 添加电子邮件账户。在添加/编辑电子邮件账户对话框中,输入电子邮件地址和密码,使作业可以访问电子邮件账户。

    2. 单击验证,以确认 Content Capture 可以使用指定的账户信息连接到电子邮件服务器。如果需求增加,还可以包括附加电子邮件账户。

  5. 邮件筛选器选项卡上,指定在何处以及如何搜索电子邮件和/或附件。

    1. 要处理的文件夹字段中,输入一个或多个文件夹以在指定的电子邮件账户中进行搜索。默认值为该服务器的收件箱。要指定多个文件夹,请使用 ;(分号)分隔它们。要指定子文件夹,需在文件夹/子文件夹中添加适用于邮件服务器的路径分隔符,例如 /(正斜杠)。

    2. 默认情况下,除非将邮件过滤器应用于作业,否则 Content Capture 会处理指定文件夹中的所有电子邮件。也可以在邮件筛选器表中,为每个要搜索的电子邮件元素选择已启用字段,然后在字段包含字段中输入要查找的字符。

      例如,要搜索主题或邮件正文中包含 payment 一词的电子邮件,您可以为两个搜索字段选择已启用,在每个字段包含条目中输入 payment,然后选择搜索运算符。

    3. 搜索运算符字段中,选择要用于指定邮件筛选器的搜索运算符:(默认)仅在所有搜索条件都匹配时才会导入,而在匹配任一搜索条件时就会导入。

  6. 处理选项卡上,指定如何处理电子邮件及其附件。您可以根据电子邮件优先级,指定要包括的信息以及要分配给批处理的优先级。

    1. 电子邮件选项下,指定是否应导入邮件正文文件。指定其导入格式(文本或 EML)、在不存在附件时是否应将其包括在内,以及是否应将整封电子邮件(包括附件)作为 EML 文件导入。

    2. 包括与这些掩码匹配的附件字段中,根据附件文件的掩码指定附件文件。可以输入多个文件掩码,用逗号或分号分隔。例如,您可能包括所有 PDF 文件 (*.pdf)。

    3. 排除与这些掩码匹配的附件字段中,根据附件文件的掩码指定要排除的附件文件。可以输入多个文件掩码,用逗号或分号分隔。

    4. (可选)选择当附件不匹配掩码时始终执行后处理,可以在附件不匹配包括与这些掩码匹配的附件排除与这些掩码匹配的附件字段中指定的掩码时,始终对电子邮件进行后处理。如果启用了此字段,并且附件不匹配指定的掩码,则将电子邮件导入视为失败,并按照您在后处理选项卡中的导入失败时字段下指定的设置进行后处理。

      注:

      当一起启用了导入邮件正文文件当附件不存在时包括字段时,会禁用当附件不匹配掩码时始终执行后处理字段。
    5. 文档排序下,指定将电子邮件中的元素(例如,邮件正文和附件)作为导入批处理中的文档进行排序时的顺序。

    6. 包含在批处理注释中下,选择邮件元素(例如,接收日期/时间发件人地址收件人地址主题邮件正文)。

    7. 批处理优先级下,可以根据电子邮件优先级(低、普通或高)为每个新的批处理分配优先级。例如,在字段中输入 8 可以为 Content Capture 中的高优先级电子邮件分配批处理优先级 8。将没有分配优先级的电子邮件视为普通优先级。

  7. 后处理选项卡上,指定在导入成功或失败之后电子邮件会出现的情况。您可以删除邮件、将其移动到电子邮件账户内的指定文件夹,也可以在导入失败的情况下防止邮件被删除。例如,如果作业定期运行,则可以通过将导入的电子邮件移动到指定的文件夹中,防止已成功导入的电子邮件再次导入。

  8. 按照添加或编辑导入处理器作业中所述完成其他导入处理器作业页。

现在,您可以测试电子邮件导入作业。导入处理器会检查配置的电子邮件账户中是否有邮件,并在文件夹中搜索匹配的电子邮件。如果找到匹配的电子邮件,导入处理器则会为从电子邮件导入的每个文档创建一个 Content Capture 批处理和一个文档。导入处理器也可以使用电子邮件元数据填充元数据字段,并删除已成功导入的邮件,或者将其移动到文件夹中。

Content Capture 会定期从您在电子邮件账户选项卡上配置的电子邮件账户中提取电子邮件。但是,如果要在特定时间触发电子邮件导入,则在导入处理器作业表中选择一个电子邮件导入作业,然后单击 检查电子邮件 图标。如果您的电子邮件导入作业处于脱机状态,则此图标会被禁用。

配置列表文件导入

通过列表文件导入作业,导入处理器可以监视导入文件夹中是否有匹配的列表文件。该处理器会导入文档文件、元数据值以及列表文件中列出的附件。

确保文件导入代理在您的计算机上已启动并且在运行。

要配置列表文件导入处理器作业设置,请执行以下操作:

  1. 生成列表文件。

    列表文件是包含带分隔符的数据记录的文本文件,其中列有要导入的文件的名称及其位置。每条记录还可能包括要分配给文档的元数据值或要与数据库文件匹配的值。列表文件可能还包含要为文档导入的一条或多条附件记录。请参见在列表文件导入期间导入附件

  2. 添加、编辑或复制导入处理器作业,在“一般设置”页的导入源字段中,选择列表文件源

  3. 在“一般设置”页上,填写默认区域设置编码默认日期格式字段。

    通过这些字段,导入处理器可以根据您的区域设置正确读取列表文件。

  4. 在“文档概要信息”页上,将 Capture 元数据字段映射到列表文件值,使用字段 1 - 字段 n 元数据属性标识列表文件中字段的位置。也可以映射系统级别字段,如配置导入过程中的元数据分配中所述。

    例如,要将 Customer ID 元数据字段映射到列表文件中每条记录的第一个字段,可以选择元数据字段映射表中的 Customer ID 字段,单击 编辑表,然后在“元数据字段映射”对话框的元数据属性字段中选择字段 1

  5. 完成“导入源设置”页上的设置。

    1. 文件掩码字段中,通过输入扩展名指定要导入的文件类型。指定 *.* 可导入所有文件。使用分号 (;) 字符分隔多个掩码。

    2. 要监视指定文件夹内子文件夹中的列表文件并从中导入列表文件,选择处理子文件夹字段。

    3. 创建新的批处理选项中,指定是否为导入的每个列表文件或文件夹创建新的批处理。当为每个文件夹创建批处理时,处理的每个子文件夹将创建一个新批处理。

    4. 字段分隔符字段中,指定如何在列表文件中分隔字段。使用不会在列表文件元数据中使用的分隔符。

      例如,输入 | (竖线)、, (逗号) 或 ~ (波形符)。

    5. 每个文档的最大字段数字段中,指定列表文件中要映射到元数据字段的最大字段数。

    6. 文档文件字段位置字段中,输入文档文件名称和位置的列表文件字段位置。例如,如果列表文件中每条记录的第一个字段标识了文档文件的路径和名称,则输入 1

      注:

      如果指定的文档文件字段位置不包含要导入的文件的路径,则假定该文件与正在处理的列表文件位于同一个文件夹中。

    7. 列表文件后处理字段中,指定如何在导入之后更改列表文件,以便在作业定期运行时不再导入这些文件。换句话说,必须更改列表文件名,使它们不再与为作业指定的文件掩码匹配。可以删除它们、更改它们的扩展名或添加前缀。

    8. 文档文件后处理字段中,指定是否希望在成功导入后从指定位置删除文档文件及其附件。

  6. 按照添加或编辑导入处理器作业中所述完成其他导入处理器作业页。

  7. 测试列表文件导入作业。

    当作业以指定的频率激活时,导入处理器会检查文件夹中是否有与指定的文件掩码匹配的列表文件,导入列表文件中列出的文档文件及其附件,可以选择使用列表文件数据填充元数据字段,以及删除或重命名列表文件。

在列表文件导入期间导入附件

处理列表文件时,导入处理器会导入文档文件、元数据值以及列表文件中列出的附件。定义列表文件内附件的格式为:

@Attachment[delimiter][Attachment Type][delimiter][Attachment File]

@Support[delimiter][Attachment Type][delimiter][Attachment File]

建议使用 @Attachment 命令。

导入处理器在处理附件记录时,会导入前一记录中指定的文档的附件。因此,不得将附件指定为列表文件中的第一个记录。将附件指定为第一个记录将会导致错误。

示例 11-1 示例:

Doc1.TIF|Corp 1|Invoice
@Attachment|PO|PO1.TIF
Doc2.TIF|Corp 2|Invoice

在以上示例中,PO1.TIF 作为 Doc1.TIF 文档的文档附件导入。可为一个文档指定多个附件记录。

示例 11-2 示例:

Doc1.TIF|Corp 1|Invoice
@Attachment|PO|PO1.TIF
@Attachment|Contract|Contract1.PDF
@Attachment|Contract|Amendment1.PDF
Doc2.TIF|Corp 2|Invoice

如果附件文件为多页 TIFF,每页则会作为单独的批处理项导入并组合成附件。

配置从文件夹导入文件

使用文件夹导入作业时,导入处理器监视导入文件夹,并导入使用指定文件掩码找到的所有文件。

确保文件导入代理在您的计算机上已启动并且在运行。

要配置文件夹导入处理器作业设置,请执行以下操作:

  1. 添加、编辑或复制导入处理器作业,然后在“一般设置”页的导入源字段中选择文件夹源

  2. 在“导入源设置”页中配置设置。

    1. 文件掩码字段中,通过输入扩展名(例如,*.tif 或 *.pdf),指定要导入的文件类型。指定 *.* 可导入所有文件。使用分号 (;) 字符分隔多个掩码。

    2. 如果希望导入处理器监视并导入该文件夹的子文件夹内的文件,则选择处理子文件夹字段。

    3. 创建新的批处理字段中,指定是用导入的每个文件还是导入的每个文件夹创建新的批处理。当基于文件夹创建批处理时,还会为文件夹的子文件夹创建批处理。

      选择基于文件夹选项时,会启用每次批处理导入的最大文件数。输入不超过 500 的数字。

    4. 就绪文件字段中,可选择输入一个文件名,此文件必须存在于该文件夹(以及各子文件夹,如果适用)中才能处理文件夹。此选项延迟对文件夹的处理,直到显示就绪文件为止。处理完成后,将删除就绪文件。

    5. 文件处理顺序字段中,指定处理导入文件夹中各文件的主要和次级排序类型及顺序。排序类型选项包括:(无排序类型)、文件名文件扩展名文件修改日期,排序顺序选项包括:升序降序

    6. 文件后处理字段中,指定如何在导入之后更改文件,以便在作业定期运行时不会再次导入这些文件。为此,必须更改文件名,使其与为作业指定的文件掩码不再匹配。您可以删除文件、更改其扩展名,或向文件添加前缀。也可以通过选择删除处理的子文件夹 (如果为空) 字段,清理已处理的子文件夹。

  3. 完成其他导入处理器作业页

  4. 测试文件夹导入作业,以确保其按选择的频率激活。

导入处理器检查该文件夹中是否存在与文件掩码匹配的文件。如果找到匹配项,处理器将导入文件并创建新的批处理,填充元数据字段,并按您指定的那样删除或重命名指定的文件。

配置导入过程中的元数据分配

在“文档概要信息”页上,您可以配置如何在导入处理期间将导入作业值映射到 Content Capture 元数据字段。

要配置导入过程中的元数据分配,请执行以下操作:

  1. 在导入处理器作业中,选择“文档概要信息”页。

  2. 默认文档概要信息字段中,指定要分配给已导入文档的文档概要信息。所选概要信息用于对文档分类。例如,如果用户在客户端中打开批处理,则此文档概要信息即会处于选定状态。

  3. 元数据字段映射表中,将 Content Capture 元数据字段映射到特定于所选导入源的值。

    元数据字段列中,选择要填充的 Capture 字段,然后单击编辑。无论是否选择了默认文档概要信息,过程中的所有元数据字段都可用于映射。

  4. 完成元数据字段映射对话框中的设置。

    1. 元数据属性字段中,为导入源选择一个元数据值。要填入默认值,在此字段中选择默认值,然后在默认值字段中指定值。

    2. 文件夹导入作业中,从下表列出的文件夹、文件或路径相关属性中进行选择:

      系统属性 待导入文件的示例路径值 (/import/expenses/20200426/Customer1.pdf)

      文件名

      Customer1.pdf

      基本文件名

      Customer1

      文件扩展名

      pdf

      文件夹路径

      /import/expenses/20200426

      文件夹名称

      20200426

      完整文件路径

      /import/expenses/20200426/Customer1.pdf

      文件修改日期/时间

      文件修改日期/时间 - 系统值

      导入代理的主机名

      安装文件导入代理的计算机的主机名。

    3. 电子邮件导入作业中,从下表列出的电子邮件消息相关属性中进行选择:

      系统属性 说明

      发件人名称

      发件人地址的名称别名

      发件人地址

      发件人的电子邮件地址

      回复名称

      消息的回复名称

      回复地址

      消息的回复地址

      收件人姓名

      消息的收件人姓名集合

      收件人地址

      消息的收件人地址集合

      文件夹

      从中获取消息的文件夹名称

      接收日期

      接收消息的日期和时间

      发送日期

      最初发送消息的日期和时间

      主题

      消息的主题

      电子邮件重要性

      消息的低、普通和高优先级值

      消息 ID

      消息的唯一 ID

    4. 在任何导入作业中,从下表列出的通用系统属性中进行选择:

      系统属性 说明

      导入日期/时间

      批处理的导入日期和时间

      导入作业名称

      分配给导入处理器作业的名称

      默认值

      按指定分配的默认值

  5. 根据需要映射元数据字段映射表中的其他元数据字段。

配置导入处理器作业的后处理

通过后处理设置,您可以控制导入处理完成一个批处理后出现的情况。

要为导入处理器作业配置后处理,请执行以下操作:

  1. 添加或编辑导入处理器作业,然后选择“后处理”页。
  2. 批处理处理器字段中,选择下一步--创建批处理并完成导入处理后出现的情况。选择将使批处理可立即供客户端使用。
  3. 批处理处理器作业字段中,选择要运行的识别、到 TIFF/PDF 的转换、资产查找或 XML 转换作业。只有在上一步中选择了识别处理器、转换处理器、资产查找处理器或 XML 转换处理器时,才可以在此处进行选择。
  4. 单击提交保存所做的更改。