1 Подробнее о Content Capture

Функции захвата контента в Oracle Content Management предоставляют единую систему захвата, индексирования, хранения и управления критически важным бизнес-контентом. Можно массово сканировать и импортировать документы и обрабатывать их автоматически перед загрузкой в Oracle Content Management. Документы состоят из одного или нескольких изображений, полученных со сканера или импортированных из файла, или они могут быть электронными файлами, не являющимися изображениями, такими как файлы Microsoft Word или PDF. При импорте файлов, которые не являются изображениями, заданный поток захвата определяет способ обработки файлов: они сохраняются в исходном формате, преобразуются в формат изображения или не импортируются.

Созданные вами пакеты документов являются масштабируемыми, что позволяет реорганизовывать документы, автоматизировать их группирование в соответствии с бизнес-требованиями, считывать штрихкоды для выставления счетов или документов, индексировать документы для удобного поиска и преобразовывать их в стандартные форматы для вашей организации. Вы создаете рабочие потоки захвата контента или процедуры, которые автоматизируют массовую обработку и маршрутизацию физических и электронных документов.

Основные драйверами захвата контента — пакеты и документы. Документы сканируются или импортируются и обслуживаются в пакетах. Пакет — это набор файлов отсканированных изображений или электронных документов (такие как файлы PDF или Microsoft Office), которые организованы в виде логических документов и которым назначены значения метаданных (индексированы). Oracle Content Management предоставляет разнообразные обработчики захвата контента, которые импортируют документы, преобразуют их в формат PDF и/или TIFF, автоматически распознают штрих-коды, автоматически разделяют документы, заполняют значения метаданных и обеспечивают окончательный вывод в Oracle Content Management.

Процесс захвата контента включает следующие основные компоненты:

Захват

Сканирование или импорт документов в пакеты в рамках процедуры захвата контента может выполняться различными способами:

  • сканирование больших объемов с использованием производственного сканера для графического представления документов;

  • специальное удаленное сканирование или импорт, например из бизнес-приложения;

  • автоматический импорт, например из учетной записи электронной почты или отслеживаемой папки.

Конечные пользователи могут вручную сканировать бумажные документы или импортировать электронные документы в пакеты с помощью ПО Content Capture Client (на основе профилей клиента, созданных менеджерами процедур). Кроме того, используя настройки, сохраненные в задании импорта, обработчик импорта также может автоматически импортировать изображения и другие электронные документы непосредственно из электронной почты, сетевых папок или файлов списков.

Преобразование

В зависимости от бизнес-требований может потребоваться преобразовать документы и вложения, не являющиеся изображениями, в другой формат. Например, отчеты о расходах в формате PDF, прикрепленные к импортированным сообщениям электронной почты, можно преобразовать в формат изображения, чтобы можно было считывать их штрихкоды. В этом случае обработчик преобразования в TIFF преобразует PDF-файлы в TIFF-изображения. Обработчик преобразования в TIFF автоматически преобразует документы или вложения и объединяет их в пакет, используя настройки, сохраненные в задании преобразования. Обработчик преобразования PDF преобразует документы в PDF с тем же типом контента соде, что и исходный документ, а также в PDF с возможностью поиска.

Классификация

Классификация — это процесс разделения пакетов на логические документы и назначения профилей документов. Профиль клиента определяет набор возможных полей метаданных и типов вложений, доступных для каждого документа. Классификация также включает назначение статуса пакету.

Классификация может выполняться вручную или автоматически различными способами:

Разделение документов

  • Вручную пользователями Content Capture Client. Например, пользователи могут выбрать профиль клиента, настроенный для определенного количества страниц в каждом документе. Кроме того, перед сканированием между документами можно вставлять листы-разделители, чтобы идентифицировать новый документ. При визуальной проверке пакета пользователи Content Capture Client могут создавать новые документы, разделяя большие документы на несколько документов меньшего размера.

  • Вручную пользователями во время импорта файлов в Content Capture Client.

  • Автоматически, когда обработчик импорта импортирует документы на основе настроек задания.

  • Автоматически при распознавании штрихкода обработчиком распознавания. Если пакет отправляется в обработчик распознавания, тот автоматически распознает штрихкод и классифицирует документы.

Назначение метаданных

Документам назначается набор значений метаданных на основе профиля документа. Это — индексирование. Этот профиль определяет поля метаданных, доступные для индексирования документов определенного типа. Значения метаданных могут назначаться различными способами:

  • вручную, пользователями на панели метаданных Content Capture Client;

  • автоматически, когда обработчик импорта обрабатывает документы на основе настроек задания;

  • автоматически, во время обработки обработчиком распознавания, на основе настроек задания;

  • автоматически, во время обработки обработчиком поиска активов, на основе настроек задания.

Поля метаданных можно настроить различными способами. Можно настроить маску ввода и формат отображения или указать регулярное выражение для проверки. Значения метаданных можно заполнять автоматически, выбирать из списков выбора (или получать из штрихкодов) и зависимых списков выбора. Менеджеры процедуры настраивают эти определения полей метаданных в процедуре, а затем используют их в профилях клиентов или заданиях обработчиков.

Тип вложения

Вложение — это файл изображения или файл другого типа, связанный с основным документом. Менеджеры процедуры определяют типы вложений,, которые можно назначать профилям документов. Эти типы вложений можно использовать для классификации вложений с документами, назначенными профилю документа. Пользователи Content Capture Client могут просматривать вложения, изменять тип вложения, создавать вложения и изменять вложения-изображения.

Статус пакета

Менеджеры процедуры определяют статусы пакетов в соответствии со своими бизнес-потребностям. Пользователь назначает их пакету вручную в любой момент в процессе захвата контента или автоматически одним из обработчиков.

Освобождение

Oracle Content Management использует метод блокировки и освобождения, чтобы в любой момент времени только один пользователь или обработчик мог получить доступ к любому пакету Content Capture. При создании или открытии (разворачивании) пакета он автоматически блокируется . Необходимо освободить или разблокировать пакет, чтобы сделать его доступным другим пользователям. По завершении работы с пакетом вы освобождаете или разблокируете его. При освобождении пакета содержащиеся в нем документы и метаданные автоматически синхронизируются с Oracle Content Management и выполняется маршрутизация пакета для дальнейшей обработки (фиксация, распознавание или преобразование), если это настроено в профиле клиента.

Фиксация

Когда пакет зафиксирован, все его документы и метаданные загружаются в Oracle Content Management, а затем удаляются из пакета. Это позволяет найти документы и получить доступ к ним в Oracle Content Management по их метаданным или контенту. Некоторые документы могут быть не зафиксированы. Например, документы с незаполненными обязательными полями пропускаются. Если все документы в пакете зафиксированы, пакет также удаляется из процедуры.

В процессе фиксации файлы, не являющиеся изображениями, которые не были преобразованы в формат изображения, остаются в исходном формате.