Procese documentos no estructurados de forma inteligente

El procesamiento de documentos no estructurados puede ser una tarea laboriosa sin automatización inteligente. Tomemos los PDF de facturas como ejemplo: puede que necesite extraer información clave de cabecera, como el nombre de la empresa, la fecha, el número de factura, la dirección, etc. Es probable que también necesite extraer cada línea de artículo con varios números de artículo, descripciones, cantidades, precios unitarios y totales. Después de la extracción, esta información se debe contabilizar en un sistema de registro, como una base de datos, una aplicación de destino, como Oracle E-Business Suite, Oracle Fusion Cloud Financials u Oracle Fusion Cloud SCM, por nombrar algunos. Por último, los usuarios finales pueden realizar acciones sobre la información recién publicada, ya sea creando informes o incluso una aplicación personalizada.

Este escenario se logra fácilmente mediante Oracle Integration Cloud Service para orquestar varios servicios de Oracle Cloud Infrastructure (OCI). Con Oracle Integration Cloud Service, puede conectarse e integrar fácilmente sus sistemas de registro tanto si se ejecutan en OCI como en cualquier otro lugar. Los servicios de IA de OCI, como OCI Document Understanding, se pueden combinar fácilmente con Oracle Integration Cloud Service para lograr una variedad de casos de uso.

Puede aplicar fácilmente este enfoque a una serie de otros casos de uso que automatizan el procesamiento de documentos no estructurados mediante modelos predefinidos como pasaportes, licencias de conducir y recibos. Otros tipos de documentos también se pueden procesar entrenando un modelo personalizado en el servicio OCI Document Understanding.

Arquitectura

Esta arquitectura describe cómo utilizar Oracle Integration Cloud Service para orquestar servicios de OCI para automatizar el procesamiento inteligente de documentos no estructurados.

El siguiente diagrama ilustra esta arquitectura de referencia.



oic-process-documents-arch.zip

El flujo de trabajo de esta arquitectura se asemeja a:

  1. Oracle Integration Cloud Service inicia una integración para recuperar nuevos anexos de correo electrónico (PDF, PNG, JPG, etc.) desde Microsoft Outlook o Gmail mediante adaptadores predefinidos.
  2. Los anexos se pueden almacenar en el servidor de archivos embebido de Oracle Integration Cloud Service o en OCI Object Storage para una retención a corto y largo plazo.
  3. Se llama a OCI Document Understanding para recoger y procesar los archivos recién cargados, devolviendo JSON estructurado de los campos clave extraídos de nuevo a Oracle Integration Cloud Service.
  4. Si la puntuación de confianza devuelta por OCI Document Understanding alcanza un umbral aceptable, la integración transforma y valida el resultado extraído realizando llamadas adicionales a varios sistemas o aplicaciones mediante cualquiera de sus más de 100 adaptadores incorporados. De lo contrario, la integración inicia un proceso dentro de la automatización de procesos de Oracle Integration Cloud Service para garantizar el manejo de excepciones en el bucle humano. Como parte de este proceso, un desarrollador o analista recibe una notificación por correo electrónico para revisar el documento y corregirlo antes de volver a enviarlo, o bien identificar manualmente los pares clave-valor necesarios para que la integración pueda continuar.
  5. Los datos extraídos se insertan en un sistema de registro como Oracle E-Business Suite local mediante el uso de OCI FastConnect y un agente de conectividad, Oracle Fusion Cloud Financials a través de la red troncal de Oracle, una base de datos de Oracle Autonomous Transaction Processing a través de un punto final privado u otras aplicaciones como Salesforce, SAP y Workday.
  6. Cuando los datos extraídos y validados se insertan en una base de datos privada de Oracle Autonomous Transaction Processing como parte del flujo de integración, ahora puede aprovechar capacidades adicionales de OCI para ofrecer a los usuarios finales diferentes formas de interactuar con los datos. Por ejemplo, podría crear fácilmente un portal personalizado mediante Oracle APEX (una plataforma con poco código incluida con Oracle Database). Este portal podría proporcionar a los usuarios de negocio la capacidad de consultar y actualizar los datos extraídos a través de una interfaz de usuario personalizada.
  7. Opcionalmente, puede conectar la base de datos de Oracle Autonomous Transaction Processing a una instancia de Oracle Analytics Cloud en la que los usuarios profesionales puedan crear informes personalizados que destaquen las tendencias de documentos procesados más importantes.

La arquitectura tiene los siguientes componentes:

  • Región

    Una región de Oracle Cloud Infrastructure es un área geográfica localizada que contiene uno o más centros de datos, denominados dominios de disponibilidad. Las regiones son independientes entre sí y puede haber grandes distancias que las separen (entre países e incluso continentes).

  • Dominios de disponibilidad

    Los dominios de disponibilidad son centros de datos independientes dentro de una región. Los recursos físicos de cada dominio de disponibilidad están aislados de los recursos de los otros dominios de disponibilidad, lo que proporciona tolerancia a fallos. Los dominios de disponibilidad no comparten infraestructura, como la alimentación o la refrigeración, ni la red interna del dominio de disponibilidad. Por lo tanto, un fallo en un dominio de disponibilidad no debería afectar a los otros dominios de disponibilidad de la región.

  • Dominios de errores

    Un dominio de errores es una agrupación de hardware e infraestructura dentro de un dominio de disponibilidad. Cada dominio de disponibilidad cuenta con tres dominios de errores con energía y hardware independientes. Al distribuir los recursos entre varios dominios de errores, las aplicaciones pueden tolerar fallos físicos del servidor, mantenimiento del sistema y fallos de energía en un dominio de errores.

  • Red y subredes virtuales en la nube (VCN)

    Una VCN es una red personalizable y definida por software que puede configurar en una región de Oracle Cloud Infrastructure. Al igual que las redes de los centros de datos tradicionales, las redes virtuales le proporcionan el control de su entorno de red. Una VCN puede tener varios bloques de CIDR no superpuestos que puede cambiar después de crear la VCN. Puede segmentar una VCN en subredes, las cuales se pueden acotar a una región o a un dominio de disponibilidad. Cada subred está formada por un rango contiguo de direcciones que no se solapan con las demás subredes de la VCN. Puede cambiar el tamaño de una subred después de la creación. Una subred puede ser pública o privada.

  • Red local

    Esta red es la red local que utiliza su organización. Es uno de los radios de la topología.

  • Gateway de enrutamiento dinámico (DRG)

    El DRG es un enrutador virtual que proporciona una ruta para el tráfico de red privada entre las redes virtuales en la misma región, entre una VCN y una red fuera de la región, como una VCN en otra región de Oracle Cloud Infrastructure, una red local o una red en otro proveedor en la nube.

  • Gateway de servicio

    El gateway de servicios proporciona acceso desde una VCN a otros servicios, como Oracle Cloud Infrastructure Object Storage. El tráfico de la VCN al servicio Oracle viaja por el tejido de red de Oracle y no atraviesa Internet.

  • FastConnect

    Oracle Cloud Infrastructure FastConnect proporciona una forma sencilla de crear una conexión privada y dedicada entre el centro de datos y Oracle Cloud Infrastructure. FastConnect proporciona opciones de mayor ancho de banda y una experiencia de red más fiable en comparación con las conexiones basadas en Internet.

  • Tabla de rutas

    Las tablas de rutas virtuales contienen reglas para enrutar el tráfico de subredes a destinos fuera de una VCN, normalmente a través de gateways.

  • Lista de seguridad

    Para cada subred, puede crear reglas de seguridad que especifiquen el origen, el destino y el tipo de tráfico que se debe permitir dentro y fuera de la subred.

  • Object Storage

    Object Storage proporciona acceso rápido a grandes cantidades de datos estructurados y no estructurados de cualquier tipo de contenido, incluidas copias de seguridad de base de datos, datos analíticos y contenido enriquecido, como imágenes y vídeos. Puede almacenar datos de forma segura y, a continuación, recuperarlos directamente desde Internet o desde la plataforma en la nube. Puede ampliar el almacenamiento sin experimentar ninguna degradación del rendimiento ni de la fiabilidad del servicio. Utilice el almacenamiento estándar para el almacenamiento al que debe acceder de forma rápida, inmediata y frecuente. Utilice el almacenamiento de archivo para el almacenamiento "frío" al que conserva durante largos períodos de tiempo y al que rara vez accede.

  • Oracle Services Network

    Oracle Services Network (OSN) es una red conceptual reservada para los servicios de Oracle en Oracle Cloud Infrastructure. Estos servicios tienen direcciones IP públicas que puede acceder a través de Internet. Los hosts fuera de Oracle Cloud pueden acceder a OSN de forma privada mediante Oracle Cloud Infrastructure FastConnect o VPN Connect. Los hosts de sus redes virtuales en la nube pueden acceder a OSN de forma privada a través de un gateway de servicios.

  • Integración

    Oracle Integration es un servicio totalmente gestionado que permite integrar las aplicaciones, automatizar procesos, obtener información detallada de los procesos de su negocio y crear aplicaciones visuales.

  • Análisis de documentos

    Document Understanding de Oracle Cloud Infrastructure es un servicio de IA que permite realizar análisis de documentos basados en el aprendizaje profundo a escala. Con los modelos predefinidos disponibles listos para usar, los desarrolladores pueden crear fácilmente el procesamiento inteligente de documentos en sus aplicaciones sin experiencia en machine learning (ML).

  • Análisis

    Oracle Analytics Cloud es un servicio en la nube pública escalable y seguro que ofrece a los analistas empresariales funciones de autoservicio modernas y que funcionan con IA para la preparación de datos, la visualización, la generación de informes empresariales, los análisis aumentados y el procesamiento y la generación de lenguaje natural. Con Oracle Analytics Cloud, también obtiene capacidades de gestión de servicios flexibles, como una configuración rápida, una ampliación y aplicación de parches fáciles y una gestión automatizada del ciclo de vida.

  • Servicio APEX

    Oracle APEX es una plataforma de desarrollo con poco código que permite crear aplicaciones empresariales seguras, escalables y con muchas funciones que se pueden desplegar en cualquier lugar donde esté instalado Oracle Database. No es necesario que sea un experto en una amplia gama de tecnologías para crear soluciones sofisticadas. Oracle APEX incluye funciones incorporadas como temas de la interfaz del usuario, controles de navegación, manejadores de formulario e informes flexibles que aceleran el proceso de desarrollo de las aplicaciones.

  • Autonomous Transaction Processing

    Oracle Autonomous Transaction Processing es un servicio de base de datos de autogestión, autoseguridad y autorreparación optimizado para las cargas de trabajo de procesamiento de transacciones. No necesita configurar ni gestionar ningún hardware, ni instalar ningún software. Oracle Cloud Infrastructure se ocupa de la creación de la base de datos, así como de la copia de seguridad, la aplicación de parches, el cambio de versión y el ajuste de la base de datos.

  • Identity and Access Management (IAM)

    Oracle Cloud Infrastructure Identity and Access Management (IAM) es el plano de control de acceso para Oracle Cloud Infrastructure (OCI) y Oracle Cloud Applications. La API de IAM y la interfaz de usuario le permiten gestionar los dominios de identidad y los recursos dentro del dominio de identidad. Cada dominio de identidad de OCI IAM representa una solución independiente de gestión de identidad y acceso o una población de usuarios diferente.

  • Logging
    Logging es un servicio altamente escalable y totalmente gestionado que proporciona acceso a los siguientes tipos de logs de sus recursos en la nube:
    • Logs de auditoría: logs relacionados con eventos emitidos por el servicio de auditoría.
    • Logs de servicios: logs emitidos por servicios individuales como API Gateway, eventos, funciones, equilibrio de carga, Object Storage y logs de flujo de VCN.
    • Logs personalizados: logs que contienen información de diagnóstico de aplicaciones personalizadas, otros proveedores de nube o un entorno local.
  • Auditoría

    El servicio Oracle Cloud Infrastructure Audit registra automáticamente las llamadas a todos los puntos finales de la interfaz pública de programación de aplicaciones (API) de Oracle Cloud Infrastructure soportados como eventos de log. Actualmente, todos los servicios soportan el registro mediante Oracle Cloud Infrastructure Audit.

Recomendaciones

Utilice las siguientes recomendaciones como punto de partida para implantar el procesamiento inteligente de documentos con Oracle Integration Cloud Service. Sus requisitos pueden diferir de la arquitectura descrita aquí.
  • Restricción del acceso a una instancia de Oracle Integration Cloud Service

    Restrinja las redes que tienen acceso a la instancia de Oracle Integration Cloud Service configurando una lista de permitidos (anteriormente una lista blanca). Solo los usuarios de las direcciones IP específicas, los bloques de enrutamiento entre dominios (CIDR) sin clase y las redes virtuales en la nube que especifique pueden acceder a la instancia.

  • Conectividad

    Al desplegar recursos en OCI, puede empezar de forma pequeña, con una única conexión a su red local. Esta única conexión puede ser a través de FastConnect o a través de VPN IPSec. Para planificar la redundancia, tenga en cuenta todos los componentes (dispositivos de hardware, instalaciones, circuitos y energía) entre su red local y OCI. También considere la diversidad, para garantizar que las instalaciones no se compartan entre los caminos.

  • Uso del agente de conectividad en entornos de alta disponibilidad

    Puede utilizar el agente de conectividad en entornos de alta disponibilidad con Oracle Integration Cloud Service instalando el agente de conectividad dos veces en hosts diferentes. Los agentes de conectividad se pueden escalar horizontalmente, lo que proporciona todas las ventajas de ejecutar varios agentes para un grupo de agentes. Esto da como resultado un mayor rendimiento y amplía las ventajas de failover.

  • Usar puntos finales privados

    Un punto final privado permite que sus integraciones se conecten a recursos privados de su red virtual en la nube (VCN). Todo el tráfico pasa por un canal privado configurado en OCI. Puede configurar un punto final privado por instancia. Permiten a la instancia de Oracle Integration Cloud Service acceder a recursos privados sin necesidad de pasar por un agente de conectividad.

Confirmaciones

  • Autores: Nolan Trouvé, Jerry Mbamo
  • Contribuyente: Daryl Eicher