Automatización del ciclo de vida de los documentos
La IA mejora el ciclo de vida con:
- Inteligencia posterior al archivado
- Digitalización
- Análisis transaccional
La variedad de pipelines posibles incluyen:
- Document Understanding (DU) más LLM de texto para OCR y razonamiento escalables
- LLM multimodal para diseños visuales/complejos
- Modo de comparación/consenso para mayor seguridad
Este diseño es genérico en todas las industrias, con focos para la atención médica y los servicios financieros.
Arquitectura
Esta arquitectura ilustra el flujo lógico del procesamiento de documentos, desde la ingestión y el almacenamiento hasta la extracción y la integración descendente. Muestra cómo varios componentes de Oracle Cloud Infrastructure (OCI), incluidos los servicios OCI Document Understanding y OCI Generative AI (LLM de texto y visión), funcionan juntos en una orquestación unificada.
El siguiente diagrama ilustra el flujo lógico.
Los componentes conceptuales que se muestran en el flujo lógico son:
- Almacenamiento de datos remoto
- Representa el origen original de los documentos, que puede ser un repositorio externo, un sistema de archivos de empresa o un almacenamiento compartido, como unidades de red, DMS o cubos en la nube.
- Los documentos se pueden recuperar periódicamente o tras el disparador para su procesamiento.
- Interfaz de usuario de entrada
- Un simple punto de entrada orientado al usuario para cargar o enviar documentos.
- Puede ser un formulario web, un portal interno o un front-end de aplicaciones creado con Oracle Digital Assistant o herramientas similares.
- Chatbot (opcional)
- Proporciona acceso conversacional al pipeline.
- Permite a los usuarios cargar o consultar documentos mediante lenguaje natural (por ejemplo, "Mostrarme todas las facturas por encima de $50 K").
- Se enruta internamente a la misma capa de ingestión que la interfaz de usuario de entrada.
- Integraciones
- Actúa como la capa de orquestación y enrutamiento.
- Responsable de disparar el pipeline correcto según el tipo de documento o la lógica de negocio. Por ejemplo, OCI Document Understanding más un LLM para documentos estructurados, un LLM de visión para entradas con muchas imágenes.
- Gestiona la recuperación de errores, los reintentos, la gestión de metadatos y las llamadas de API descendentes a plataformas de datos, CRM o ERP.
- Almacenamiento de Datos
- Almacena datos sin procesar y procesados.
- Normalmente se implanta mediante OCI Object Storage para binarios y Oracle Autonomous AI Database para salidas JSON estructuradas y logs de auditoría.
- Permite la trazabilidad, el reprocesamiento y los análisis en todo el ciclo de vida del documento.
- Reconocimiento óptico de caracteres (OCR)
- Realiza reconocimiento óptico de caracteres, detección de diseño y extracción de pares clave-valor, tablas y texto libre.
- Produce texto limpio que sirve como entrada para el razonamiento de LLM basado en texto.
- OCI Document Understanding es determinista y se basa en esquemas, lo que garantiza una calidad de extracción predecible.
- LLM textual (comando A de Cohere)
- Consume la salida de OCI Document Understanding y aplica razonamiento, normalización y formato.
- Gestiona el resumen, la clasificación y la extracción contextual que van más allá del esquema fijo de OCI Document Understanding.
- Puede limpiar salidas de OCR ruidosas, unificar la nomenclatura de campos e inferir valores faltantes en función del contexto.
- LLM multimodal (Llama 4 Maverick)
- Procesa el contenido visual y los diseños complejos que los modelos de solo texto y OCI Document Understanding no pueden interpretar por completo.
- Maneja gráficos, escritura a mano, sellos, tablas incrustadas como imágenes y continuidad de varias páginas.
- En flujos combinados, su salida se concilia con OCI Document Understanding y los resultados textuales del LLM para mejorar la integridad y la precisión.
- Lógica de incrustación y carga de datos
- Convierte el texto extraído y las imágenes en incrustaciones vectoriales para la búsqueda semántica y la recuperación de documentos.
- Admite flujos de trabajo de RAG descendentes, lo que permite a los LLM basar las respuestas en datos fácticos y específicos del documento.
- Se puede implantar mediante OCI Functions o pipelines de ETL personalizados.
- Tienda de vectores
- Almacena incrustaciones para texto e imágenes.
- Permite la recuperación rápida de contenido contextualmente similar y admite preguntas y respuestas generativas sobre conjuntos de documentos empresariales.
- Las implementaciones comunes incluyen Qdrant, AI Vector Search en Autonomous AI Database u otras tiendas compatibles con OCI.
Este es el flujo de extremo a extremo que se muestra en el diagrama de flujo lógico:
- Ingestión de documentos
- Los documentos se cargan a través de la interfaz de usuario de entrada o se recuperan del almacenamiento de datos remoto.
- La capa de integración registra metadatos, valida formatos de archivo y dispara el pipeline de procesamiento correspondiente.
- Los envíos de bots conversacionales utilizan las mismas rutas de API que las cargas manuales.
- Almacenamiento y preparación
- Los archivos se mantienen en OCI Object Storage.
- Los metadatos y las entradas de estado se escriben en Oracle Autonomous AI Database para auditoría y control.
- Un disparador de flujo de trabajo (mediante OCI Functions u Oracle Integration) inicia la secuencia de OCR/LLM.
- Extracción y enriquecimiento de datos
- OCI Document Understanding realiza análisis de diseño y OCR, devolviendo texto estructurado.
- El LLM textual (por ejemplo, Command-A) interpreta este texto, lo limpia y produce salidas normalizadas (JSON o Markdown).
- Cuando el documento contiene elementos visuales complejos, un texto e imagen que comprende la IA, como Llama 4 Maverick, analiza las imágenes para enriquecer o validar los resultados de la extracción.
- Ambas salidas se pueden comparar o fusionar mediante la lógica de orquestación (conciliación basada en la confianza).
- Integración y carga de conocimientos
- Los datos finales estructurados y contextualizados pasan a través de un paso de incrustación, transformando el texto o las estadísticas visuales en vectores.
- El componente Lógica de Embebido y Carga de Datos almacena estos vectores en un almacén de vectores, completando la etapa de integración de RAG.
- Las aplicaciones descendentes, como los paneles de control de análisis, los portales de búsqueda o los bots conversacionales GenAI, ahora pueden acceder a los datos procesados para la recuperación semántica y la respuesta a preguntas.
Opcionalmente, puede agregar un paso humano en el bucle (HITL) entre los pasos 3 y 4.
- En esta etapa, un HITL se puede integrar en el flujo en función de una variedad de criterios, incluida la confianza en las respuestas, comprobaciones adicionales del tipo de datos, el formato, etc. Esto puede solicitar al usuario que apruebe o edite los resultados según sea necesario.
- Dentro de cualquier ruta elegida se puede añadir un HITL para proporcionar una capa adicional de aprendizaje continuo que permita que la solución se adapte y crezca con el uso y mejore la eficacia
- Activar HITL activado: baja confianza, infracciones de esquema, conciliaciones fallidas, diseño/proveedor no visto o campos críticos para el regulador.
- Considere el uso de una "regla de graduación": es decir, elimine HITL después de N pases de limpieza consecutivos para un proveedor/diseño determinado.
- Conservar las correcciones; refinadores y validadores de peticiones de datos de alimentación; rastrear las huellas dactilares del proveedor/diseño.
En el siguiente diagrama se muestra un ejemplo de implantación:
La arquitectura tiene los siguientes componentes:
- Región OCI
Una región de OCI es un área geográfica localizada que contiene uno o más centros, denominados dominios de disponibilidad. Las regiones son independientes de otras regiones y pueden haber grandes distancias que las separan (entre países o incluso continentes).
- Compartimento
Los compartimentos son particiones lógicas entre regiones dentro de un arrendamiento de OCI. Utilice compartimentos para organizar, controlar el acceso y definir cuotas de uso para sus recursos de Oracle Cloud. En un compartimento determinado, puede definir políticas que controlen el acceso y definan privilegios para los recursos.
- Dominio de disponibilidad
Los dominios de disponibilidad son centros de datos independientes dentro de una región. Los recursos físicos de cada dominio de disponibilidad están aislados de los recursos de los otros dominios de disponibilidad, lo que proporciona tolerancia a fallos. Los dominios de disponibilidad no comparten infraestructura, como la alimentación o la refrigeración, ni la red interna del dominio de disponibilidad. Por lo tanto, un fallo en un dominio de disponibilidad no debería afectar a los demás dominios de disponibilidad de la región.
- Dominio de errores
Un dominio de errores es una agrupación de hardware e infraestructura dentro de un dominio de disponibilidad. Cada dominio de disponibilidad tiene tres dominios de errores con hardware y energía independientes. Al distribuir recursos entre varios dominios de errores, las aplicaciones pueden tolerar fallos físicos en el servidor, mantenimiento del sistema y fallos de energía en un dominio de errores.
- Red virtual en la nube y subred de OCI
Una red virtual en la nube (VCN) es una red personalizable y definida por software que se configura en una región de OCI. Al igual que las Redes de los Centros de Datos Tradicionales, las Redes Virtuales le proporcionan el control sobre su entorno de red. Una VCN puede tener varios bloques de CIDR no superpuestos que puede cambiar después de crear la VCN. Puede segmentar una VCN en subredes, las cuales se pueden acotar a una región o a un dominio de disponibilidad. Cada subred está formada por un rango contiguo de direcciones que no se solapan con las demás subredes de la VCN. Puede cambiar el tamaño de una subred después de la creación. Una subred puede ser pública o privada.
- Gateway de enrutamiento dinámico (DRG)
The DRG is a virtual router that provides a path for private network traffic between VCNs in the same region, between a VCN and a network outside the region, such as a VCN in another OCI region, an on-premises network, or a network in another cloud provider.
- Gateway de servicio
Un gateway de servicios proporciona acceso desde una VCN a otros servicios, como Oracle Cloud Infrastructure Object Storage. El tráfico desde la VCN al servicio Oracle recorre el tejido de red de la Oracle y no atraviesa Internet.
- Oracle Services Network
Oracle Services Network (OSN) es una red conceptual en OCI que está reservada para los Servicios Oracle. Estos servicios tienen direcciones IP públicas a los que puede acceder normalmente a través de Internet. Los hosts externos a Oracle Cloud pueden acceder a OSN de forma privada mediante Oracle Cloud Infrastructure FastConnect o VPN Connect. Los hosts de las redes virtuales en la nube pueden acceder a la OSN de forma privada mediante un gateway de servicio.
- Oracle Autonomous AI Database
Oracle Autonomous AI Database proporciona un base de datos fácil de usar, totalmente autónoma (autogestionada) que puede ampliarse de forma flexible y ofrecer un rendimiento de consultas rápido. Como servicio, no requiere la administración de la base de datos. No necesita configurar ni gestionar ningún hardware ni instalar ningún software. Gestiona automáticamente el aprovisionamiento, las copias de seguridad, la aplicación de parches y la actualización, así como el crecimiento o la reducción de la base de datos y es un servicio flexible. Desarrolla aplicaciones escalables basadas en IA con cualquier dato utilizando capacidades de IA integradas. Utiliza tu elección de modelo de lenguaje grande (LLM) e implementa en la nube o en tu centro de datos.
- Oracle AI Database 26ai
Oracle AI Database 26ai con AI Vector Search te permite consultar datos por significado en lugar de palabras clave. Las representaciones vectoriales (embeddings) capturan la semántica del texto, las imágenes, el audio y más para que pueda encontrar contenido similar de manera eficiente. Las funciones de distancia SQL incorporadas permiten búsquedas de similitud mediante vectores. Puede combinar la similitud semántica y otros criterios de búsqueda para fundamentar modelos de lenguaje grandes (RAG) para obtener respuestas más precisas y relevantes.
- OCI Document Understanding
Oracle Cloud Infrastructure Document Understanding es un servicio de IA que permite realizar análisis de documentos de aprendizaje profundo a escala. Con los modelos predefinidos proporcionados, los desarrolladores pueden crear fácilmente procesamiento de documentos inteligente en sus aplicaciones sin tener experiencia en aprendizaje automático.
- Oracle Digital Assistant
Oracle Digital Assistant es una plataforma que permite crear y desplegar asistentes digitales para los usuarios. Con Oracle Digital Assistant, puedes crear interfaces (o bots conversacionales) basadas en IA para aplicaciones empresariales a través de interfaces de texto, chat y voz. Cada asistente digital cuenta con una recopilación de una o más aptitudes especializadas para ayudar a los usuarios a realizar una variedad de tareas en conversaciones en lenguaje natural. Por ejemplo, un asistente digital individual puede tener aptitudes que se centren en tipos específicos de tareas, como el seguimiento del inventario, el envío de fichas de horas y la creación de informes de gastos.
- Oracle AI Data Platform
Oracle AI Data Platform es una plataforma unificada que simplifica la catalogación, preparación y análisis de datos en todo tu conjunto de datos. Reúne datos, IA, análisis y gobernanza dentro de una experiencia de usuario cohesiva que le permite crear aplicaciones seguras y escalables basadas en IA. Oracle AI Data Platform unifica Autonomous AI Lakehouse, Oracle Analytics Cloud, OCI Object Storage, OCI Generative AI y Fusion Data Intelligence.
En esta plataforma, Oracle AI Data Platform Workbench proporciona un entorno de desarrollo dedicado para que pueda diseñar, orquestar y desplegar pipelines y modelos de datos, definir políticas de RBAC y utilizar tecnologías de código abierto como Spark para preparar, analizar y enriquecer sus datos.
- IA Generativa de OCI
Oracle Cloud Infrastructure Generative AI es un servicio OCI totalmente gestionado que proporciona un conjunto de modelos de lenguaje grandes (LLM) personalizables y de última generación que abarcan una amplia gama de casos de uso para la generación de texto, el resumen, la búsqueda semántica y mucho más. Utiliza el patio de recreo para probar los modelos preentrenados listos para usar, o crea y aloja tus propios modelos personalizados ajustados basados en tus propios datos en clusters de IA dedicados.
- Oracle Integration
Oracle Integration es un entorno preconfigurado y totalmente gestionado que permite integrar aplicaciones en la nube y locales, automatizar procesos de negocio y desarrollar aplicaciones visuales. Utiliza un servidor de archivos compatible con SFTP para almacenar y recuperar archivos y permite intercambiar documentos con partners comerciales de empresa a empresa mediante una cartera de cientos de adaptadores y recetas para conectarse con aplicaciones de Oracle y de terceros.
- OCI Object Storage
OCI Object Storage proporciona acceso a grandes cantidades de datos estructurados y no estructurados de cualquier tipo de contenido, incluidas copias de seguridad en bases de datos, datos analíticos y contenido enriquecido como imágenes y vídeos. Puede almacenar datos de forma segura directamente desde las aplicaciones o desde la plataforma en la nube. Puedes ampliar el almacenamiento sin experimentar ninguna degradación del rendimiento o la fiabilidad del servicio.
Utilice el almacenamiento estandar para el almacenamiento "caliente" al que debe acceder de forma rápida, inmediata y frecuente. Utilice este tipo de almacenamiento para el almacenamiento "frío" que conserva durante largos períodos de tiempo y a los a los que rara vez accede.
Recomendaciones
- VCN
Al crear una VCN, determine el número de bloques CIDR necesarios y el tamaño de cada bloque en función del número de recursos que tenga previsto asociar a las subredes de la VCN. Utilice bloques CIDR que se encuentren dentro del espacio de direcciones IP privadas estándar.
Seleccione bloques CIDR que no se solapen con ninguna otra red (en Oracle Cloud Infrastructure, su centro de datos local u otro proveedor en la nube) en la que desee configurar conexiones privadas.
Después de crear una VCN, puede cambiar, agregar y eliminar sus bloques CIDR.
Al diseñar las subredes, tenga en cuenta los requisitos de seguridad y el flujo de tráfico. Asocie todos los recursos de un nivel o rol específico a la misma subred, lo que puede servir como límite de seguridad.
- Grupos de seguridad de red (NSG)
Puede utilizar los NSG para definir un juego de reglas de entrada y salida que se aplican a VNIC específicas. Recomendamos utilizar NSG en lugar de listas de seguridad, ya que los NSG permiten separar la arquitectura de subred de la VCN de los requisitos de seguridad de la aplicación.
- Cloud Guard
Clone y personalice las recetas por defecto proporcionadas por Oracle para crear recetas personalizadas de detector y responsable de respuesta. Estas recetas le permiten especificar qué tipo de violaciones de seguridad generan una advertencia y qué acciones se pueden realizar en ellas. Por ejemplo, puede que desee detectar cubos de OCI Object Storage que tengan visibilidad definida como pública.
Aplique Oracle Cloud Guard en el nivel de arrendamiento para abarcar el ámbito más amplio y reducir la carga administrativa que supone mantener varias configuraciones.
También puede utilizar la función Managed List para aplicar determinadas configuraciones a los detectores.
- Security Zones
Para los recursos que requieren la máxima seguridad, Oracle recomienda utilizar zonas de seguridad. Una zona de seguridad es un compartimento asociado a una receta de políticas de seguridad definida por Oracle que se basa en las mejores prácticas. Por ejemplo, los recursos de una zona no deben ser accesibles desde la red pública de Internet y deben estar cifrados mediante claves gestionadas por los clientes. Al crear y actualizar recursos en una zona de seguridad, OCI valida las operaciones con respecto a las políticas de la receta y evita las operaciones que violan cualquiera de las políticas.
Consideraciones
Tenga en cuenta las siguientes implantaciones de la arquitectura para las distintas etapas del ciclo de vida del documento:
Inteligencia posterior al archivo:
- Ingestión por lotes de archivos PDF/imágenes históricos en OCI Object Storage.
- OCI Document Understanding se enruta al LLM de texto (por defecto) para el resumen, la clasificación y la extracción de entidades.
- Remita los resultados a la revisión de HITL cuando la confianza del modelo esté por debajo de un umbral definido (por ejemplo, baja confianza en la extracción/clasificación).
- LLM de visión opcional para gráficos o señales visuales.
- Almacene los resultados estructurados (base de datos de IA autónoma/parquet) enrutados a los análisis y la recuperación.
Aceleración de la digitalización:
- Exploraciones enrutadas a OCR y diseño de OCI Document Understanding.
- El LLM de texto normaliza campos, aplica taxonomía y etiqueta metadatos.
- Comparación opcional con LLM de visión para tablas o escritura a mano.
- Remita los resultados a la revisión de HITL cuando la confianza del modelo esté por debajo de un umbral definido (por ejemplo, baja confianza en la extracción/clasificación).
- Persistir e indexar; activar la automatización de búsqueda y descendente.
Análisis transaccional (en tiempo real):
- Los nuevos envíos llegan a OCI Object Storage a través de la API o el portal.
- OCI Document Understanding enrutado a un LLM de texto dentro de SLO de latencia; incluye comprobaciones de fraude/anomalía e integridad.
- Comprobaciones cruzadas mediante Oracle Integration con aprobaciones de puertas de enlace de ERP/OTM.
- HITL solo en excepciones; el resto fluye directamente a través.
Considere las siguientes bases diferentes para enfoques que se pueden adoptar al abordar estos problemas y estrategias de pipeline adicionales para emplear:
- Valor por defecto: OCI Document Understanding envía texto al LLM (como Command-A) para la limpieza y la extracción.
- Ruta de visión: Llama 4 Maverick para una confianza de OCI Document Understanding visualmente pesada o baja.
- Comparación/Consenso (opcional): ejecute OCI Document Understanding con un LLM y OCI Vision; concilie conflictos (reglas de prioridad y validadores de negocio).
- Política de varias páginas y varias imágenes:
- Hasta 10 páginas/imágenes por llamada de Maverick para preservar la continuidad.
- Utilice una ventana deslizante (1–10, 6–15, …) con un indicador de resumen dinámico para reducir tokens y mantener el contexto.
- Manejo de idiomas: ruta basada en la prevalencia del idioma y el soporte de OCI Document Understanding. Pequeños idiomas minoritarios enrutados a la ruta de OCI Vision o reserva de solo texto.
Explorar más
Obtén más información sobre la automatización del proceso de documentos con GenAI, OCI e inicia tu transición a la nube con Oracle.
Revise estos recursos adicionales:
- Oracle ofrece varios procesamientos de documentos con aplicaciones de ejemplo GenAI. Vaya a GitHub.
- Coaching para desarrolladores: detección de modelos multimodales para documentos complejos en el canal YouTube de desarrolladores de Oracle
- Documentación deOracle Cloud Infrastructure
- Marco bien diseñado para Oracle Cloud Infrastructure
- Estimador de costos de Oracle Cloud
- Marco de adopción de la nube

