Identificar conexiones de datos y realizar análisis de gráficos mediante Oracle Autonomous Database

Las bases de datos de gráficos y el análisis de gráficos forman parte integral de la oferta de bases de datos convergentes de Oracle. El uso de las capacidades de gráficos incorporadas en Oracle Database elimina la necesidad de una base de datos independiente y de un único uso y la replicación de los datos. Los analistas y desarrolladores pueden realizar análisis completos para encontrar conexiones en los datos que ofrecen estadísticas como las tendencias de los clientes o la detección de fraudes, o bien mejorar la trazabilidad en la fabricación inteligente. Pueden realizar estos análisis a la vez que obtienen seguridad de nivel empresarial, facilidad de ingestión de datos y soporte para varios tipos de cargas de trabajo de datos.

Oracle Autonomous Database (ADB) proporciona una herramienta de autoservicio de aprovisionamiento integrada con un solo clic denominada Graph Studio que automatiza y simplifica el modelado, la gestión, el análisis y la visualización de gráficos durante el ciclo de vida de los datos. Graph Studio proporciona acceso a un conjunto completo de análisis de gráficos, que incluye más de 60 algoritmos de gráficos predefinidos y un lenguaje declarativo similar a SQL denominado Property Graph Query Language (PGQL). Graph Studio soporta blocs de notas, que permiten a los entusiastas y desarrolladores de datos realizar un análisis paso a paso al utilizar un motor de análisis de gráficos en memoria (PGX) para obtener el máximo rendimiento.

Los gráficos son una forma muy intuitiva de modelar datos y centrarse en las conexiones entre entidades de datos, ya que la mayoría de los datos están conectados. Los gráficos facilitan la navegación entre entidades de datos conectadas, exploran enlaces y extraen nuevas conclusiones. Los componentes principales de los gráficos son vértices (o nodos) y bordes, que conectan dos vértices. Ejemplos típicos de gráficos son redes sociales, flujos de dinero, listas de materiales o linajes de datos.

En la siguiente imagen de ejemplo, se muestra cómo el análisis de gráficos resulta adecuado para identificar el fraude en las transacciones financieras.


Descripción de Graph-analysis-example.png a continuación
Descripción de la ilustración Graph-analysis-example.png

Para simplificar la detección de fraudes, puede crear un gráfico a partir de transacciones entre entidades y entidades que comparten información, incluidas las direcciones de correo electrónico, contraseñas, direcciones, etc. Una vez creado un gráfico, la ejecución de una consulta simple encontrará todos los clientes con cuentas con información similar y revelará qué cuentas están enviando dinero entre sí.

Para obtener más información y ejemplos típicos de gráficos, consulte eBook "17 casos de uso para bases de datos de gráficos y análisis de gráficos". Puede encontrarlo en la sección "Explorar más" al final de esta arquitectura de referencia.

Para descubrir nuevas estadísticas a partir de relaciones complejas en los datos, puede:
  • Ejecutar algoritmos de gráficos

    Los algoritmos de gráficos analizan las rutas y distancias entre vértices, la importancia de los vértices o la agrupación en clusters de vértices. Son beneficiosos para:

    • Detección de comunidades (por ejemplo, Louvain, propagación de etiquetas)
    • Detección de componentes conectados (por ejemplo, componentes totalmente conectados, componentes débilmente conectados)
    • Evaluación de estructuras (por ejemplo, detección de ciclos, recuento de triángulos, accesibilidad)
    • Predicción de enlaces (p. ej., de quién seguir), clasificación y caminar nodos en un gráfico (p. ej., PageRank, centralidad de grado, centralidad de proximidad, SALSA)
    • Rutas de búsqueda (p. ej., Bellman-Ford, Dijkstra, Fattest Path, Hopistance)
  • Ejecutar consultas de coincidencia de patrones de gráficos

    Las consultas de coincidencia de patrones de gráficos pueden detectar patrones como ciclos o dependencias indirectas entre vértices y bordes que coincidan con un juego especificado de restricciones.

Arquitectura

En esta arquitectura se utiliza Oracle Autonomous Data Warehouse como un almacén de datos centralizado con datos cargados y curados desde varios repositorios de empresa y orígenes de datos departamentales.

A continuación, utiliza Graph Studio para modelar datos como gráficos. La interfaz integrada de bloc de notas de Graph Studio con intérpretes para Java, PGQL y Python le permite ejecutar rápidamente algoritmos de gráficos, gráficos de consulta y visualizar resultados. Esta arquitectura de referencia le ayuda a empezar con gráficos y crea un entorno de prácticas para el análisis de gráficos sin necesidad de herramientas o componentes de software adicionales. Puede trabajar con gráficos que contienen millones de vértices y bordes, incluidas sus propiedades.

El siguiente diagrama es una representación funcional de la arquitectura de referencia.



propertygraph-analysis-arch-oracle.zip

Esta representación funcional se centra en las siguientes divisiones lógicas:
  • Refinería de datos

    Introduce y acota los datos para utilizarlos en cada una de las capas de datos de la arquitectura. La forma está destinada a ilustrar las diferencias en los costes de procesamiento para almacenar y refinar datos en cada nivel y mover datos entre ellos.

  • Plataforma de persistencia de datos (capa de información personalizada)

    Facilita el acceso y la navegación de los datos para mostrar la vista de negocio actual. Esta capa permite crear vistas de gráficos o estructuras de gráficos persistentes a partir de datos relacionales.

  • Acceso e interpretación

    Resume la vista lógica de negocio de los datos para los consumidores. Esta abstracción facilita enfoques ágiles del análisis de datos, proporcionando una única capa de análisis para sus datos seleccionados.

La arquitectura tiene los siguientes componentes:

  • Integración de datos

    Oracle Autonomous Database dispone de las herramientas incorporadas necesarias para adquirir, cargar y transformar los datos en muchos escenarios departamentales y casos de uso avanzados específicos. Autonomous Data Warehouse incluye la capacidad de cargar datos desde el almacenamiento local o de objetos rápidamente. También se incluyen las transformaciones de datos autónomas, lo que le permite conectarse a datos de muchos tipos de origen diferentes y acceder a la funcionalidad de tipo EL-T.

    El servicio Oracle Cloud Infrastructure Data Integration Cloud está destinado a casos de uso más avanzados. Se trata de un servicio en la nube nativo totalmente gestionado, sin servidor. El servicio permite diseñar y realizar tareas para extraer, cargar y transformar datos (ETL) de diferentes orígenes.

  • Object Storage

    Oracle Cloud Infrastructure Object Storage es una plataforma de almacenamiento en Internet de alto rendimiento que ofrece durabilidad de datos fiable y rentable. Oracle Cloud Infrastructure Object Storage puede almacenar una cantidad ilimitada de datos no estructurados de cualquier tipo de contenido, incluidos los datos analíticos. Por ejemplo, puede recuperar de forma segura los datos de departamento y retenerlos en un cubo de Object Storage. A continuación, puede utilizar las herramientas de carga de datos de Autonomous Database para cargar datos de un cubo en Autonomous Database.

  • Autonomous Database (ADW, ATP)

    Oracle Autonomous Database es un servicio de base de datos autogestionado, autoprotegido y autoreparable optimizado para cargas de trabajo de almacenamiento de datos. No necesita configurar ni gestionar ningún hardware ni instalar ningún software. Oracle Cloud Infrastructure gestiona la creación de la base de datos y las copias de seguridad, la aplicación de parches, la actualización y el ajuste de la base de datos. Con Autonomous Data Warehouse, puede cargar datos en varios formatos, incluidos los estructurados, JSON, XML, Graph y Spatial. Con este servicio se agrupan las herramientas autónomas que permiten cargar datos en tablas y ETL ligero funciona de manera eficiente.

  • Graph Studio

    Graph Studio es una función de Oracle Autonomous Database en una infraestructura compartida. Está integrado en Autonomous Transactional Processing (ATP) y Autonomous Data Warehouse (ADW). Proporciona herramientas para desarrolladores, analistas, ingenieros de datos y científicos de datos que trabajan con gráficos.Graph Studio contiene una interfaz de usuario con poco código que automatiza los gráficos de modelado de gráficos de las tablas relacionales existentes en el almacén de datos, realizando análisis de gráficos, desarrollando aplicaciones de gráficos y visualizando y compartiendo resultados. La combinación de Autonomous Database y Graph Studio proporciona una plataforma de base de datos de gráficos completa que se puede desplegar en minutos con aprovisionamiento con un solo clic, herramientas integradas y seguridad. No es necesario que sea un experto en bases de datos o un especialista en gráficos para comenzar y ser productivo.

En el siguiente diagrama se muestra una asignación de la arquitectura anterior a los servicios proporcionados en Oracle Cloud Infrastructure mediante las mejores prácticas en materia de seguridad.


A continuación se muestra la descripción de oci-adb-graph-studio-arch.png
Descripción de la ilustración oci-adb-graph-studio-arch.png

oci-adb-graph-studio-arch-oracle.zip

Esta arquitectura de referencia tiene los siguientes componentes principales:

  • Red virtual en la nube (VCN) y subred

    Una VCN es una red personalizable definida por software que se configura en una región de Oracle Cloud Infrastructure. Al igual que las redes de centros de datos tradicionales, las VCN le proporcionan un control total de su entorno de red. Una VCN puede tener varios bloques CIDR no superpuestos que puede cambiar después de crear la VCN. Puede segmentar una VCN en subredes que se pueden acotar a una región o a un dominio de disponibilidad. Cada subred está formada por un rango contiguo de direcciones que no se solapan con las demás subredes de VCN. Puede cambiar el tamaño de una subred después de la creación. Una subred puede ser pública o privada.

  • Dominio de disponibilidad

    Los dominios de disponibilidad son centros de datos independientes dentro de una región. Los recursos físicos de cada dominio de disponibilidad están aislados de los recursos de los otros dominios de disponibilidad, lo que proporciona tolerancia a fallos. Los dominios de disponibilidad no comparten una infraestructura tal como la alimentación, la refrigeración o la red interna del dominio de disponibilidad. Por tanto, es poco probable que un fallo en un dominio de disponibilidad afecte a los otros dominios de disponibilidad de la región.

  • Host bastión

    El host bastión es una instancia informática que sirve como punto de entrada seguro y controlado a la topología desde fuera de la nube. El host bastión se aprovisiona, por lo general, en una zona demilitarizada (DMZ). Le permite proteger los recursos sensibles, ya que los coloca en redes privadas a las que no se puede acceder directamente desde fuera de la nube. La topología tiene un único punto de entrada conocido que puede supervisar y auditar con regularidad. Por lo tanto, puede evitar exponer los componentes más sensibles de la topología sin comprometer el acceso.

  • Gateway de traducción de direcciones de red (NAT)

    Un gateway de NAT permite que los recursos privados en una VCN accedan a los hosts en Internet, sin exponer dichos recursos a las conexiones de Internet entrantes.

  • Gateway de Internet

    El gateway de Internet permite el tráfico entre las subredes públicas de una VCN y la red pública de Internet.

  • Gateway de servicio

    El gateway de servicios proporciona acceso desde una VCN a otros servicios, como Oracle Cloud Infrastructure Object Storage. El tráfico desde la VCN al servicio Oracle recorre el tejido de red de Oracle y no internet.

  • Autonomous Database con ampliación automática

    En esta arquitectura, Oracle Autonomous puede ser Autonomous Data Warehouse (ADW) o Autonomous Transactional Processing (ATP) configurados con escala automática y punto final privado. Se utiliza para almacenar datos específicos de la aplicación, así como para crear, mantener, consultar y visualizar gráficos. Una lista de control de acceso (ACL) limita el acceso de red a Autonomous Database. Tiene un usuario de aplicación creado previamente con los derechos necesarios otorgados para desarrollar y mantener gráficos y utilizar Graph Studio como herramienta embebida de Autonomous Database. Los datos de ejemplo se cargan previamente en el esquema de usuario de la base de datos para tener un inicio sencillo con Graph Studio.

Recomendaciones

Utilice las siguientes recomendaciones como punto de partida para crear una plataforma que le permita recorrer los datos a lo largo de todo el ciclo de vida del análisis de gráficos. Sus requisitos pueden ser diferentes de la arquitectura descrita aquí.
  • Refinería de datos

    Las herramientas de Autonomous Database son funciones integradas en Oracle Autonomous Data Warehouse que proporcionan las capacidades para cargar, transformar, catalogar, obtener estadísticas e incluso desarrollar modelos de negocio de una forma sencilla y directa.

  • Graph Studio
    Antes de conectarse a Graph Studio, recomendamos:

Consideraciones

Al cargar y configurar datos de varias bases de datos y orígenes de archivos en un almacén de datos centralizado activado para el análisis de gráficos, tenga en cuenta las siguientes opciones de implantación:

Guía Refinería de datos Plataforma de persistencia de datos Acceso e interpretación
Recomendada Herramientas de Oracle Autonomous Database Oracle Autonomous Database (ADW o ATP) Oracle Graph Studio
Otras opciones
  • Integración de datos de Oracle Cloud Infrastructure
  • Oracle GoldenGate Cloud Service
  • 3a fiesta
  • Oracle Autonomous Database - Infraestructura dedicada
  • Oracle Database Cloud Service
  • Oracle Database Exadata Cloud Service
  • Servidor y clientes de Oracle Graph desplegados en Compute
  • Oracle Analytics Cloud
Al crear un entorno de análisis de gráficos junto con su almacén de datos en la nube, tenga en cuenta las siguientes opciones de implantación:
  • Gravedad de datos:

    Mantenga sus operaciones de análisis de gráficos cerca de sus datos para limitar el alto costo de movimiento de datos.

Despliegue

El código de Terraform de esta arquitectura de referencia está disponible como una pila de ejemplo en Oracle Cloud Infrastructure Resource Manager. También puede descargar el código desde GitHub y personalizarlo para adaptarlo a sus necesidades específicas.

  • Realice el despliegue con la pila de ejemplo en Oracle Cloud Infrastructure Resource Manager:
    1. Haga clic en Despliegue en Oracle Cloud.

      Si aún no ha iniciado sesión, introduzca el arrendamiento y las credenciales de usuario.

    2. Seleccione la región en la que desea desplegar la pila.
    3. Siga las indicaciones en pantalla e instrucciones para crear la pila.
    4. Después de crear la pila, haga clic en Acciones de Terraform y seleccione Plan.
    5. Espere a que se complete el trabajo y revise el plan.

      Para realizar cambios, vuelva a la página Detalles de pila, haga clic en Editar pila y realice los cambios necesarios. A continuación, vuelva a ejecutar la acción Plan.

    6. Si no es necesario realizar más cambios, vuelva a la página Detalles de pila, haga clic en Acciones de Terraform y seleccione Aplicar.
  • Desplegar con el código de Terraform en GitHub:
    1. Vaya a GitHub.
    2. Clone o descargue el repositorio en su equipo local.
    3. Siga las instrucciones del documento README.

Explorar más

Revise los siguientes recursos para obtener más información sobre las funciones de esta arquitectura.

Confirmaciones

  • Authors: Karin Patenge, Neelima Tadikonda, Jayant Sharma, Rahul Tasker, Jesus Vizcarra
  • Contributors: Hans Viehmann, Diego Ramirez