Visión general de Data Integration

Los administradores, los ingenieros de datos, los desarrolladores de ETL y los operadores se encuentran entre los diferentes tipos de profesionales de datos que utilizan Oracle Cloud Infrastructure Data Integration.

Puede desempeñar uno o más de los siguientes roles:

  • Administradores: supervise y gestione políticas de seguridad y gestión del ciclo de vida del servicio.
  • InGENIEROS DE DATOS Y DESARROLLADORES DE ETL: permite desarrollar, crear y realizar pruebas de soluciones de integración de datos.
  • Operadores: gestionar, supervisar y diagnosticar ejecuciones de integración de datos.
Consejo

Vea una introducción en vídeo al servicio.

Acerca del servicio

Antes de empezar, el administrador debe cumplir los requisitos de conectividad para que el servicio Data Integration pueda establecer una conexión a los orígenes de datos. A continuación, el administrador crea Espacios de trabajo y le otorga acceso a estos. Utilice espacios de trabajo para mantener organizados y gestionar fácilmente diferentes entornos de integración de datos.

Para cada solución de integración de datos, registre activos de datos para identificar los orígenes de datos de origen y destino que se utilizarán. Cuando esté listo para empezar a diseñar una solución de integración de datos, Data Integration proporciona tareas del cargador de datos e integración.

Para crear una tarea de integración, comience con un flujo de datos. El diseñador de Data Integration es una interfaz gráfica de usuario fácil de usar en la que puede seleccionar entre diferentes operadores y crear visualmente el flujo de datos. Incluye funciones de validación y depuración para ayudarle a identificar y corregir posibles incidencias antes de ejecutar la tarea.

Al crear una tarea del cargador de datos, especifique el activo de datos de origen y, a continuación, configure las transformaciones para limpiar y procesar los datos a medida que se carga en el activo de datos de destino.

Para ejecutar un juego específico de procesos en una secuencia o en paralelo de principio a fin, debe crear un pipeline. El diseño de un pipeline es similar a la creación de un flujo de datos, donde se utilizan operadores para agregar las tareas y las actividades que desee. Después de crear un pipeline, debe crear una tarea de pipeline que utilice el pipeline.

Después de crear tareas, publíquelas en la aplicación por defecto en Data Integration o en una aplicación que cree. En una aplicación, puede ejecutar tareas y supervisar su progreso y estado. También puede programar tareas para ejecuciones automatizadas.

Conceptos de Data Integration

A continuación se muestra una lista de conceptos que le resultaría útil conocer al utilizar el servicio Data Integration:

Espacio de trabajo
Contenedor para todos los recursos de Data Integration, como proyectos, carpetas, activos de datos, tareas, flujos de datos, pipelines, aplicaciones y programas asociados a una solución de integración de datos.
Proyecto
Contenedor para recursos de tiempo de diseño, como tareas o flujos de datos y pipelines.
Carpeta
Contenedor dentro de un proyecto u otra carpeta para organizar recursos de tiempo de diseño.
Activo de datos
Representa un origen de datos, como una base de datos, un almacén de objetos, un archivo o un almacén de documentos que contiene los metadatos y detalles de conexión del origen de datos.
Conexión
Incluye los detalles necesarios para establecer una conexión con un origen de datos. Una conexión siempre está asociada a un activo de datos. Un activo de datos puede tener más de una conexión.
Entidad de datos
Recopilación de datos, como una tabla o una vista de base de datos, o un único archivo lógico, con varios atributos que describen los datos.
Esquema
Recopilación de entidades de datos dentro de un activo de datos.
Flujo de datos
Recurso de tiempo de diseño que define el flujo de datos y todas las operaciones en los datos entre los sistemas de origen y de destino. Para ejecutar un flujo de datos, agregue el flujo de datos a una tarea de integración.
Pipeline
Un recurso en tiempo de diseño para organizar tareas y actividades en una secuencia o en paralelo y facilitar un proceso de principio a fin. Para ejecutar un pipeline, agregue el pipeline a una tarea de pipeline.
Operador
Un operador representa un origen de entrada o un destino de salida, o una transformación en un flujo de datos. En un pipeline, un operador representa un tiempo de diseño o una tarea publicada, o una actividad como una fusión, decisión y finalización.
Parámetro
Tipo de variable que puede asignar a los detalles de un operador para poder reutilizar el diseño del pipeline o del flujo de datos con diferentes recursos y valores. Al utilizar parámetros y definir valores por defecto durante el tiempo de diseño, puede cambiar los valores más tarde, ya sea en tareas que encapsulan el flujo de datos o el pipeline, o cuando ejecuta las tareas.
Tarea
Recurso de tiempo de diseño que especifica un juego de acciones que realizar en los datos. Puede crear tareas del cargador de datos, tareas de integración para flujos de datos y tareas de pipeline para pipelines. También puede crear tareas de SQL y tareas de OCI Data Flow. Para ejecutar una tarea, debe publicar la tarea en una aplicación para probarla o desplegarla en producción.
Aplicación
Contenedor para artefactos de tiempo de ejecución, como las tareas que se han publicado junto con sus dependencias. Puede utilizar las aplicaciones para las pruebas y, finalmente, desplegarlas en producción.
Parche
Actualización de una aplicación. Al publicar una sola tarea o un grupo de tareas, o al anular la publicación de una tarea, estas actividades se registran como parches en una aplicación. Al crear una aplicación (destino) realizando una copia de los recursos existentes en otra aplicación (origen), se agrega un parche a la aplicación (destino). En los refrescamientos posteriores de la aplicación de destino mediante la sincronización con los cambios de la aplicación de origen, también se crea un parche en la aplicación (destino).
Ejecución
Artefacto de tiempo de ejecución que representa la ejecución de una tarea.
Programa
Un recurso de tiempo de ejecución que define cuándo y con qué frecuencia se ejecutan automáticamente las tareas publicadas.
Programa de la tarea
Recurso de tiempo de ejecución asociado a una tarea publicada específica y un programa existente para definir cuándo y con qué frecuencia se ejecuta la tarea automáticamente.

Arquitecturas de referencia

Obtenga información sobre las arquitecturas de referencia disponibles para ayudarle a aprender a utilizar Oracle Cloud Infrastructure Data Integration.

Las arquitecturas de referencia son arquitecturas, configuraciones y mejores prácticas para realizar implementaciones en Oracle Cloud Infrastructure. Están disponibles en el Centro de arquitectura de Oracle.

En la página principal del centro de arquitectura, introduzca OCI Data Integration en el campo de búsqueda y pulse Intro.

A continuación se muestran algunos ejemplos de arquitecturas de referencia que puede encontrar:

Formas de acceder a Oracle Cloud Infrastructure

Puede acceder a Oracle Cloud Infrastructure mediante la consola (una interfaz basada en explorador) o la API de REST.

Se incluyen instrucciones para la consola y la API de Data Integration en los temas de esta guía. Para obtener una lista de los SDK disponibles, consulte SDK y la CLI (Software Development Kits and Command Line Interface).

Para acceder a la consola, debe utilizar un explorador soportado. Consulte Exploradores soportados. En el menú de navegación de la parte superior de esta página de ayuda, puede utilizar el enlace Oracle Cloud Console para ir a la página de conexión. Se le solicitará que introduzca un nombre de cuenta en la nube o un arrendamiento. Si se le solicita un dominio de identidad, en la mayoría de los casos déjelo en Valor por defecto y, a continuación, introduzca un nombre de usuario y una contraseña.

Identificadores de recursos

La mayoría de los tipos de recursos de Oracle Cloud Infrastructure tienen un identificador único asignado por Oracle denominado ID de Oracle Cloud (OCID).

Para obtener información sobre el formato del OCID y otras formas de identificar los recursos, consulte Identificadores de recursos.

Cuotas y límites de servicio

Límites de servicio

Data Integration limita al usuario a cinco espacios de trabajo por región.

Cuotas de compartimento

Puede limitar el número de recursos de espacio de trabajo de un compartimento creando un límite de cuota. Por ejemplo:

set data-integration quota dis-workspace-count to 3 in compartment <compartment_name>

Tiempo de Retención

Data Integration conserva los espacios de trabajo suprimidos y con fallos durante 15 días. Después de 15 días, los espacios de trabajo se eliminan permanentemente.

Servicios integrados

Data Integration se integra con diversos servicios y funciones de Oracle Cloud Infrastructure.

Identity and Access Management (IAM)

Data Integration se integra con el servicio OCI IAM con dominios de identidad para la autenticación y la autorización en todas las interfaces (consola, SDK, CLI y API de REST).

Un administrador configura los grupos, los compartimentos y las políticas. Las políticas controlan quién puede crear usuarios, crear y gestionar la red en la nube, iniciar instancias, crear cubos, descargar objetos, etc.

Si es un usuario normal, no un administrador, que tiene que utilizar los recursos de Oracle Cloud Infrastructure que posee la compañía, pida al administrador que configure su identificador de usuario. El administrador puede confirmar qué compartimento o compartimentos puede utilizar.

El administrador puede crear políticas comunes para autorizar a los usuarios de Data Integration. También puede crear Políticas de Data Integration para controlar el acceso del usuario al servicio Data Integration.

Solicitudes de trabajo

Data Integration no se integra con la API de solicitudes de trabajo común. Data Integration utiliza su propia API de solicitudes de trabajo. Consulte WorkRequest Reference.

Explorador del arrendamiento

El explorador del arrendamiento permite ver todos los recursos de un compartimento específico en todas las regiones. El explorador del arrendamiento está basado en el servicio de búsqueda y soporta el tipo de recurso de Data Integration, workspace.

Supervisión

Oracle Cloud Infrastructure Monitoring le permite supervisar de forma activa y pasiva los recursos de Data Integration mediante métricas y alarmas. Las Métricas de Data Integration capturan el número de bytes leídos, de bytes escritos, de ejecuciones de tareas activas, de ejecuciones de tareas correctas y de ejecuciones de tareas fallidas.

Acerca de la seguridad de datos

Además del control y la transparencia que obtiene con la seguridad de Oracle Cloud Infrastructure, el servicio Data Integration también maneja los datos con cuidado.

El aislamiento del cliente de Oracle Cloud Infrastructure garantiza que cada espacio de trabajo de Data Integration que se crea tiene su propia instancia informática reservada. Un espacio de trabajo está aislado de otros espacios de trabajo dentro del mismo arrendamiento, y de otros arrendamientos. Data Integration no almacena ningún dato en esta instancia informática más allá de las ejecuciones de tareas para garantizar la seguridad de los datos.

Data Integration utiliza el servicio Vault de Oracle Cloud Infrastructure para almacenar y cifrar información confidencial, como contraseñas, archivos de cartera para activos de datos e información de conexión como secretos. Se accede a los esquemas y las entidades de datos en tiempo real cuando es necesario. Cuando se carga un ejemplo de datos en el separador Datos de un flujo de datos o para configurar transformaciones en la tarea del cargador de datos, los datos se cargan desde la entidad de datos en tiempo real.

Asigne solo los privilegios necesarios a las cuentas que se utilizan para dataintegration. Por ejemplo, la integración de datos solo requiere acceso de lectura para la introducción de datos de activos de datos.

Para obtener más información, consulte:

Actividades habituales del usuario de Data Integration

Estas son algunas de las actividades que probablemente realice como usuario de Data Integration.

Actividad Descripción
Acceso o Creación de Espacios de Trabajo Acceder o crear un área de trabajo para los proyectos de Data Integration y sus recursos (activos de datos, flujos de datos, tareas, etc.)
Creación de un activo de datos Registre los orígenes de datos con los que trabaja como activos de datos de Data Integration.
Creación de una Conexión Agregue nuevas conexiones a activos de datos
Uso de proyectos y carpetas

Cree proyectos y carpetas para organizar los artefactos de tiempo de diseño

Crear un proyecto copiando un proyecto existente

Creación de un flujo de datos Diseñe un flujo de datos
Creación de un pipeline Diseñe un pipeline

Creación de una tarea de integración (para un flujo de datos)

Creación de una tarea del cargador de datos

Creación de una tarea de SQL

Creación de una tarea de OCI Data Flow

Creación de una tarea de REST

Creación de una tarea de pipeline (para un pipeline)

Cree tareas
Creación de Aplicaciones

Cree una aplicación para ejecutar y programar tareas:

  • Crear una aplicación en blanco (sin tareas de ejemplo predefinidas)
  • Crear una aplicación mediante una plantilla
  • Creación de una Aplicación mediante una Copia de una Aplicación Existente
Tareas de diseño de publicación Publique tareas en las aplicaciones para realizar pruebas y ejecutarlas

Ejecución de una tarea

Visualización de ejecuciones de tareas

Supervisión de una aplicación

Ejecute tareas y, a continuación, supervise su progreso.
Programación de tareas publicadasCree un programa y programas de tarea para automatizar las ejecuciones
Supervisión de un espacio de trabajoSupervise un espacio de trabajo

Uso de la página Visión general de Data Integration de la consola

Cuando accede a Data Integration en la consola y selecciona Visión general, aparece la página Visión general de Data Integration.

La página Visión general proporciona información sobre funciones, enlaces para ayudarle a empezar a utilizar el servicio y recursos para utilizar Data Integration de forma eficaz.