Conceptos de Data Flow

Es esencial comprender estos conceptos para utilizar Data Flow.

Aplicaciones de flujo de datos
Una aplicación es una plantilla de aplicación de Spark que puede utilizar infinitamente, que consiste en una aplicación de Spark, sus dependencias, los parámetros por defecto y una especificación de recurso de tiempo de ejecución por defecto. Después de que un desarrollador crea una aplicación de Data Flow, cualquier usuario puede utilizarla sin preocuparse por las complejidades de desplegarla, configurarla o ejecutarla.
Biblioteca de Data Flow
La biblioteca es el repositorio central de las aplicaciones de Data Flow. Cualquiera puede examinar, buscar y ejecutar aplicaciones publicadas en la biblioteca, si se dispone de los permisos correctos en el sistema Data Flow.
Ejecuciones de flujo de datos
Cada vez que se ejecuta una aplicación de Data Flow se crea una ejecución. La ejecución de Data Flow captura la salida, los logs y las estadísticas de la aplicación que se almacenan de forma automática y segura. La salida se guarda para que cualquier usuario pueda verla si tiene los permisos correctos mediante la interfaz de usuario o la API de REST. Las ejecuciones le proporcionan un acceso seguro a la interfaz de usuario de Spark para la depuración y el diagnóstico.
Pools de Data Flow
Un pool de flujos de datos es un grupo preconfigurado de recursos informáticos que se puede utilizar para ejecutar varias cargas de trabajo de datos y aprendizaje automático de Spark, incluidos lotes, flujos e interactivos. Los pools de flujos de datos se pueden utilizar en muchas cargas de trabajo por lotes, de flujo y de sesión de Data Flow por varios usuarios al mismo tiempo en el mismo inquilino.
Recursos informáticos flexibles
Cada vez que ejecuta una aplicación de Data Flow, decide el tamaño que desea que tenga. Data Flow asigna sus máquinas virtuales, ejecuta el trabajo, captura de forma segura toda la salida y cierra el cluster. No tiene que mantener nada en el flujo de datos. Los clusters solo se ejecutan cuando hay un trabajo real que hacer.
Almacenamiento flexible
Data Flow funciona con el servicio Oracle Cloud Infrastructure Object Storage. Para obtener más información, consulte Visión general de Object Storage.
Red Privada
Puede configurar la aplicación de Data Flow para acceder a los orígenes de datos alojados en redes privadas. Debe crear un punto final privado para que lo utilice su aplicación, si no existe ninguno.
Seguridad
Data Flow está integrado con Oracle Cloud Infrastructure Identity and Access Management (IAM) para la autenticación y autorización. Las aplicaciones de Spark se ejecutan en nombre de la persona que las inicia. Esto significa que la aplicación de Spark tiene los mismos privilegios que tiene el usuario final. No necesita utilizar credenciales para acceder a ningún sistema compatible con IAM. Además, Data Flow aprovecha todos los demás atributos de seguridad de Oracle Cloud Infrastructure, incluido el cifrado transparente de los datos estáticos y en movimiento.
Administrador del servicio
Consulte About Service Administrator Roles para obtener más información sobre los roles de administrador.
Administrador de cuenta
El administrador de cuentas crea una cuenta para cada usuario que necesite acceder al servicio.
Controles de Administrador
Data Flow le permite definir los límites del servicio y crear administradores que tengan control total sobre todas las aplicaciones y ejecuciones. Usted tiene el control independientemente del número de usuarios que tenga.
Apache Spark
Apache Spark es un motor de análisis unificado para el procesamiento de big data, con módulos integrados para flujo, SQL, Machine Learning y procesamiento de gráficos.
Aplicación Spark
Una aplicación de Spark utiliza la API de Spark para realizar tareas de procesamiento de datos distribuidos. Las aplicaciones Spark se pueden escribir en varios lenguajes, entre otros, Java y Python. Las aplicaciones Spark se manifiestan como archivos tales como archivos JAR que se ejecutan en el marco de Spark.
IU de Spark
La interfaz de usuario de Spark se incluye con Apache Spark y es una herramienta importante para depurar y diagnosticar las aplicaciones Spark. Puede acceder a la interfaz de usuario de Spark para cualquier ejecución de Data Flow, según las políticas de autorización de la ejecución.
Logs de Spark
Spark genera archivos de log de Spark útiles para la depuración y el diagnóstico. Cada ejecución de Data Flow almacena automáticamente los archivos log a los que puede acceder mediante la interfaz de usuario o la API, según las políticas de autorización de la ejecución.
Logs mejorados
Logs de controlador y ejecutor, tanto StdOut como StdErr, proporcionados por Oracle Cloud Infrastructure Logging. opcional si los utiliza.