Visión general de Data Flow

Obtenga más información sobre Data Flow y cómo puede utilizarlo para crear, compartir, ejecutar y ver fácilmente la salida de las aplicaciones de Apache Spark .

Arquitectura de Data Flow que muestra las aplicaciones, bibliotecas y ejecuciones en la capa de usuario. Debajo está la capa de administrador que consta de controles de administrador para políticas de acceso y límites de uso. Debajo está la capa de infraestructura de los recursos informáticos flexibles y el almacenamiento flexible. Por último, la capa de seguridad está formada por la gestión de identidad y la gestión de acceso.

Definición de Oracle Cloud Infrastructure Data Flow

Data Flow es una plataforma sin servidor basada en la nube con una interfaz de usuario enriquecida. Permite a los desarrolladores y a los científicos de datos de Spark crear, editar y ejecutar trabajos de Spark a escala sin necesidad de disponer de clusters, de un equipo de operaciones o de conocimientos de Spark altamente especializados. No tener servidor significa que no hay ninguna infraestructura que desplegar o gestionar. La controlan completamente las API de REST, lo que permite una integración sencilla con aplicaciones o flujos de trabajo. Puede controlar Data Flow mediante esta API de REST. Puede ejecutar Data Flow desde la CLI, ya que los comandos de Data Flow están disponibles como parte de la interfaz de línea de comandos de Oracle Cloud Infrastructure. Puede:

  • Conecte a orígenes de datos de Apache Spark.

  • Cree aplicaciones Apache Spark reutilizables.

  • Inicie los trabajos de Apache Spark en segundos.

  • Cree aplicaciones Apache Spark mediante SQL, Python, Java, Scala o spark-submit.

  • Gestione todas las aplicaciones Apache Spark desde una sola plataforma.

  • Procese los datos en la nube o en la ubicación local en su centro de datos.

  • Cree bloques de creación de big data que pueda ensamblar fácilmente en aplicaciones de big data avanzadas.

Hay un cuadro que representa Data Flow Spark a demanda desde la que una flecha con la etiqueta Datos procesados baja hasta Object Storage. Debajo de Object Storage hay otros dos cuadros con una flecha de cada uno a él. Un cuadro representa las aplicaciones Spark, el otro representa los datos sin formato. Existen dos flechas que muestran el flujo de aplicaciones Spark y datos no procesados de Object Storage a Data Flow Spark a demanda.