Uso de blocs de notas para conectarse a Data Flow

Puede conectarse a Data Flow y ejecutar una aplicación Apache Spark desde una sesión de bloc de notas de Data Science. Estas sesiones le permiten ejecutar cargas de trabajo interactivas de Spark en un cluster de Data Flow de larga duración mediante una integración de Apache Livy.

Data Flow utiliza blocs de nota de Jupyter totalmente gestionados para permitir a los científicos de dato e ingenieros de dato crear, visualizar, colaborar y depurar aplicaciones, de ingeniería de dato y ciencia de dato. Puede escribir estas aplicaciones en Python, Scala y PySpark. También puede conectar una sesión del bloc de notas deData Science a Data Flow para ejecutar aplicaciones. Los núcleos y aplicaciones de Data Flow se ejecutan en Oracle Cloud Infrastructure Data Flow. Data Flow es un servicio Apache Spark totalmente gestionado que realiza tareas de procesamiento en conjuntos de datos extremadamente grandes, sin necesidad de desplegar ni gestionar infraestructura. Para obtener más información, consulte la documentación de Data Flow.

Apache Spark es un sistema informático distribuido diseñado para procesar datos a escala. Soporta SQL a gran escala, el procesamiento por lotes y de flujos, y tareas de Machine Learning. Spark SQL proporciona soporte similar a una base de datos. Para consultar datos estructurados, utilice Spark SQL. Se trata de una implantación de SQL estándar ANSI.

Data Flow es un servicio de Apache Spark totalmente gestionado que realiza tareas de procesamiento de juegos de datos de gran tamaño sin infraestructura que desplegar ni gestionar. Puede utilizar Spark Streaming para realizar ETL en la nube en sus datos de transmisión producidos continuamente. Permite una entrega rápida de aplicaciones porque puede centrarse en el desarrollo de aplicaciones, no en la gestión de la infraestructura.

Apache Livy es una interfaz de REST para Spark. Envíe trabajos de Spark tolerantes a fallos desde el bloc de notas mediante métodos síncronos y asíncronos para recuperar la salida.

SparkMagic permite la comunicación interactiva con Spark mediante Livy. Utilizando la directiva mágica `%%spark` dentro de una celda de código de JupyterLab. Los comandos SparkMagic se pueden utilizar para Spark 3.2.1 y el entorno conda de Data Flow.

Las sesiones de Data Flow soportan las capacidades de cluster de escala automática de Data Flow. Para obtener más información, consulte Ampliación automática en la documentación de Data Flow. Las sesiones de Data Flow soportan el uso de entornos conda como entornos de tiempo de ejecución de Spark personalizables.

Un bloc de apuntes de Data Science utiliza Spark Magic para enviar solicitudes a Data Flow mediante las API NotebookSession para ejecutar código Spark en un servidor de Data Flow.

Limitaciones

Las sesiones de Data Flow duran hasta 7 días o 10 080 minutos (maxDurationInMinutes).
Las sesiones de Data Flow tienen un valor de timeout de inactividad por defecto de 480 minutos (8 horas) (idleTimeoutInMinutes). Puede configurar un valor diferente.
La sesión de Data Flow solo está disponible a través de una sesión de Data Science Notebook.
Solo está soportada la versión 3.2.1 de Spark.

Consejo

Vea el vídeo de tutorial sobre el uso de Data Science con Data Flow. Consulte también la documentación del SDK de Oracle Accelerated Data Science para obtener más información sobre la integración de Data Science y Data Flow.

Documentación de Oracle Cloud Infrastructure

Uso de blocs de notas para conectarse a Data Flow