Documentación de Oracle Cloud Infrastructure


Visión general

El primer paso más habitual en las aplicaciones de procesamiento de datos es tomar datos de un origen y convertirlos en un formato adecuado para la generación de informes y otros métodos de análisis. En una base de datos habría que cargar un archivo plano en ella y que crear los índices. En Spark, el primer paso suele ser limpiar y convertir los datos de un formato de texto en formato de Parquet. Parquet es un formato binario optimizado que soporta lecturas eficaces, lo que lo hace idóneo para la generación de informes y el análisis. En este ejercicio, tomamos datos de origen, los convertimos en Parquet y, a continuación, realizamos una serie de acciones interesantes con ellos. Nuestro juego de datos es Berlin Airbnb Data, descargado del sitio web de Kaggle según las condiciones de la licencia Creative Commons CC0 1.0 Universal (CC0 1.0) "Dedicación de Domino Público". Procesamiento en este tutorial

Los datos se proporcionan en formato CSV y nuestro primer paso consistirá en convertir esos datos en Parquet y almacenarlos en el almacén de objetos para realizar el procesamiento descendente. Hemos proporcionado una aplicación Spark para realizar esta conversión denominada oow-lab-2019-java-etl-1.0-SNAPSHOT.jar. El objetivo será crear una aplicación de Data Flow que ejecute esta aplicación Spark y ejecutarla con los parámetros correctos. Como estamos empezando, en este ejercicio se le guiará paso a paso y se le proporcionarán los parámetros que necesite. Posteriormente, usted tendrá que proporcionar los parámetros, por lo que debe asegurarse de que entiende lo que está introduciendo y por qué.