Importación de una aplicación Apache Spark en Oracle Cloud

Las aplicaciones Spark deben estar alojadas en Oracle Cloud Infrastructure Object Storage para poder ejecutarlas.

Puede cargar la aplicación en cualquier cubo. El usuario que ejecuta la aplicación debe tener acceso de lectura a todos los activos (incluidos todos los compartimentos, cubos y archivos relacionados) para que la aplicación se inicie correctamente.

Desarrollo de aplicaciones Spark compatibles con Data Flow

Data Flow soporta la ejecución de aplicaciones Spark comunes y no tiene requisitos especiales de tiempo de diseño.

Le recomendamos que desarrolle la aplicación Spark con el modo local de Spark en un entorno portátil o similar. Una vez finalizado el desarrollo, cargue la aplicación en Oracle Cloud Infrastructure Object Storage y ejecutela a escala usando Data Flow.

Mejores prácticas para la agrupación de aplicaciones

Mejores prácticas para agrupar sus aplicaciones
TecnologíaNotas:
Aplicaciones Java o ScalaPara obtener la mejor fiabilidad, cargue las aplicaciones como JAR de Uber o JAR de ensamblaje, con todas las dependencias incluidas en el almacén de objetos. Utilice herramientas como Maven Assembly Plugin (Java) o sbt-assembly (Scala) para crear los JAR adecuados.
Aplicaciones SQLCargue todos los archivos SQL (.sql) en el almacén de objetos.
Aplicaciones PythonCree aplicaciones con las bibliotecas por defecto y cargue el archivo python en el almacén de objetos. Para incluir bibliotecas o paquetes de terceros, consulte Funcionalidad spark-submit en Data Flow.

No proporcione el paquete de la aplicación en un formato comprimido como .zip o .gzip.

Después de importar la aplicación a Oracle Cloud Infrastructure Object Store, puede hacer referencia a ella mediante un URI especial:
oci://<bucket>@<tenancy>/<applicationfile>

Por ejemplo, con una aplicación Java o Scala, supongamos que un desarrollador de examplecorp ha desarrollado una aplicación Spark denominada logcrunch.jar y la ha cargado en un cubo denominado production_code. Siempre puede encontrar el arrendamiento correcto haciendo clic en el icono de perfil de usuario en la parte superior derecha de la interfaz de usuario de la consola.

El URI correcto se convierte en:
oci://production_code@examplecorp/logcrunch.jar

Carga de datos en Oracle Cloud

Data Flow se optimiza para gestionar los datos en Oracle Cloud Infrastructure Object Storage. La gestión de datos en Object Storage maximiza el rendimiento y permite a la aplicación acceder a los datos en nombre del usuario que ejecuta la aplicación. Sin embargo, Data Flow puede leer datos de otros orígenes de datos soportados por Spark, como RDBMS, ADW y almacenes NoSQL, entre otros. Data Flow puede comunicarse con sistemas locales mediante la función Punto final privado junto con una configuración FastConnect existente.

Carga de datos
EnfoqueHerramientas
IU web nativaLa consola de Oracle Cloud Infrastructure le permite gestionar cubos de almacenamiento y cargar archivos, incluidos los árboles de directorios.
Herramientas de terceros

Piense en usar las API de REST y la infraestructura de la línea de comandos.

Para transferir grandes cantidades de datos, tenga en cuenta estas herramientas de terceros: