Import d'une application Apache Spark dans Oracle Cloud

Pour que vous puissiez les exécuter, les applications Spark doivent être hébergées dans Oracle Cloud Infrastructure Object Storage.

Vous pouvez télécharger l'application vers n'importe quel bucket. L'utilisateur exécutant l'application doit disposer d'un accès en lecture à toutes les ressources (y compris tous les compartiments, buckets et fichiers associés) pour que l'application puisse démarrer correctement.

Développement d'applications Spark compatibles avec Data Flow

Le service Data Flow prend en charge l'exécution d'applications Spark ordinaires et ne présente aucune exigence de conception spéciale.

Nous vous recommandons de développer votre application Spark en utilisant le mode local Spark sur votre ordinateur portable ou un environnement similaire. Une fois le développement terminé, téléchargez l'application vers Oracle Cloud Infrastructure Object Storage et exécutez-la à l'échelle à l'aide de Data Flow.

Meilleures pratiques pour le regroupement d'applications

Meilleures pratiques pour le regroupement de vos applications
TechnologieRemarque
Applications Java ou ScalaPour une meilleure fiabilité, téléchargez les applications en tant que fichiers Uber JAR ou Assemby JAR, avec toutes les dépendances incluses dans la banque d'objets. Utilisez des outils tels que Maven Assembly Plugin (Java) ou sbt-assembly (Scala) pour créer des fichiers JAR appropriés.
Applications SQLTéléchargez tous vos fichiers SQL (.sql) vers la banque d'objets.
Applications PythonCréez des applications avec les bibliothèques par défaut et téléchargez le fichier Python vers la banque d'objets. Pour inclure des bibliothèques ou des packages tiers, reportez-vous à Fonctionnalité spark-submit dans Data Flow.

Ne fournissez pas votre package d'application dans un format compressé, tel que .zip ou .gzip.

Une fois que votre application a été importée dans la banque d'objets Oracle Cloud Infrastructure, vous pouvez y faire référence en utilisant un URI spécial :
oci://<bucket>@<tenancy>/<applicationfile>

Par exemple, avec une application Java ou Scala, supposons qu'un développeur du groupe examplecorp a développé une application Spark appelée logcrunch.jar et l'a téléchargée vers un bucket nommé production_code. Vous pouvez toujours trouver la location correcte en cliquant sur l'icône de profil utilisateur dans l'angle supérieur droit de l'interface utilisateur de la console.

L'URI correct devient :
oci://production_code@examplecorp/logcrunch.jar

Chargement des données dans Oracle Cloud

Le service Data Flow est optimisé pour la gestion des données dans Oracle Cloud Infrastructure Object Storage. La gestion des données dans Object Storage améliore les performances et permet à l'application d'accéder aux données au nom de l'utilisateur qui l'exécute. Toutefois, Data Flow peut lire les données d'autres sources de données prises en charge par Spark, telles que le SGBDR, ADW, les emplacements de stockage NoSQL, etc. Data Flow peut communiquer avec des systèmes sur site à l'aide de la fonctionnalité d'adresse privée et d'une configuration FastConnect existante.

Chargement des données
ApprocheOutils
Interface utilisateur Web nativeLa console Oracle Cloud Infrastructure permet de gérer des buckets de stockage et de télécharger des fichiers vers le serveur, y compris des arborescences de répertoires.
Outils tiers

Envisagez d'utiliser les API REST et l'infrastructure de ligne de commande.

Pour transférer de grandes quantités de données, tenez compte des outils tiers suivants :