Import d'une application Apache Spark dans Oracle Cloud
Pour que vous puissiez les exécuter, les applications Spark doivent être hébergées dans Oracle Cloud Infrastructure Object Storage.
Vous pouvez télécharger l'application vers n'importe quel bucket. L'utilisateur exécutant l'application doit disposer d'un accès en lecture à toutes les ressources (y compris tous les compartiments, buckets et fichiers associés) pour que l'application puisse démarrer correctement.
Développement d'applications Spark compatibles avec Data Flow
Le service Data Flow prend en charge l'exécution d'applications Spark ordinaires et ne présente aucune exigence de conception spéciale.
Nous vous recommandons de développer votre application Spark en utilisant le mode local Spark sur votre ordinateur portable ou un environnement similaire. Une fois le développement terminé, téléchargez l'application vers Oracle Cloud Infrastructure Object Storage et exécutez-la à l'échelle à l'aide de Data Flow.
Meilleures pratiques pour le regroupement d'applications
Technologie | Remarque |
---|---|
Applications Java ou Scala | Pour une meilleure fiabilité, téléchargez les applications en tant que fichiers Uber JAR ou Assemby JAR, avec toutes les dépendances incluses dans la banque d'objets. Utilisez des outils tels que Maven Assembly Plugin (Java) ou sbt-assembly (Scala) pour créer des fichiers JAR appropriés. |
Applications SQL | Téléchargez tous vos fichiers SQL (.sql ) vers la banque d'objets. |
Applications Python | Créez des applications avec les bibliothèques par défaut et téléchargez le fichier Python vers la banque d'objets. Pour inclure des bibliothèques ou des packages tiers, reportez-vous à Fonctionnalité spark-submit dans Data Flow. |
Ne fournissez pas votre package d'application dans un format compressé, tel que .zip
ou .gzip
.
oci://<bucket>@<tenancy>/<applicationfile>
Par exemple, avec une application Java ou Scala, supposons qu'un développeur du groupe examplecorp
a développé une application Spark appelée logcrunch.jar
et l'a téléchargée vers un bucket nommé production_code
. Vous pouvez toujours trouver la location correcte en cliquant sur l'icône de profil utilisateur dans l'angle supérieur droit de l'interface utilisateur de la console.
oci://production_code@examplecorp/logcrunch.jar
Chargement des données dans Oracle Cloud
Le service Data Flow est optimisé pour la gestion des données dans Oracle Cloud Infrastructure Object Storage. La gestion des données dans Object Storage améliore les performances et permet à l'application d'accéder aux données au nom de l'utilisateur qui l'exécute. Toutefois, Data Flow peut lire les données d'autres sources de données prises en charge par Spark, telles que le SGBDR, ADW, les emplacements de stockage NoSQL, etc. Data Flow peut communiquer avec des systèmes sur site à l'aide de la fonctionnalité d'adresse privée et d'une configuration FastConnect existante.
Approche | Outils |
---|---|
Interface utilisateur Web native | La console Oracle Cloud Infrastructure permet de gérer des buckets de stockage et de télécharger des fichiers vers le serveur, y compris des arborescences de répertoires. |
Outils tiers | Envisagez d'utiliser les API REST et l'infrastructure de ligne de commande. |