Importation d'une application Apache Spark vers Oracle Cloud

Les applications Spark doivent être hébergées dans Oracle Cloud Infrastructure Object Storage pour que vous puissiez les exécuter.

Vous pouvez charger votre application dans n'importe quel seau. L'utilisateur qui exécute l'application doit disposer d'un accès en lecture à toutes les ressources (y compris tous les compartiments, seaux et fichiers connexes) pour que l'application puisse démarrer avec succès.

Développer des applications Spark compatibles avec le service de flux de données

Le service de flux prend en charge l'exécution d'applications Spark ordinaires et n'a aucune exigence de conception particulière.

Nous vous recommandons de développer vos applications Spark en mode local Spark sur votre ordinateur portable ou un environnement similaire. Une fois le développement terminé, chargez l'application dans le service Oracle Cloud Infrastructure Object Storage et exécutez-la à l'échelle à l'aide du service de flux de données.

Meilleures pratiques de regroupement d'applications

Meilleures pratiques de regroupement d'applications
Technologie Notes
Applications Java ou Scala Pour la meilleure fiabilité, chargez les applications sous forme de fichiers JAR Uber ou de fichiers JAR d'assemblage, avec toutes les dépendances incluses dans le magasin d'objets. Utilisez des outils tels que le plugiciel d'assemblage Maven (Java) ou sbt-assembly (Scala) pour créer les fichiers JAR appropriés.
Applications SQL Chargez tous vos fichiers SQL (.sql) dans le magasin d'objets.
Applications Python Créez les applications avec les bibliothèques par défaut et chargez le fichier python dans le magasin d'objets. Pour inclure des bibliothèques ou des ensembles de tierce partie, voir Fonctionnalité spark-submit dans le service de flux de données.

Ne fournissez pas votre ensemble d'application dans un format compressé, tel que .zip ou .gzip.

Une fois que l'application est importée dans le magasin d'objets d'Oracle Cloud Infrastructure, vous pouvez y faire référence au moyen d'un URI spécial :
oci://<bucket>@<tenancy>/<applicationfile>
                        

Par exemple, dans le cas d'une application Java ou Scala, supposons que le développeur à examplecorp a développé une application Spark nommée logcrunch.jar et l'a chargée dans un seau appelé production_code. Vous pouvez toujours trouver la location appropriée en cliquant sur l'icône de profil d'utilisateur en haut à droite de l'interface utilisateur de la console.

L'URI correct devient :
oci://production_code@examplecorp/logcrunch.jar

Charger des données dans Oracle Cloud

Le service de flux de données est optimisé pour gérer les données dans le service Oracle Cloud Infrastructure Object Storage. La gestion des données dans le stockage d'objets optimise la performance et permet à l'application d'accéder aux données au nom de l'utilisateur qui exécute l'application. Cependant, le service de flux de données peut lire des données à partir d'autres sources de données prises en charge par Spark, y compris un SGBR, ADW, les magasins NoSQL, etc. Le service de flux de données peut communiquer avec des systèmes sur place à l'aide de la fonction Point d'extrémité privé et d'une configuration FastConnect existante.

Chargement de données
Approche Outils
Interface utilisateur Web native La console Oracle Cloud Infrastructure vous permet de gérer les seaux de stockage et de charger des fichiers, incluant des arbres de répertoires.
Outils de tierce partie

Envisagez d'utiliser les API REST et l'infrastructure de ligne de commande.

Pour transférer de grandes quantités de données, tenez compte des outils de tierce partie suivants :