Remarques :
- Ce tutoriel nécessite un accès à Oracle Cloud. Pour vous inscrire à un compte gratuit, reportez-vous à Introduction au niveau gratuit d'Oracle Cloud Infrastructure.
- Il utilise des exemples de valeurs pour les informations d'identification, la location et les compartiments Oracle Cloud Infrastructure. Lorsque vous terminez votre atelier, remplacez ces valeurs par celles propres à votre environnement cloud.
Accéder aux buckets OCI Object Storage à partir du cluster Oracle Big Data Service à l'aide du principal de ressource
Introduction
Oracle Big Data Service est un service cloud fourni par Oracle qui permet aux utilisateurs de créer et de gérer des clusters Hadoop, des clusters Spark, Trino et d'autres services Big Data. Oracle Cloud Infrastructure (OCI) permet une intégration transparente entre les clusters Oracle Big Data Service et OCI Object Storage à l'aide du principal de ressource.
Ce tutoriel vous guidera tout au long des tâches de configuration et d'accès au bucket OCI Object Storage à partir d'un cluster Oracle Big Data Service, en tirant parti du principal de ressource pour une authentification sécurisée.
Objectifs
-
Configurez Oracle Big Data Service pour accéder à OCI Object Storage à l'aide du principal de ressource.
-
Configurez des stratégies dans OCI.
-
Testez l'accès aux buckets à partir du cluster Oracle Big Data Service.
Prérequis
-
Cluster Oracle Big Data Service déployé.
-
Accès à une location OCI.
-
Droits d'accès permettant de créer des stratégies dans OCI.
Tâche 1 : créer des stratégies
-
Connectez-vous à la console OCI, accédez à Identité et sécurité et cliquez sur Stratégies.
-
Créez les stratégies suivantes pour accorder au cluster Oracle Big Data Service l'accès au bucket OCI Object Storage.
allow any-user to read buckets in tenancy where ALL {request.principal.id='<BDS OCID>', target.bucket.name='<bucket name>'} allow any-user to read objects in tenancy where ALL {request.principal.id='<BDS OCID>', target.bucket.name='<bucket name>'}
Remarque : remplacez
<BDS OCID>
et<bucket name>
par l'OCID de cluster Oracle Big Data Service et le nom de bucket, respectivement.
Tâche 2 : création du principal de ressource dans le cluster Oracle Big Data Service
-
Accédez à la console OCI, accédez à Analytics et IA et cliquez sur Big Data Service.
-
Cliquez sur le cluster déployé.
-
Cliquez sur Principal de ressource et sur Créer un principal de ressource.
-
Entrez le nom d'affichage et la durée de vie du jeton de session (en heures), puis cliquez sur Créer.
Tâche 3 : mettre à jour la configuration du système de fichiers distribué Hadoop (HDFS)
-
Accédez à la console Apache Ambari, accédez à HDFS, à Configurations et à Advanced.
-
Mettez à jour les propriétés suivantes pour votre configuration HDFS.
fs.oci.client.custom.authenticator=com.oracle.oci.bds.commons.auth.BDSResourcePrincipalAuthenticator fs.oci.client.regionCodeOrId=us-region-1 fs.oci.rp.pem.passphrase.path=/etc/security/tokens/rpst.pass fs.oci.rp.pem.path=/etc/security/tokens/rpst.pem fs.oci.rp.rpst.path=/etc/security/tokens/rpst.token
Remarque : le groupe
bds_rp_users
possède le jetonrpst
et les clés de ce principal de ressource dans le cluster. -
Enregistrez les modifications et redémarrez les services nécessaires dans Apache Ambari.
Tâche 4 : définition des variables d'environnement (facultatif)
Pour les applications accédant au bucket via le kit SDK OCI ou d'autres clients, assurez-vous que les variables d'environnement suivantes sont définies.
OCI_RESOURCE_PRINCIPAL_VERSION=2.2
OCI_RESOURCE_PRINCIPAL_PRIVATE_PEM=/etc/security/tokens/rpst.pem
OCI_RESOURCE_PRINCIPAL_REGION=us-region-1
OCI_RESOURCE_PRINCIPAL_RPST=/etc/security/tokens/rpst.token
Tâche 5 : test de l'accès au bucket OCI Object Storage
Connectez-vous via SSH au cluster Oracle Big Data Service et testez l'accès au bucket à l'aide des commandes HDFS.
hdfs dfs -ls oci://<bucket name>@<namespace>/
Remarque : veillez à remplacer
<bucket name>
par le bucket OCI utilisé dans les stratégies et la valeur<namespace>
.
Dépannage et conseils
-
Vérification de
Core-site.xml
: si le contenu du bucket n'est pas accessible, vérifiez si le fichiercore-site.xml
a été généré correctement par Apache Ambari et contient les valeurs de configuration de principal de ressource correctes. -
Redémarrage de HDFS : après avoir mis à jour la configuration HDFS, assurez-vous que tous les services nécessaires sont redémarrés pour appliquer les modifications.
-
Portée de la stratégie : vérifiez que les stratégies sont correctement définies et appliquées à votre cluster Oracle Big Data Service.
Etapes suivantes
-
Découvrez les intégrations avancées du kit SDK OCI pour un accès aux données plus sophistiqué.
-
Télécharger et télécharger des données à l'aide de
DistCp
: après avoir configuré l'accès au bucket, vous pouvez utiliser la commandeDistCp
d'Hadoop pour transférer efficacement des ensembles de données volumineux entre HDFS et OCI Object Storage. Cela est particulièrement utile pour la sauvegarde, la migration ou le déplacement de données à grande échelle. -
Programmation du transfert de données avec Oozie : automatisez le processus de téléchargement en local et de téléchargement en programmant des travaux DistCp standard à l'aide d'Oozie pour des sauvegardes récurrentes ou la synchronisation des données.
Liens connexes
Remerciements
- Auteurs - Pavan Upadhyay (ingénieur cloud principal), Saket Bihari (ingénieur cloud principal)
Ressources de formation supplémentaires
Explorez d'autres ateliers sur docs.oracle.com/learn ou accédez à d'autres contenus de formation gratuits sur le canal Oracle Learning YouTube. De plus, visitez le site education.oracle.com/learning-explorer pour devenir un explorateur Oracle Learning.
Pour obtenir la documentation produit, consultez le site Oracle Help Center.
Access OCI Object Storage Buckets from Oracle Big Data Service Cluster Using Resource Principal
G16224-01
September 2024