Remarques :

Ce tutoriel nécessite un accès à Oracle Cloud. Pour vous inscrire à un compte gratuit, reportez-vous à Introduction au niveau gratuit d'Oracle Cloud Infrastructure.
Il utilise des exemples de valeurs pour les informations d'identification, la location et les compartiments Oracle Cloud Infrastructure. Lorsque vous terminez votre atelier, remplacez ces valeurs par celles propres à votre environnement cloud.

Accéder aux buckets OCI Object Storage à partir du cluster Oracle Big Data Service à l'aide du principal de ressource

Introduction

Oracle Big Data Service est un service cloud fourni par Oracle qui permet aux utilisateurs de créer et de gérer des clusters Hadoop, des clusters Spark, Trino et d'autres services Big Data. Oracle Cloud Infrastructure (OCI) permet une intégration transparente entre les clusters Oracle Big Data Service et OCI Object Storage à l'aide du principal de ressource.

Ce tutoriel vous guidera tout au long des tâches de configuration et d'accès au bucket OCI Object Storage à partir d'un cluster Oracle Big Data Service, en tirant parti du principal de ressource pour une authentification sécurisée.

Objectifs

Configurez Oracle Big Data Service pour accéder à OCI Object Storage à l'aide du principal de ressource.
Configurez des stratégies dans OCI.
Testez l'accès aux buckets à partir du cluster Oracle Big Data Service.

Prérequis

Cluster Oracle Big Data Service déployé.
Accès à une location OCI.
Droits d'accès permettant de créer des stratégies dans OCI.

Tâche 1 : créer des stratégies

Connectez-vous à la console OCI, accédez à Identité et sécurité et cliquez sur Stratégies.

Créez les stratégies suivantes pour accorder au cluster Oracle Big Data Service l'accès au bucket OCI Object Storage.

allow any-user to read buckets in tenancy where ALL {request.principal.id='<BDS OCID>', target.bucket.name='<bucket name>'}

allow any-user to read objects in tenancy where ALL {request.principal.id='<BDS OCID>', target.bucket.name='<bucket name>'}

Remarque : remplacez <BDS OCID> et <bucket name> par l'OCID de cluster Oracle Big Data Service et le nom de bucket, respectivement.

Tâche 2 : création du principal de ressource dans le cluster Oracle Big Data Service

Accédez à la console OCI, accédez à Analytics et IA et cliquez sur Big Data Service.
Cliquez sur le cluster déployé.
Cliquez sur Principal de ressource et sur Créer un principal de ressource.
Entrez le nom d'affichage et la durée de vie du jeton de session (en heures), puis cliquez sur Créer.

Tâche 3 : mettre à jour la configuration du système de fichiers distribué Hadoop (HDFS)

Accédez à la console Apache Ambari, accédez à HDFS, à Configurations et à Advanced.

Mettez à jour les propriétés suivantes pour votre configuration HDFS.

fs.oci.client.custom.authenticator=com.oracle.oci.bds.commons.auth.BDSResourcePrincipalAuthenticator
fs.oci.client.regionCodeOrId=us-region-1
fs.oci.rp.pem.passphrase.path=/etc/security/tokens/rpst.pass
fs.oci.rp.pem.path=/etc/security/tokens/rpst.pem
fs.oci.rp.rpst.path=/etc/security/tokens/rpst.token

Remarque : le groupe bds_rp_users possède le jeton rpst et les clés de ce principal de ressource dans le cluster.

Enregistrez les modifications et redémarrez les services nécessaires dans Apache Ambari.

Tâche 4 : définition des variables d'environnement (facultatif)

Pour les applications accédant au bucket via le kit SDK OCI ou d'autres clients, assurez-vous que les variables d'environnement suivantes sont définies.

OCI_RESOURCE_PRINCIPAL_VERSION=2.2
OCI_RESOURCE_PRINCIPAL_PRIVATE_PEM=/etc/security/tokens/rpst.pem
OCI_RESOURCE_PRINCIPAL_REGION=us-region-1
OCI_RESOURCE_PRINCIPAL_RPST=/etc/security/tokens/rpst.token

Tâche 5 : test de l'accès au bucket OCI Object Storage

Connectez-vous via SSH au cluster Oracle Big Data Service et testez l'accès au bucket à l'aide des commandes HDFS.

hdfs dfs -ls oci://<bucket name>@<namespace>/

Remarque : veillez à remplacer <bucket name> par le bucket OCI utilisé dans les stratégies et la valeur <namespace>.

Dépannage et conseils

Vérification de Core-site.xml : si le contenu du bucket n'est pas accessible, vérifiez si le fichier core-site.xml a été généré correctement par Apache Ambari et contient les valeurs de configuration de principal de ressource correctes.
Redémarrage de HDFS : après avoir mis à jour la configuration HDFS, assurez-vous que tous les services nécessaires sont redémarrés pour appliquer les modifications.
Portée de la stratégie : vérifiez que les stratégies sont correctement définies et appliquées à votre cluster Oracle Big Data Service.

Etapes suivantes

Découvrez les intégrations avancées du kit SDK OCI pour un accès aux données plus sophistiqué.
Télécharger et télécharger des données à l'aide de DistCp : après avoir configuré l'accès au bucket, vous pouvez utiliser la commande DistCp d'Hadoop pour transférer efficacement des ensembles de données volumineux entre HDFS et OCI Object Storage. Cela est particulièrement utile pour la sauvegarde, la migration ou le déplacement de données à grande échelle.
Programmation du transfert de données avec Oozie : automatisez le processus de téléchargement en local et de téléchargement en programmant des travaux DistCp standard à l'aide d'Oozie pour des sauvegardes récurrentes ou la synchronisation des données.

Remerciements

Auteurs - Pavan Upadhyay (ingénieur cloud principal), Saket Bihari (ingénieur cloud principal)

Ressources de formation supplémentaires

Explorez d'autres ateliers sur docs.oracle.com/learn ou accédez à d'autres contenus de formation gratuits sur le canal Oracle Learning YouTube. De plus, visitez le site education.oracle.com/learning-explorer pour devenir un explorateur Oracle Learning.

Pour obtenir la documentation produit, consultez le site Oracle Help Center.

Informations relatives au titre et au copyright

Access OCI Object Storage Buckets from Oracle Big Data Service Cluster Using Resource Principal

G16224-01

September 2024

Oracle et/ou ses affiliés.