Nota
- Questa esercitazione richiede l'accesso a Oracle Cloud. Per iscriverti a un account gratuito, consulta Inizia a utilizzare Oracle Cloud Infrastructure Free Tier.
- Utilizza valori di esempio per le credenziali, la tenancy e i compartimenti di Oracle Cloud Infrastructure. Al termine del laboratorio, sostituisci questi valori con quelli specifici del tuo ambiente cloud.
Accedere ai bucket di storage degli oggetti OCI dal cluster di Oracle Big Data Service utilizzando il principal delle risorse
Introduzione
Oracle Big Data Service è un servizio basato su cloud fornito da Oracle che consente agli utenti di creare e gestire cluster Hadoop, cluster Spark, Trino e altri servizi di big data. Oracle Cloud Infrastructure (OCI) consente una perfetta integrazione tra i cluster Oracle Big Data Service e OCI Object Storage utilizzando il principal delle risorse.
Questa esercitazione descrive i task per configurare e accedere al bucket di OCI Object Storage da un cluster Oracle Big Data Service, sfruttando il principal delle risorse per l'autenticazione sicura.
Obiettivi
-
Configurare Oracle Big Data Service per accedere a OCI Object Storage utilizzando il principal delle risorse.
-
Impostare i criteri in OCI.
-
Eseguire il test dell'accesso al bucket dal cluster di Oracle Big Data Service.
Prerequisiti
-
Cluster Oracle Big Data Service distribuito.
-
Accesso a una tenancy OCI.
-
Autorizzazioni per creare criteri in OCI.
Task 1: Creare criteri
-
Eseguire il login a OCI Console, passare a Identità e sicurezza e fare clic su Criteri.
-
Creare i criteri riportati di seguito per concedere al cluster Oracle Big Data Service l'accesso al bucket di storage degli oggetti OCI.
allow any-user to read buckets in tenancy where ALL {request.principal.id='<BDS OCID>', target.bucket.name='<bucket name>'} allow any-user to read objects in tenancy where ALL {request.principal.id='<BDS OCID>', target.bucket.name='<bucket name>'}
Nota: sostituire
<BDS OCID>
e<bucket name>
rispettivamente con l'OCID cluster e il nome bucket di Oracle Big Data Service.
Task 2: Crea principal risorsa nel cluster di Oracle Big Data Service
-
Andare alla console OCI, andare ad Analytics e AI e fare clic su Big Data Service.
-
Fare clic sul cluster distribuito.
-
Fare clic su Principal risorsa e su Crea principal risorsa.
-
Immettere Nome visualizzato e Durata dell'intervallo di vita del token sessione (in ore) e fare clic su Crea.
Task 3: aggiornare la configurazione di HDFS (Hadoop Distributed File System)
-
Accedere ad Apache Ambari Console, passare a HDFS, Configurazioni e Avanzate.
-
Aggiornare le proprietà riportate di seguito per la configurazione HDFS.
fs.oci.client.custom.authenticator=com.oracle.oci.bds.commons.auth.BDSResourcePrincipalAuthenticator fs.oci.client.regionCodeOrId=us-region-1 fs.oci.rp.pem.passphrase.path=/etc/security/tokens/rpst.pass fs.oci.rp.pem.path=/etc/security/tokens/rpst.pem fs.oci.rp.rpst.path=/etc/security/tokens/rpst.token
Nota: il gruppo
bds_rp_users
possiede il tokenrpst
e le chiavi per questo principal risorsa nel cluster. -
Salvare le modifiche e riavviare i servizi necessari in Apache Ambari.
Task 4: Impostazione delle variabili d'ambiente (Opzionale)
Per le applicazioni che accedono al bucket tramite OCI Software Development Kit (SDK) o altri client, assicurarsi che siano impostate le variabili di ambiente riportate di seguito.
OCI_RESOURCE_PRINCIPAL_VERSION=2.2
OCI_RESOURCE_PRINCIPAL_PRIVATE_PEM=/etc/security/tokens/rpst.pem
OCI_RESOURCE_PRINCIPAL_REGION=us-region-1
OCI_RESOURCE_PRINCIPAL_RPST=/etc/security/tokens/rpst.token
Task 5: Test dell'accesso al bucket di storage degli oggetti OCI
SSH nel cluster di Oracle Big Data Service e eseguire il test dell'accesso al bucket utilizzando i comandi HDFS.
hdfs dfs -ls oci://<bucket name>@<namespace>/
Nota: assicurarsi di sostituire
<bucket name>
con il bucket OCI utilizzato nei criteri e nel valore<namespace>
.
Risoluzione dei problemi e suggerimenti
-
Core-site.xml
Verifica: se il contenuto del bucket non è accessibile, verificare se il filecore-site.xml
è stato generato correttamente da Apache Ambari e contiene i valori di configurazione del principal risorsa corretti. -
Riavvio HDFS: dopo l'aggiornamento della configurazione HDFS, accertarsi che tutti i servizi necessari vengano riavviati per applicare le modifiche.
-
Ambito dei criteri: controllare due volte che i criteri siano stati definiti e applicati correttamente al cluster di Oracle Big Data Service.
Passi successivi
-
Esplora integrazioni avanzate di SDK OCI per un accesso ai dati più sofisticato.
-
Carica e scarica dati mediante
DistCp
: dopo aver impostato l'accesso al bucket, è possibile utilizzare il comandoDistCp
di Hadoop per trasferire in modo efficiente set di dati di grandi dimensioni tra HDFS e OCI Object Storage. Ciò è particolarmente utile per il backup, la migrazione o lo spostamento di dati su larga scala. -
Pianifica trasferimento dati con Oozie: automatizza il processo di caricamento e download pianificando i normali job DistCp utilizzando Oozie per i backup ricorrenti o la sincronizzazione dei dati.
Collegamenti correlati
-
Introduzione a un cluster Big Data ODH ad alta disponibilità
-
Kit di sviluppo software OCI e interfaccia della riga di comando
Conferme
- Autori - Pavan Upadhyay (Principal Cloud Engineer), Saket Bihari (Principal Cloud Engineer)
Altre risorse di apprendimento
Esplora altri laboratori su docs.oracle.com/learn o accedi a più contenuti gratuiti sulla formazione su Oracle Learning YouTube channel. Inoltre, visita education.oracle.com/learning-explorer per diventare un Oracle Learning Explorer.
Per la documentazione del prodotto, visita l'Oracle Help Center.
Access OCI Object Storage Buckets from Oracle Big Data Service Cluster Using Resource Principal
G16225-01
September 2024