Piano
È disponibile un flusso di lavoro in più passi per implementare i data lake in OCI utilizzando il servizio Big Data.
-
Requisiti: elenca i requisiti per i nuovi ambienti in OCI.
-
Valutazione: valuta i servizi e gli strumenti OCI necessari
-
Progettazione: progetta l'architettura e il dimensionamento della soluzione per OCI
-
Piano: crea un piano dettagliato mappando tempo e risorse
-
Provisioning: esegue il provisioning e configura le risorse necessarie in OCI.
-
Implementazione: implementa i carichi di lavoro dei dati e delle applicazioni
-
Automatizzazione della pipeline: organizza e pianifica le pipeline di flusso di lavoro per l'automazione
-
Test e convalida: esegue test di convalida, funzionalità e prestazioni end-to-end per la soluzione.
Determinazione requisiti
La prima cosa da fare è creare un catalogo dei requisiti del sistema e dell'applicazione.
La tabella seguente fornisce un modello di esempio e può fungere da punto di partenza per adattarsi al caso d'uso.
Argomento di individuazione | Impostazione corrente | requisiti OCI | Note e commenti |
---|---|---|---|
Dimensione dati | - | - | - |
Tasso di crescita | - | - | - |
Formati file | - | - | - |
Formati di compressione dati | - | - | - |
Dettagli del data center (per le architetture ibride) | - | - | - |
Dettagli sulla connettività di rete per l'impostazione di VPN/FastConnect | - | - | - |
DR (RTO, RPO) | - | - | - |
SLA HA | - | - | - |
Strategia di backup | - | - | - |
Gestione e monitoraggio delle infrastrutture | - | - | - |
Notifiche e avvisi | - | - | - |
Processi di manutenzione e aggiornamento | - | - | - |
Service Desk/gestione degli incidenti | - | - | - |
Metodi di autenticazione | - | - | - |
Metodi di autorizzazione | - | - | - |
Dettagli sulla cifratura (in archivio e in movimento) | - | - | - |
Processi di chiavi e certificati | - | - | - |
Dettagli Kerberos | - | - | - |
Requisiti di conformità | - | - | - |
Origini dati e tecniche di inclusione per ogni origine | - | - | - |
Requisiti ETL | - | - | - |
Requisiti dell'analitica | - | - | - |
Requisiti per l'interrogazione dei dati | - | - | - |
BI/visualizzazione, requisiti di reporting | - | - | - |
Integrazioni con altre soluzioni | - | - | - |
Dettagli carico di lavoro per notebook e data science | - | - | - |
Requisiti di flusso di lavoro, orchestrazione e schedulazione | - | - | - |
Carichi di lavoro batch - dettagli di ogni job e applicazione | - | - | - |
Carichi di lavoro interattivi: numero di utenti, dettagli di ogni job e applicazione | - | - | - |
Streaming dei carichi di lavoro - dettagli di ogni job e applicazione | - | - | - |
Dettagli di ogni applicazione integrata con il data lake | - | - | - |
Dettagli del team (amministratori di sistema, sviluppatori, proprietari di applicazioni, utenti finali) | - | - | - |
Valutazione
In questa fase, analizzare tutti i dati e le informazioni raccolti durante la fase relativa ai requisiti.
Utilizza queste informazioni per determinare quali servizi e strumenti hai bisogno nell'infrastruttura OCI. Al termine della valutazione, dovresti avere un'architettura di alto livello che mostri ogni servizio di dati OCI da utilizzare e quale funzionalità verrà implementata.
Il diagramma riportato di seguito mostra un esempio del tipo di architettura creata in questa fase.

Descrizione dell'illustrazione Architecture-hadoop-datalake.png
Progettare
In questa fase, determinare l'architettura della soluzione e il ridimensionamento iniziale per Oracle Cloud Infrastructure (OCI).
Utilizzare l'architettura di riferimento creata nella fase di valutazione come punto di partenza.
È necessaria una buona conoscenza della piattaforma OCI e di come creare applicazioni in OCI. Dovrai anche impostare i criteri di rete e IAM nell'infrastruttura OCI.
Piano
In questa fase, creare un piano di progetto dettagliato con il mapping di tempo e risorse.
Per ciascuna attività dovrebbero essere determinati i dettagli relativi alle attività, al RACI e alla tempistica delle parti interessate.
Piano progetto
Creare un piano di progetto con tutte le attività, le relative linee ore e le relative dipendenze.
La figura seguente mostra un esempio di piano di progetto di alto livello.

Descrizione dell'illustrazione project-plan.png
Distinta base
In base alla valutazione e alla progettazione dell'utente, creare un BOM per l'ambiente di destinazione in OCI
Elencare ogni servizio da utilizzare, insieme alle relative informazioni di ridimensionamento e configurazione. Nella seguente tabella è riportato un esempio di articoli che è possibile includere nella distinta base.
servizio OCI | Dimensionamento e configurazione |
---|---|
Big Data Service | - |
Scienza dei dati | - |
Data Catalog | - |
Virtual Machine | - |
Storage a blocchi | - |
Memorizzazione degli oggetti | - |
Autonomous Data Warehouse | - |
Rete cloud virtuale | - |
Gestione delle identità e dei accessi | - |
Pianificazione di Big Data Service
In questa sezione vengono descritte le scelte importanti da effettuare per avviare un cluster in Big Data Service (BDS)
I cluster Hadoop BDS vengono eseguiti sulle istanze di computazione OCI. È necessario determinare i tipi di istanza che si desidera utilizzare. Queste istanze vengono eseguite nelle subnet della rete cloud virtuale (VCN). Devono essere configurate prima di avviare i cluster. È inoltre necessario dissipare i requisiti di storage per i volumi a blocchi collegati ai nodi del cluster. Inoltre, è necessario configurare i criteri IAM.
Esistono due tipi di nodi:
-
Nodi principali e di utility. Questi nodi includono i servizi necessari per il funzionamento e la gestione del cluster. Non memorizzano né elaborano dati.
-
Nodi di lavoro Questi nodi memorizzano ed elaborano i dati. La perdita di un nodo lavoratore non influisce sull'operazione del cluster, sebbene possa influire sulle prestazioni.
I cluster possono essere distribuiti in modalità sicura e ad alta disponibilità o minima (non HA). È inoltre necessario creare un piano per i componenti Hadoop che si desidera configurare e per il relativo dimensionamento. Per ulteriori informazioni sulla configurazione e il dimensionamento dei cluster, consultare il collegamento alla documentazione di BDS nella sezione Esplora altri elementi.
È possibile utilizzare la tabella riportata di seguito per creare un piano per i cluster BDS.
Argomento | Dimensionamento e configurazione |
---|---|
Configurazione sicura, altamente disponibile o minima (non HA) | - |
Numero di nodi di lavoro | - |
Storage per nodo | - |
Tipo e forma di istanza di computazione dei nodi principali | - |
Tipo e forma di istanza di computazione nodi di lavoro | - |
Configurazione dei servizi Hadoop del nodo principale 1 | - |
Configurazione dei servizi Hadoop del nodo principale 2 (se applicabile) | - |
Configurazione servizi Hadoop nodo utility 1 | - |
Configurazione dei servizi Hadoop del nodo utility 2 (se applicabile) | - |
Configurazione dei servizi Hadoop del nodo utility 3 (se applicabile) | - |
Configurazione servizi Hadoop per nodi di lavoro | - |
Dettagli rete cloud virtuale | - |
Criteri di gestione delle identità e degli accessi applicati | - |
Configurazione di Ambari | - |
Configurazione HDFS | - |
Configurazione Hive | - |
configurazione HBase | - |
Configurazione Spark | - |
Configurazione Oozie | - |
Configurazione Sqoop | - |
Configurazione Tez | - |
Configurazione Zookeeper | - |
È possibile utilizzare tabelle simili durante la pianificazione della composizione e delle dimensioni degli altri servizi nell'architettura.
Esegui provisioning
In base alla progettazione e alle dimensioni finali dell'architettura di stato in BOM, esegui il provisioning e configura le risorse necessarie nell'infrastruttura OCI in base ai task elencati nel piano di progetto.
Flusso di lavoro di distribuzione di Big Data Service
Per poter impostare un cluster BDS, è necessario configurare le autorizzazioni in IAM, quindi configurare la VCN per il cluster.
Configura IAM
Crea altri gruppi IAM con privilegi di accesso per il cluster BDS.
È necessario delegare i task di amministrazione dei cluster BDS a uno o più amministratori BDS.
Se il nome del gruppo è bds-admin-group e il nuovo cluster si trova nel compartimento cluster, creare i criteri seguenti:
allow group bds-admin-group to manage virtual-network-family in compartment Cluster
allow group bds-admin-group to manage bds-instance in compartment Cluster
Creare inoltre un criterio con l'istruzione criterio riportata di seguito.
allow service bdsprod to
{VNIC_READ, VNIC_ATTACH, VNIC_DETACH, VNIC_CREATE, VNIC_DELETE,VNIC_ATTACHMENT_READ,
SUBNET_READ, VCN_READ, SUBNET_ATTACH, SUBNET_DETACH, INSTANCE_ATTACH_SECONDARY_VNIC,
INSTANCE_DETACH_SECONDARY_VNIC} in compartment Cluster
Configura la VCN
Almeno, hai bisogno di una singola VCN con una singola subnet in un'unica area geografica con accesso alla rete Internet pubblica.
Per un ambiente di produzione complesso, è possibile disporre di più subnet e regole di sicurezza diverse. Puoi connettere la tua VCN a una rete on premise o ad altri VCN in altre aree geografiche. Per ulteriori dettagli sul networking OCI, consultare la documentazione OCI.
Crea un cluster BDS
Scegliere un nome per il cluster, la password di amministrazione del cluster e le dimensioni per i nodi master, utility e lavoratore.
Quando si crea il cluster, si sceglie un nome, una password di amministrazione del cluster e le dimensioni per i nodi master, utility e lavoratore. È inoltre disponibile una casella di controllo per selezionare la configurazione cluster sicura e ad alta disponibilità (HA). HA offre quattro nodi principali e di utility invece di due nella configurazione minima non HA.
Assicurarsi di creare il cluster nel compartimento in cui si desidera inserirlo e nella VCN in cui si desidera inserirlo. Assicurarsi inoltre che il blocco CIDR per la rete privata del cluster non si sovrapponga all'intervallo di blocchi CIDR della subnet che contiene il cluster.
Accesso al cluster BDS
Per impostazione predefinita, ai nodi dei servizi Big Data vengono assegnati indirizzi IP privati, a cui non è possibile accedere dalla rete Internet pubblica.
È possibile rendere disponibili i nodi nel cluster utilizzando uno dei metodi riportati di seguito.
- È possibile mappare gli indirizzi IP privati dei nodi selezionati nel cluster agli indirizzi IP pubblici per renderli disponibili pubblicamente su Internet.
- È possibile impostare un tunnel SSH mediante un bastion host. Solo l'host bastion è esposto alla rete Internet pubblica. Un host bastion fornisce l'accesso alla rete privata del cluster dalla rete Internet pubblica.
- Puoi utilizzare VPN Connect che fornisce una VPN IPSec (Internet Protocol Security) site-to-site tra la tua rete on premise e la tua VCN. Inoltre, puoi utilizzare FastConnect OCI per accedere ai servizi in OCI senza passare dalla rete Internet pubblica. Con FastConnect, il traffico supera una connessione fisica privata.
Gestire il cluster BDS
Per BDS con distribuzione Oracle che include Apache Hadoop (ODH), è possibile utilizzare Apache Ambari per gestire il cluster.
Viene eseguito sul nodo utility del cluster. È necessario aprire la porta 7183 sul nodo configurando le regole di entrata nella lista di sicurezza di rete.
Per accedere a Ambari, aprire una finestra del browser e immettere l'URL con l'indirizzo IP del nodo utility. Ad esempio: https://<ip_address_or_hostname>:7183
Utilizzare l'utente amministratore del cluster (amministratore predefinito) e la password immessi durante la creazione del cluster.

Descrizione dell'illustrazione ambari-dashboard-metrics.png
Implementa
Avviare l'implementazione delle applicazioni e dei servizi per ogni fase. Esistono più criteri da considerare prima di selezionare un servizio specifico.
Si noti che alcuni servizi possono essere utilizzati in più fasi. Ad esempio, il servizio Big Data dispone di componenti che possono essere utilizzati nella fase di inclusione, nella fase di memorizzazione e nella fase di trasformazione.
Inserimento
-
Data Transfer Appliance: se si esegue la migrazione a OCI, è possibile utilizzare il servizio di trasferimento dati per eseguire la migrazione dei dati, offline, nello storage degli oggetti.
-
Servizio Big Data: Big Data fornisce i componenti Hadoop più diffusi per l'inclusione dei dati, inclusi Kafka, Flume e Sqoop. Gli utenti possono configurare questi strumenti in base ai requisiti. Kafka può essere utilizzato per l'ingestione in tempo reale di eventi e dati. Ad esempio, se gli utenti hanno eventi che provengono dalle applicazioni o dal server e desiderano includere eventi in tempo reale, possono utilizzare Kafka e scrivere dati in HDFS o nello storage degli oggetti. È possibile utilizzare Flume per includere dati di streaming in argomenti HDFS o Kafka. Sqoop è uno degli strumenti Hadoop più comuni utilizzati per importare i dati dai data store strutturati, ad esempio database relazionali e data warehouse.
Memorizzazione
-
Servizio Big Data: BDS fornisce componenti Hadoop standard, inclusi HDFS e HBase. I dati possono essere scritti su HDFS da streaming Spark, batch Spark o qualsiasi altro job. HBase fornisce un database distribuito non relazionale eseguito a monte di HDFS. Può essere utilizzato per memorizzare set di dati di grandi dimensioni memorizzati come coppie chiave-valore. I dati possono essere letti e scritti in HBase dai job Spark nell'ambito dell'inclusione o della trasformazione.
-
Storage degli oggetti: il servizio di storage degli oggetti OCI è una piattaforma di storage su scala Internet ad alte prestazioni che offre durabilità dei dati affidabile ed economicamente vantaggiosa. Può memorizzare una quantità illimitata di dati di qualsiasi tipo di contenuto, compresi i dati analitici e contenuti avanzati come immagini e video. In questo pattern, lo storage degli oggetti può essere utilizzato come area di memorizzazione blob General Purpose. Il servizio Big Data e altri servizi possono leggere e scrivere i dati dallo storage degli oggetti.
Trasforma e serva
-
Big Data Service (BDS): BDS offre componenti Hadoop come Spark e Hive che possono essere utilizzati per elaborare i dati. È possibile utilizzare Hive e Spark SQL per eseguire query SQL sui dati HDFS e dello storage degli oggetti. Una volta memorizzati i dati in HDFS o nello storage degli oggetti, è possibile creare tabelle facendo riferimento ai dati, quindi qualsiasi strumento di business intelligence (BI) o applicazione personalizzata può connettersi a queste interfacce per eseguire query sui dati. Gli utenti possono scrivere un processo batch complesso in spark che potrebbe essere l'elaborazione di dati di grandi dimensioni o avere una trasformazione molto complessa con più fasi. È possibile utilizzare Spark per l'implementazione di job per la lettura e la scrittura da più origini, tra cui HDFS, HBase e storage degli oggetti. Oracle Cloud SQL è un servizio aggiuntivo disponibile che consente di avviare query Oracle SQL sui dati in HDFS, Kafka e Oracle Object Storage.
BI, ML, visualizzazione e gestione del controllo
-
Data Catalog: utilizzare il servizio Data Catalog OCI per raccogliere i metadati dalle origini dati nell'ecosistema Oracle Cloud Infrastructure e on premise, al fine di creare un inventario degli asset di dati. È possibile utilizzarlo per creare e gestire glossari aziendali con categorie, sottocategorie e termini aziendali per creare una tassonomia di concetti aziendali con tag aggiunti dall'utente per aumentare la produttività della ricerca. Ciò favorisce la gestione del controllo e semplifica la ricerca dei dati di cui hanno bisogno per l'analisi dei dati da parte dei consumatori.
-
Data Science: Data Science è una piattaforma completamente gestita e serverless che consente ai team di data science di creare, formare, distribuire e gestire modelli di machine learning in Oracle Potrebbe Infrastructure. Offre ai data scientist un'area di lavoro collaborativa e basata sui progetti con notebook Jupyter e strumenti, librerie e package basati su python sviluppati dalla community open source insieme alla libreria Oracle Accelerated Data Science Library. Si integra con il resto dello stack, inclusi Data Flow, Autonomous Data Warehouse e lo storage degli oggetti.
-
Oracle Analytics Cloud (OAC): OAC offre funzionalità di analitica self-service basate sull'intelligenza artificiale per la preparazione, il discovery e la visualizzazione dei dati, la reportistica intelligente di livello Enterprise e ad hoc, unitamente all'analisi migliorata e all'elaborazione/generazione del linguaggio naturale.
Automatico
Dopo l'implementazione del sistema, è possibile aggiungere l'automazione schedulando singoli job o impostando una o più pipeline.
È possibile impostare uno strumento di gestione del flusso di lavoro quale Airflow o Oozie. Oozie è incluso e preconfigurato quando si imposta un cluster del servizio Big Data.