Considerazioni per la selezione di uno schema soluzione

Quando implementa il tuo data lake nel cloud, prendi in considerazione i nostri modelli di progettazione consigliati per la migrazione del tuo data lake corrente in Oracle Cloud.

Preparazione per i progetti di migrazione

Quando esegui la migrazione dei tuoi dati in Oracle Cloud, dovresti pianificare il tuo progetto e il tuo personale. Raccogliere informazioni sulla rete e lo storage e valutare i vantaggi e gli svantaggi prima di selezionare un modello di soluzione. Crea una descrizione di alto livello per i sistemi e le applicazioni che rientrano nell'ambito per la migrazione.

Considera i nostri suggerimenti in base all'ambiente, alle tempistiche e al livello di competenza del team.

Pianificare il progetto e l'ambito. Identifica il tuo team di progetto incluso il project manager, il proprietario delle applicazioni, i tecnici dei big data, gli ingegneri OCI per l'infrastruttura e la sicurezza e gli sviluppatori. Assicurati di includere sviluppatori di applicazioni e ingegneri di test. Determinare le date chiave e i milestone del progetto.

Usare l'esempio seguente per creare una descrizione di alto livello di sistemi e applicazioni.

Componente Descrizione
Big Data Appliance (BDA)

Esecuzione dell'appliance BDA con distribuzione CDH

Nodo BDA 24 (6x sviluppo, 6x DR, prodotto 12x)

  • 2x 22-Core Xeon
  • 2x40 IB, 4x10 Ethernet
  • 96 TB di disco e 256 GB di RAM
Uso
  • HDFS da 300 TB (stima di 500 GB al giorno)
  • CPU 30%
  • 1 TB di RAM
  • Online 24x7
Ambienti

Produzione, sviluppo, recupero da errori irreversibili

Componenti della soluzione
  • Hive
  • HBase
  • HDFS
  • Spark (Scala)
  • Kerberos e Active Directory
  • Sqoop
  • Oozie
  • Analitica: OBIEE
  • Driver JDBC per la connessione a origini esterne

Considerazioni per il networking e lo storage

Durante la pianificazione della migrazione dei data lake, raccogliere informazioni su tutte le risorse di rete e storage e determinare il metodo più appropriato per eseguire la migrazione dei dati in OCI.

La tabella riportata di seguito fornisce una guida generale e di alto livello alle opzioni di migrazione dei dati per OCI.

Origine migrazione Volumi di dati < 1 TB Volumi di dati da 1 a 50 TB Volumi di dati > 50 TB
Big Data Appliance (BDA) o cluster Hadoop autogestiti on premise

Tunnel VPN hardware

(se FastConnect non è disponibile)

FastConnect (preferito)

I tunnel VPN hardware possono essere utilizzati se la larghezza di banda > 100 Mbps
Data Transfer Appliance
Big Data Cloud Service (BDCS) Tunnel VPN software

Selezionare una di queste opzioni in base ai requisiti e ai vincoli dell'organizzazione. Il tempo richiesto per il trasferimento dati dipende dal metodo di migrazione scelto.

  • Per il trasferimento offline con una singola Data Transfer Appliance, puoi trasferire fino a 150 TB di dati alla volta e più appliance per ogni job di trasferimento dati. Con l'inclusione del tempo di spedizione, il completamento della migrazione richiederà alcuni giorni.
  • Per il trasferimento dei dati online tramite Internet mediante tunnel VPN o FastConnect, puoi utilizzare questa formula per ottenere un tempo approssimativo richiesto:

    Number of days = (Total Bytes)/(Megabits per second * 125 * 1000 * Network Utilization * 60 seconds * 60 minutes * 24 hours)

    Utilizzando questa formula per trasferire fino a 50 TB di dati con una connessione FastConnect da 1 Gbps con utilizzo della rete al 100%, il trasferimento dati verrà completato in 6 giorni. Se è stata configurata, puoi utilizzare FastConnect anche per volumi inferiori. Con FastConnect da 10 Gbps il tempo sarà di 1/10.

  • Affinché i tunnel VPN possano trasferire 1 TB a una connettività da 10 Mbps e l'utilizzo della rete dall'80%, il trasferimento dei dati richiederà circa 13 giorni. In alternativa, utilizzare Data Transfer Appliance se la connettività di rete è inferiore o non molto affidabile.

La tabella riportata di seguito presenta una stima del tempo approssimativo di caricamento dei dati in OCI, in base alla larghezza di banda della connessione e alla dimensione del data set.

Dimensione data set 10 Mbps 100 Mbps 1 Gbps 10 Gbps Servizio di trasferimento dati
10 TB 92 giorni 9 giorni 22 ore 2 ore 1 settimana
100 TB 1.018 giorni 101 giorni 10 giorni 24 ore 1 settimana
500 TB 5.092 giorni 509 giorni 50 giorni 5 giorni 1 settimana
1 PB 10.185 giorni 1.018 giorni 101 giorni 10 giorni 2 settimane

Progetta l'architettura della soluzione

Durante la pianificazione del pattern della soluzione, considerare i vantaggi e gli svantaggi riportati nella tabella riportata di seguito prima di prendere una decisione.

Pattern soluzione Vantaggi Svantaggi
Cloud Native (Greenfield)
  • Puoi passare a uno stack moderno e a prova di futuro
  • Costi indiretti di gestione e operazioni inferiori
  • ROI (Return-on-Investment) massimo e opzione costo più basso per la maggior parte dei clienti
  • Esistono lacune nelle funzionalità che richiedono l'implementazione di determinati componenti
  • Più lavoro necessario per l'implementazione di alcuni altri modelli
Big Data Service (Greenfield)
  • Trai vantaggio da un costo inferiore e dal sovraccarico operativo derivante dall'utilizzo di dati gestiti e servizi AI
  • Lavora come soluzione a lungo termine e a breve termine durante la transizione a Oracle Cloud
  • Più lavoro necessario per l'implementazione di alcuni altri modelli
Rigenera (migrazione)
  • Puoi passare a uno stack moderno e a prova di futuro
  • Costi indiretti di gestione e operazioni inferiori
  • ROI massimo e opzione costo più basso per la maggior parte dei clienti
  • Potrebbero esserci alcune lacune nelle funzionalità che potrebbero richiedere la propria implementazione di alcuni componenti
  • Più lavoro necessario per l'implementazione di alcuni altri modelli
Replatform (migrazione)
  • Trai vantaggio da un costo inferiore e dal sovraccarico operativo derivante dall'utilizzo di dati gestiti e servizi AI
  • Lavora come soluzione a lungo termine e a breve termine durante la transizione verso Oracle Cloud
  • Più lavoro necessario per l'implementazione di alcuni altri modelli
Rehost (migrazione)
  • Minimo interruzioni di funzionalità
  • Nessun nuovo elemento da imparare dal punto di vista dell'utilizzo
  • La tua responsabilità aumenta per le operations e il supporto
  • La licenza esistente potrebbe non essere valida

Criteri di revisione per selezione pattern soluzione

Considerare questi criteri quando si decide il modello più adatto da utilizzare per l'organizzazione. Considerare criteri quali il grado relativo di modernizzazione, il ROI (Return-on-Investment) e i risparmi TCO (Total Cost of Ownership), la facilità e la durata dell'implementazione, i costi continui, l'efficienza operativa, l'elasticità, la scalabilità, la disponibilità e le modifiche relative al codice esistente.

Nella tabella seguente sono elencati alcuni criteri di alto livello che consentono di determinare i pattern che soddisfano le esigenze dell'organizzazione.

Pattern soluzione Grado relativo di modernizzazione Potenziale relativo per il risparmio ROI e TCO Facilità relativa e durata dell'attuazione Risparmi sui costi continui, efficienza operativa Elasticità, scalabilità ed disponibilità relative Modifiche relative a codice e flussi di lavoro esistenti
Cloud Native (Greenfield) Massimo (migliore) Massimo (migliore) Medio (migliore) Massimo (migliore) Massimo (migliore) ND
Big Data Service (Greenfield) Medio (migliore) Medio (migliore) Medio (migliore) Medio (migliore) Medio (migliore) ND
Rigenera (migrazione) Massimo (migliore) Massimo (migliore) Low (Buono) Massimo (migliore) Massimo (migliore) High (Buono)
Replatform (migrazione) Medio (migliore) Medio (migliore) Medio (migliore) Medio (migliore) Medio (migliore) Medio (migliore)
Rehost (migrazione) Low (Buono) Low (Buono) Massimo (migliore) Low (Buono) Low (Buono) Minimo (migliore)

A seconda dei requisiti dell'ambiente, della cronologia e delle competenze del team, Oracle consiglia di utilizzare lo schema più adatto alle proprie esigenze.

Considerare questi punti quando si decide la soluzione più adatta alla propria organizzazione.

  • Molti clienti usano più modelli nel loro percorso di adozione cloud.
  • La classificazione effettiva dipende dal contesto specifico del cliente e dai casi d'uso.
  • Non esiste un unico modello adatto a tutte le esigenze dei nostri clienti.
  • Altri criteri includono le preferenze dei clienti, l'esperienza e i requisiti esclusivi.