Acquisire informazioni sui data lake basati su Hadoop

Oracle Big Data Service fornisce uno stack Hadoop che include Apache Ambari, Apache Hadoop, Apache HBase, Apache Hive, Apache Spark e altri servizi per l'utilizzo e la protezione dei Big Data.

Il servizio Big Data semplifica lo spostamento dei carichi di lavoro nel cloud e garantisce la compatibilità con le soluzioni on-premise. Consente lo spostamento dei dati nello storage degli oggetti per risparmiare sui costi e scollegare le risorse di computazione dallo storage. Puoi accedere a BDS utilizzando la console OCI, l'interfaccia CLI OCI, le API REST o gli SDK. Si dispone dell'accesso completo per personalizzare gli elementi distribuiti nei cluster BDS.

Oracle Cloud SQL è un servizio aggiuntivo disponibile che consente di avviare query Oracle SQL sui dati in HDFS, Kafka e Object Storage. Qualsiasi utente, applicazione o strumento di analitica può utilizzare i data store per ridurre lo spostamento dei dati e velocizzare le query. BDS opera con i servizi di integrazione dei dati, data science e altri servizi di analisi. Gli sviluppatori possono accedere ai dati utilizzando Oracle SQL. Le aziende possono eliminare i silos di dati e garantire che i data lake non siano isolati da altre fonti di dati aziendali.

Informazioni su Data Lakehouse

Il modello Oracle Lakehouse combina gli elementi migliori dei data warehouse e dei data lake. Offre una piattaforma integrata di più servizi cloud Oracle, collaborando con facilità di spostamento dei dati, governance unificata e offre la possibilità di utilizzare i migliori strumenti open source e commerciali in base ai tuoi casi d'uso e alle tue preferenze.

Segue la descrizione di data-lake-house.png

Descrizione dell'illustrazione data-lake-house.png

Gli elementi chiave del modello Oracle Lakehouse includono

Integrazione di data warehouse e modelli di data lake.
Eliminazione dei silos di dati: facile spostamento dei dati tra warehouse e lago in base alle esigenze.
Metadati unificati e governance.
Supporto di noti strumenti open source e commerciali.
Supporto di un'ampia varietà di fonti di dati, formati di dati e tipi di dati (strutturati, semistrutturati e non strutturati)
Supporto per svariati consumer di dati e carichi di lavoro, tra cui analitica basata sui Big Data, SQL e BI, data science e apprendimento automatico in tutti i settori.

I servizi chiave della piattaforma utilizzati in questo playbook includono:

Big data

Oracle Big Data fornisce cluster con un ambiente Hadoop. Big Data semplifica il processo rendendo i cluster Hadoop altamente disponibili e sicuri. Basandosi sulle migliori prassi di Oracle, i Big Data implementano alta disponibilità e sicurezza e riducono la necessità di competenze Hadoop avanzate. Big Data offre i componenti Hadoop utilizzati più di frequente che consentono alle aziende di spostare i carichi di lavoro nel cloud e garantisce la compatibilità con le soluzioni on-premise.

Data Catalog

Oracle Cloud Infrastructure Data Catalog è una soluzione di rilevamento e gestione del controllo dei dati completamente gestita e self-service per i dati aziendali. I Data Catalog sono fondamentali per la capacità di un'organizzazione di cercare e trovare i dati da analizzare. Consentono ai professionisti dei dati di scoprire dati e supportare la governance dei dati.

Utilizza Data Catalog come un unico ambiente collaborativo per gestire i metadati tecnici, aziendali e operativi. È possibile raccogliere metadati tecnici da una vasta gamma di origini dati supportate accessibili mediante indirizzi IP pubblici o privati. È possibile organizzare, trovare, accedere, comprendere, arricchire e attivare questi metadati. Utilizza la raccolta automatica su richiesta o basata su pianificazione per garantire che il Data Catalog abbia sempre informazioni aggiornate. Sfrutta tutti i vantaggi offerti da sicurezza, affidabilità, performance e scalabilità di Oracle Cloud.

Flusso di dati

Oracle Cloud Infrastructure Data Flow è un servizio completamente gestito per l'esecuzione delle applicazioni Apache Spark. Le applicazioni del flusso di dati sono modelli riutilizzabili costituiti da un'applicazione Spark, dalle relative dipendenze, dai parametri predefiniti e da una specifica di risorsa runtime predefinita. Puoi gestire tutti gli aspetti del flusso di dati e del ciclo di vita di sviluppo delle applicazioni, tracciare ed eseguire i job Apache Spark utilizzando le API REST tramite il gateway API e le funzioni disponibili.

Il flusso di dati supporta la rapida distribuzione delle applicazioni consentendo agli sviluppatori di concentrarsi sullo sviluppo delle applicazioni. Fornisce la gestione dei log e un ambiente runtime per eseguire le applicazioni. Puoi integrare applicazioni, workflow e accedere alle API tramite l'interfaccia utente. Elimina la necessità di impostare l'infrastruttura, il provisioning dei cluster, l'installazione del software, lo storage e la sicurezza.

Autonomous Data Warehouse

Oracle Autonomous Data Warehouse è un servizio di database a gestione autonoma, protezione automatica e funzionalità di autoriparazione che è ottimizzato per i carichi di lavoro di data warehousing. Non è necessario configurare né gestire alcun hardware o installare software. Oracle Cloud Infrastructure gestisce la creazione del database, nonché il backup, l'applicazione di patch, l'aggiornamento e l'ottimizzazione del database.

Integrazione dei dati

Oracle Cloud Infrastructure Data Integration è un servizio cloud completamente gestito senza server che supporta e trasforma i dati per la data science e l'analitica. L'integrazione dei dati semplifica i processi complessi di estrazione, trasformazione e caricamento dei dati (ETL/E-LT) nei data lake e nei warehouse per la data science e l'analitica con il designer di flusso dati di Oracle. Fornisce protezione deriva automatica dello schema mediante un flusso di integrazione basato su regole che consente di evitare flussi di integrazione interrotti e ridurre la manutenzione con l'evoluzione degli schemi di dati.

Scienza dei dati

Oracle Cloud Infrastructure Data Science è una piattaforma completamente gestita e serverless che consente ai data scientist di creare, formare, distribuire e gestire modelli di machine learning su Oracle Cloud Infrastructure. I data scientist possono utilizzare la libreria Accelerated Data Science di Oracle (ADS) migliorata da Oracle per il machine learning automatico (AutoML), la valutazione dei modelli e la spiegazione dei modelli.

Analytics

Oracle Analytics Cloud è un servizio cloud pubblico scalabile e sicuro che offre un set completo di funzionalità per esplorare ed eseguire l'analitica collaborativa per l'utente, il gruppo di lavoro e l'azienda. Con Oracle Analytics Cloud hai anche a disposizione funzionalità di gestione dei servizi flessibili, tra cui configurazione rapida, scalabilità semplice e applicazione di patch e gestione automatizzata del ciclo di vita.