Questa architettura mostra come usare Oracle Cloud Infrastructure (OCI) Data Lakehouse per creare una piattaforma di dati moderna per includere, elaborare, memorizzare, servire e visualizzare i dati da origini strutturate e non strutturate.
I componenti architettonici sono suddivisi in 4 fasi e presentati come flusso di dati funzionale:
- Produttori di dati: i produttori di dati in streaming includono i produttori Kafka per i dati sui prezzi e sui tassi di cambio e i produttori di eventi per i dati commerciali. I dati non strutturati vengono trasferiti direttamente nello storage degli oggetti ("bronze" data lake). I produttori di dati pianificati o attivati da eventi includono dati batch provenienti dallo storage di file e dati di riferimento provenienti dai sistemi di database.
- Inclusione/caricamento: i dati di streaming persistenti vengono trasmessi allo storage degli oggetti "bronze". Lo streaming dei dati viene elaborato anche come dati commerciali anomali e informazioni dettagliate sui fondi in tempo reale. I dati pianificati o attivati da eventi vengono elaborati da Data Integration e vengono passati allo storage degli oggetti "bronze".
- Persistenza/trasformazione/computazione:
- I dati di streaming vengono elaborati da Kafka Connect per produrre informazioni approfondite sui fondi in tempo reale e analitica in streaming. L'hub connettore servizio coordina i dati commerciali anomali e con le Oracle Cloud Infrastructure Notifications per gli insight dell'utente.
- Oracle Cloud Infrastructure Events, Oracle Functions e OCI Vision fornisce OCR ed estrazione di testo per le immagini Fax dallo storage di oggetti in bronzo e i dati risultanti nello storage di oggetti "silver".
- All'interno del data lakehouse, Oracle Cloud Infrastructure Data Flow pulisce i dati dallo storage degli oggetti in bronzo e li trasmette allo storage degli oggetti in argento. Inoltre, Data Flow elabora i dati dallo storage degli oggetti Silver e li passa allo storage degli oggetti "gold". Oracle Autonomous Data Warehouse (ADW) e Oracle Cloud Infrastructure Data Catalog forniscono dati "gold" per utenti finali e analytics.
- Servire/visualizzare: gli utenti finali accedono a dati anomali in streaming o utilizzano OpenSearch per l'analitica e le informazioni dettagliate in tempo reale. Gli utenti possono utilizzare Oracle Analytics Cloud o l'analitica di terze parti per sfruttare i dati del data lakehouse. I data scientist possono inoltre utilizzare le data science di Oracle Cloud Infrastructure per sfruttare i dati provenienti dal data lakehouse.