Progetta una data lakehouse per l'analisi dell'inventario retail
I clienti di alimentari elencano la merce fuori magazzino come motivo chiave per una cattiva esperienza di acquisto. Oltre alla disponibilità dei prodotti, i consumatori si aspettano che il loro tempo in negozio sia breve ed efficiente. Ora, più che mai, i retailer devono offrire un'esperienza di acquisto trasparente e l'elemento chiave per realizzare questo obiettivo sono i dati.
I retailer vogliono acquisire una grande quantità di dati e passare a soluzioni di big data basate sul cloud per aggregare e gestire i dati per una visibilità in tempo reale delle scorte. Una gestione del data lake progettata su Oracle Cloud Infrastructure (OCI) può acquisire, gestire e ottenere insight dai dati prodotti dai sistemi point-of-sale, di inventario, di clienti e operativi per comprendere la gestione dell'inventario in tempo reale.
Questa architettura di riferimento introduce una topologia di piattaforma, una panoramica dei componenti e best practice consigliate per l'implementazione di una data lakehouse di successo in OCI.
- Clienti che interagiscono con il commerciante online (web o mobile), con ritiro o consegna o fisicamente presso i negozi, sia tramite l'interazione con un dipendente del negozio o tramite computer self-service.
- I manager dei negozi, che desiderano avere visibilità su come vendono prodotti e categorie di prodotti, ottengono insight predittivi come il consumo di magazzino e gestiscono azioni automatiche, ad esempio l'approvvigionamento automatico.
- Upper Management, che è interessato all'analitica in tempo reale avanzata con funzionalità di visualizzazione, reporting e intelligenza artificiale.
- I data scientist, lavorando sui big data, crescendo la quantità e il numero di fonti, richiedendo elaborazioni e flessibilità rapide per implementare facilmente i modelli.
- Sviluppatori a basso codice, che lavorano su applicazioni esistenti e nuove basate sui dati, con particolare attenzione alla semplicità e al minor tempo possibile di gestione della sicurezza e delle operazioni.
Architettura
Una delle principali complessità del commercio al dettaglio è la molteplicità di sistemi, modelli e tipi di dati, nonché una quantità sempre crescente di dati. Questa sfida richiede la semplificazione e il consolidamento, che è qualcosa che un'architettura dei data lakehouse OCI può aiutare a realizzare.
Il diagramma riportato di seguito introduce l'architettura di riferimento concettuale per le aziende al dettaglio.
Descrizione dell'illustrazione retail-lakehouse-arch.png
Autonomous Data Warehouse (ADW) è uno degli elementi centrali dell'architettura dei data lakehouse OCI. Automatizza provisioning, configurazione, protezione, ottimizzazione, scalabilità e backup del data warehouse. Include strumenti per il caricamento dei dati self-service, le trasformazioni dei dati, i modelli aziendali, gli insight automatici e le funzionalità integrate di database convergente che consentono query più semplici su più tipi di dati e analisi del machine learning. Il machine learning su ADW offre il vantaggio di avere algoritmi in cui i dati sono, per ottenere performance di massimo livello. ADW è strettamente integrato con lo storage degli oggetti OCI, che qui funge da data lake, come storage illimitato e a basso costo per i dati non strutturati.
Le iniziative dedicate alla data science e all'apprendimento automatico possono determinare risultati quali previsioni di vendita intelligenti basate sulla stagione, il verificarsi di campagne di marketing, le caratteristiche della popolazione dei clienti (ad esempio gruppi di età) e la posizione, mentre Oracle Spatial & Graph fornisce il supporto della posizione necessario. Tali iniziative possono essere supportate dai notebook OML di ADW (basati su Apache Zeppelin) e accessibili tramite OAC, utilizzando Data Science (JupyterLab/Python-centric) e Oracle APEX viene illustrato come lo standard Gold per le applicazioni personalizzate con uso ridotto di codice.
I diversi canali attraverso i quali i clienti interagiscono con il commerciante, come visibile nel diagramma e sopra menzionato, spesso si affidano ad applicazioni su misura. Oracle Container Engine for Kubernetes è una solida piattaforma che garantisce scalabilità e controllo aggiuntivo su microservizi e applicazioni.
Un esempio di uso moderno dell'AI aziendale è l'assistente digitale. In questo caso d'uso, gli assistenti digitali basati sull'intelligenza artificiale vengono utilizzati, in base ai dati interni, per un'interfaccia di conversazione per app e chioschi con suggerimenti da cui è possibile intraprendere azioni.
- Marketing: analizza social media, recensioni e notizie per capire cosa dicono i clienti e gli esperti del settore sul tuo prodotto. Scopri cosa preferiscono, quali nuove funzionalità preferiscono e come si posiziona rispetto ai concorrenti.
- Supporto clienti: classifica i ticket di supporto per prodotto e reparto, in modo che i biglietti raggiungano più velocemente il team appropriato. Utilizza l'analisi delle opinioni per identificare i punti di dolore urgenti e dare la priorità ai biglietti.
- Risorse umane: Automatizza lo screening del curriculum utilizzando il riconoscimento dell'entità per identificare le competenze chiave e l'istruzione. Classifica il feedback dei dipendenti utilizzando l'analisi delle opinioni e il riconoscimento delle entità per identificare i punti critici più comuni tra i dipendenti e i passi successivi migliori da intraprendere.
Con la data lakehouse è possibile sfruttare i dati ovunque e normalizzati direttamente, eseguire AI/ML integrati su scala Exadata, eseguire la scalabilità automatica in qualsiasi momento (ADW) e fare affidamento su controlli di sicurezza avanzati per ridurre notevolmente i rischi.
- Le piattaforme Oracle ERP, CRM, POS ed esterne inviano dati ed eventi alla data lakehouse, in tempo reale o tramite l'elaborazione in batch, con l'aiuto di Oracle GoldenGate e Oracle Data Integration.
- In questo esempio Oracle Integration Cloud svolge il ruolo aggiuntivo di invio dei dati dalla data lakehouse a Oracle Procurement, tramite il quale i fornitori possono essere avvisati degli ordini di acquisto inseriti automaticamente.
- ADW utilizza un acceleratore delle query per eseguire query rapide e trasparenti sul data lake dello storage degli oggetti.
- Il gateway API scalabile espone i dati su larga scala alle applicazioni
- Oracle Analytics Cloud e Oracle Data Science si integrano perfettamente con i servizi della data lake.
- Autonomous Data Warehouse
Un database autonomo di Oracle e di ridimensionamento automatico completamente gestito che include Oracle Machine Learning. I data scientist possono creare, valutare, classificare e implementare modelli di machine learning utilizzando le funzioni Oracle Machine Learning all'interno del database e l'interfaccia dei notebook correlati.
- Memorizzazione degli oggetti
Lo storage degli oggetti OCI è una piattaforma di storage su scala Internet ad alte prestazioni che offre durabilità dei dati affidabile ed economica. Lo storage degli oggetti può memorizzare una quantità illimitata di dati non strutturati di qualsiasi tipo di contenuto, inclusi i dati analitici. Puoi memorizzare o recuperare i dati direttamente da Internet o dall'interno della piattaforma cloud. Le molteplici interfacce di gestione ti consentono di scegliere le dimensioni in base alle esigenze, senza incidere negativamente sulle prestazioni o sull'affidabilità del servizio.
Lo storage degli oggetti può anche essere utilizzato come livello di storage a freddo per il data warehouse memorizzando i dati utilizzati in modo poco frequente e collegandoli in modo trasparente con i dati più recenti utilizzando i tavoli ibridi in Oracle Autonomous Data Warehouse.
- Data Catalog
Il Data Catalog OCI è una soluzione di rilevamento e gestione del controllo dei dati self-service completamente gestita per i dati aziendali. Data Catalog offre un unico ambiente collaborativo per gestire i metadati tecnici, aziendali e operativi.
- Oracle Analytics Cloud
Oracle Analytics Cloud è un servizio cloud pubblico scalabile e sicuro che offre agli analisti aziendali funzionalità di analisi dei dati moderne, basate sull'AI e self-service per la preparazione, la visualizzazione dei dati, la reportistica aziendale, l'analisi migliorata e l'elaborazione e la generazione del linguaggio naturale. Con Oracle Analytics Cloud, ottieni anche funzionalità flessibili di gestione dei servizi, tra cui configurazione rapida, scalabilità e applicazione di patch, nonché gestione automatica del ciclo di vita.
Oracle Analytics Cloud è integrato con Oracle Machine Learning. Questa integrazione consente agli analisti di elencare i modelli in-database disponibili e di utilizzare tali modelli nell'analitica e nei dashboard di Oracle Analytics Cloud. OAC Data Visualization consente agli utenti di applicare modelli di machine learning predefiniti o personalizzati e al tempo stesso di visualizzare i dati.
- Scienza dei dati
OCI Data Science è una piattaforma completamente gestita e serverless che consente ai team addetti al data science di creare, formare e gestire modelli di apprendimento automatico (ML) mediante OCI. Può integrarsi facilmente con altri servizi OCI, ad esempio Autonomous Data Warehouse, storage degli oggetti e molto altro ancora. Puoi creare e valutare modelli di machine learning di alta qualità, aumentare la flessibilità aziendale mettendo a disposizione dati affidabili per le aziende in modo che funzionino rapidamente e supportino obiettivi aziendali basati sui dati con un'implementazione più semplice dei modelli ML.
Data Science si integra con il resto dello stack OCI, incluse funzioni, flusso di dati, Autonomous Data Warehouse e storage degli oggetti. Oracle Accelerated Data Science Software Developer Kit (SDK) è una libreria Python inclusa nel servizio OCI Data Science, che dispone di molte funzioni e oggetti che automatizzano o semplificano i passi del flusso di lavoro di Data Science, inclusa la connessione ai dati, l'esplorazione e la visualizzazione dei dati, la formazione di un modello con AutoML, la valutazione dei modelli e la spiegazione dei modelli. ADS offre anche un'interfaccia semplice per accedere al catalogo dei modelli di servizio Data Science e ad altri servizi OCI, incluso lo storage degli oggetti.
- Oracle Data Integration
Utilizza l'integrazione dei dati OCI per ottenere un flusso di dati ottimale tra i sistemi. Supporta lo sviluppo dichiarativo, senza codice o ETL e della pipeline di dati con uso ridotto del codice.
- GoldenGate
Oracle Cloud Infrastructure GoldenGate è un servizio gestito che fornisce una piattaforma di mesh dei dati in tempo reale, che utilizza la replica per mantenere alta la disponibilità dei dati e abilitare l'analisi in tempo reale. I clienti possono progettare, eseguire e monitorare le proprie soluzioni di replica dei dati e di elaborazione dei dati di flusso senza dover allocare o gestire gli ambienti di calcolo.
- Gateway API
Il servizio gateway API consente di pubblicare le API con endpoint privati accessibili dalla rete e che, se necessario, possono essere esposte alla rete Internet pubblica. Gli endpoint supportano la convalida dell'API, la trasformazione di richieste e risposte, CORS, l'autenticazione e l'autorizzazione e la limitazione delle richieste.
- Rete cloud virtuale
Uno dei primi passi in OCI è l'impostazione di una rete cloud virtuale (VCN) per le risorse cloud. Una VCN è una rete definita dal software impostata nell'area OCI. Le VCN possono essere segmentate in subnet, che possono essere specifiche di un'area o di un dominio di disponibilità. Sia le subnet specifiche dell'area che quelle del dominio di disponibilità possono coesistere nella stessa VCN. Una subnet può essere pubblica o privata.
- Container Engine for Kubernetes
Container Engine for Kubernetes OCI è un servizio completamente gestito, scalabile e ad alta disponibilità che puoi utilizzare per distribuire le tue applicazioni containerizzate nel cloud. Puoi specificare le risorse di computazione richieste dalle tue applicazioni e il provisioning di Container Engine for Kubernetes su Oracle Cloud Infrastructure in una tenancy esistente. Container Engine for Kubernetes utilizza Kubernetes per automatizzare la distribuzione, la scalabilità e la gestione delle applicazioni containerizzate in cluster di host.
- Registro
OCI Registry è un registro gestito da Oracle che ti consente di semplificare il flusso di lavoro dallo sviluppo alla produzione. Registry semplifica la memorizzazione, la condivisione e la gestione degli artifact di sviluppo, ad esempio le immagini Docker. L'architettura altamente disponibile e scalabile di Oracle Cloud Infrastructure assicura che tu possa distribuire e gestire le tue applicazioni in modo affidabile.
Suggerimenti
- VCN
Quando crei una VCN, determina il numero di blocchi CIDR necessari e la dimensione di ogni blocco in base al numero di risorse che intendi collegare alle subnet nella VCN. Utilizzare i blocchi CIDR che si trovano all'interno dello spazio di indirizzi IP privati standard.
Selezionare i blocchi CIDR che non si sovrappongono a qualsiasi altra rete (in Oracle Cloud Infrastructure, il data center on premise o un altro provider cloud) a cui si intende impostare connessioni private.
Dopo aver creato una VCN, è possibile modificare, aggiungere e rimuovere i relativi blocchi CIDR.
Durante la progettazione delle subnet, prendi in considerazione i requisiti di flusso del traffico e sicurezza. Associare tutte le risorse all'interno di un livello o ruolo specifico alla stessa subnet, che può fungere da limite di sicurezza.
- Sicurezza
Utilizza i criteri per limitare l'accesso alle risorse OCI di cui la tua azienda dispone e le modalità di accesso.
Utilizza Oracle Cloud Guard per monitorare e gestire in modo proattivo la sicurezza delle tue risorse in OCI. Cloud Guard utilizza ricette del rilevatore che è possibile definire per esaminare le risorse per i punti deboli della sicurezza e per monitorare operatori e utenti per le attività a rischio. Quando viene rilevata una configurazione errata o un'attività non sicura, Cloud Guard consiglia azioni correttive e supporta tali azioni in base alle ricette del rispondente che è possibile definire. Per le risorse che richiedono la massima sicurezza, Oracle consiglia di utilizzare le zone di sicurezza. Una zona di sicurezza è un compartimento associato a una ricetta definita da Oracle di criteri di sicurezza basati sulle migliori prassi. Ad esempio, le risorse in una zona di sicurezza non devono essere accessibili dalla rete Internet pubblica e devono essere cifrate utilizzando chiavi gestite dal cliente. Quando crei e aggiorna le risorse in una zona di sicurezza, OCI convalida le operazioni rispetto ai criteri contenuti nella ricetta della zona di sicurezza e nega le operazioni che violano qualsiasi criterio.
- Autonomous Data Warehouse
Lo storage degli oggetti offre una durabilità dei dati affidabile ed efficiente in termini di costi, offre un accesso rapido a grandi quantità di dati strutturati e non strutturati di qualsiasi tipo di contenuto, inclusi dati di database, dati analitici, immagini, video e molto altro ancora. Consigliamo di usare lo storage standard per includere dati da origini esterne e usarli per ulteriore elaborazione in quanto può accedere rapidamente e frequentemente. Puoi creare un criterio del ciclo di vita per spostare i dati nello storage a freddo dallo standard quando non sono più necessari di frequente.
- Data Catalog
Data Catalog Per avere una visione completa e olistica end-to-end dei dati memorizzati e in streaming sulla piattaforma, prendere in considerazione non solo i data store che supportano il livello di persistenza dei dati, ma anche i data store di origine. Mappare i metadati tecnici raccolti al glossario aziendale e arricchirli con proprietà personalizzate consente di mappare i concetti aziendali e documentare e gestire le definizioni di sicurezza e accesso.
Per facilitare la creazione di tabelle esterne di Oracle Autonomous Data Warehouse che virtualizzano i dati memorizzati in Oracle Cloud Infrastructure Object Storage, utilizza i metadati raccolti in precedenza dal Data Catalog di Oracle Cloud Infrastructure. Ciò semplifica la creazione di tabelle esterne, applica la coerenza dei metadati tra i data store ed è meno sensibile all'errore umano.