Piattaforma di apprendimento automatico su Autonomous Data Warehouse

Per tenere il passo con le esigenze di informazione in rapida evoluzione, le organizzazioni sono alla ricerca di ogni opportunità per addestrare, distribuire e gestire rapidamente i modelli di machine learning (ML).

Con Oracle Autonomous Data Warehouse (ADW) hai tutti gli strumenti integrati necessari per caricare e preparare i dati e formare, distribuire e gestire modelli di apprendimento automatico. Questi servizi sono inclusi in Autonomous Data Warehouse, ma hai anche la flessibilità di combinare e abbinare altri strumenti per soddisfare al meglio le esigenze della tua organizzazione.

Questa architettura di riferimento posiziona la soluzione tecnologica nel contesto aziendale complessivo:

Segue la descrizione di data-driven-business-context.png
Descrizione dell'illustrazione data-driven-business-context.png

Quando le organizzazioni implementano un data warehouse o un data mart insieme a una piattaforma di apprendimento automatico nel cloud, in genere hanno bisogno di integrare più servizi per implementare una soluzione end-to-end. Mentre per alcune organizzazioni, questo è realizzabile, per altri che mancano l'esperienza o le risorse per farlo, può essere un compito scoraggiante.

Una piattaforma di apprendimento automatico completa dovrebbe includere almeno quanto segue:

  • Facile accesso ai dati strutturati e non strutturati
  • Capacità di creare e gestire pipeline di ingegneria dei dati
  • Possibilità di creare modelli e classificare i dati su larga scala per soddisfare gli obiettivi aziendali
  • Piattaforma collaborativa per la costruzione di modelli di apprendimento automatico
  • Processo semplice per la gestione e la distribuzione dei modelli
  • Utilizzare AutoML per espandere la portata di quelli in grado di creare modelli di apprendimento automatico e accelerare il lavoro degli scienziati dei dati

La piattaforma di apprendimento automatico di strumenti inclusa in Autonomous Data Warehouse fornisce ai reparti e alle organizzazioni un modo efficace per offrire i vantaggi dell'apprendimento automatico senza fare affidamento sulle risorse IT e sulla disponibilità. Inoltre, gli aggiornamenti dei prodotti e le patch di sicurezza vengono gestiti automaticamente tramite Autonomous Data Warehouse.

Architettura

Questa architettura utilizza le funzioni di data science e machine learning incorporate in Oracle Autonomous Data Warehouse per analizzare i dati provenienti da un'ampia gamma di risorse di dati aziendali per l'analisi aziendale e l'apprendimento automatico.

Il diagramma riportato di seguito mostra più percorsi che un utente può seguire, a seconda del caso d'uso. Il percorso più semplice (linee solide) fornisce un metodo semplice per eseguire task di progettazione dei dati, per creare modelli di apprendimento automatico e per gestire e distribuire modelli con strumenti incorporati in Autonomous Data Warehouse (ADW). Per casi d'uso più avanzati (linee tratteggiate), abbiamo incluso altri servizi Oracle Cloud Infrastructure (OCI) che si integrano perfettamente con i servizi inclusi in ADW (chiusi nella casella grigia).

Segue la descrizione di ml-adw-architecture.png
Descrizione dell'illustrazione ml-adw-architecture.png

ml-adw-architecture-oracle.zip

L'architettura si concentra sulle seguenti divisioni logiche:

  • Inclusione, trasformazione

    Inclusione e perfezionamento dei dati da utilizzare in ciascun livello di dati nell'architettura.

  • Rendi persistenti, cura e crea

    Facilita l'accesso e la navigazione dei dati per mostrare la business view corrente. Per le tecnologie relazionali, i dati possono essere strutturati logicamente o fisicamente in forme semplici relazionali, longitudinali, dimensionali o OLAP. Per i dati non relazionali, questo livello contiene uno o più pool di dati, dall'output di un processo analitico o dai dati ottimizzati per un task analitico specifico.

  • Analizza, apprendi, prevedi

    Riassume la vista business logica dei dati per i consumatori. Questa astrazione facilita approcci agili allo sviluppo, la migrazione all'architettura target e la fornitura di un singolo layer di reporting da più origini federate.

Il diagramma riportato di seguito mostra un mapping dell'architettura ai servizi forniti su Oracle Cloud Infrastructure utilizzando le best practice per la sicurezza.



oci-adb-oac-arch-gw-oracle.zip

L'architettura ha i seguenti componenti:

  • Integrazione dei dati

    Autonomous Data Warehouse viene fornito con gli strumenti integrati necessari per acquisire, caricare e trasformare i dati per molti scenari dipartimentali e casi d'uso avanzati specifici. La funzionalità di caricamento inclusa in Autonomous Data Warehouse consente di caricare rapidamente i dati dallo storage locale o degli oggetti. Inoltre, è inclusa la funzionalità Autonomous Data Transforms che consente di connettersi ai dati di molti tipi di origine diversi e accedere alla funzionalità del tipo ELT.

    Per casi d'uso più avanzati, è disponibile Oracle Cloud Infrastructure Data Integration. Oracle Cloud Infrastructure Data Integration è un servizio cloud nativo completamente gestito e serverless che consente di eseguire task comuni di estrazione, caricamento e trasformazione (ETL), quali l'inclusione di dati da diverse fonti, la pulizia, la trasformazione e la rimodellazione di tali dati, nonché il caricamento efficiente di tali dati nelle origini dati di destinazione su Oracle Cloud Infrastructure.

  • Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse è un servizio di database con funzionalità di gestione, protezione e correzione automatiche ottimizzato per i carichi di lavoro del data warehousing. Non è necessario configurare o gestire alcun hardware o installare alcun software. Oracle Cloud Infrastructure gestisce la creazione del database, nonché il backup, l'applicazione di patch, l'aggiornamento e il tuning del database.

    Con Autonomous Data Warehouse hai la flessibilità di caricare i dati in più formati, tra cui strutturati, JSON, XML, grafici e spaziale. Questi sono gli strumenti autonomi che consentono di caricare facilmente i dati nelle tabelle e di eseguire semplici operazioni ETL.

    Oracle Machine Learning è integrato nel nucleo di Autonomous Data Warehouse. Ciò consente l'esecuzione di algoritmi nel database nel kernel del database e produce oggetti di database di prima classe per la distribuzione immediata.

  • Storage degli oggetti

    Oracle Cloud Infrastructure Object Storage è una piattaforma di memorizzazione su scala Internet ad alte prestazioni che offre una durata dei dati affidabile ed efficiente in termini di costi. Oracle Cloud Infrastructure Object Storage può memorizzare una quantità illimitata di dati non strutturati di qualsiasi tipo di contenuto, compresi i dati analitici. È possibile memorizzare o recuperare i dati direttamente da Internet o dall'interno della piattaforma cloud. Più interfacce di gestione consentono di avviare facilmente piccole e scalabili senza problemi, senza subire alcun degrado nelle prestazioni o nell'affidabilità del servizio.

  • Previsione

    Oracle Machine Learning Services estende la funzionalità OML (Oracle Machine Learning) per supportare la distribuzione dei modelli e la gestione del ciclo di vita dei modelli sia per i modelli Oracle Machine Learning nel database che per i modelli di apprendimento automatico ONNX (Open Neural Networks Exchange) di terze parti tramite API REST. Oracle Machine Learning Services supporta il punteggio in tempo reale e ridotto per applicazioni e dashboard.

    L'API REST per Oracle Machine Learning Services fornisce agli endpoint REST l'autenticazione tramite Autonomous Data Warehouse. Questi endpoint consentono la memorizzazione e la gestione dei modelli di apprendimento automatico e dei relativi metadati. Questi endpoint consentono anche la creazione di endpoint di punteggio per i modelli.

    Oracle Machine Learning Services supporta modelli di classificazione o regressione di terze parti che possono essere creati utilizzando pacchetti come Scikit-learn e TensorFlow, tra gli altri, quindi esportati in formato ONNX. Oracle Machine Learning Services supporta l'analisi del testo cognitivo integrata per la ricerca automatica degli argomenti, le parole chiave, il riepilogo, il sentimento e la somiglianza. Oracle Machine Learning Services supporta inoltre la classificazione delle immagini tramite la distribuzione di modelli in formato ONNX di terze parti e supporta il punteggio utilizzando immagini o tensori.

    Gli utenti possono anche prevedere direttamente nel database utilizzando modelli nel database di SQL, R e Python per il punteggio batch su base singola, piccola e grande scala. Gli utenti possono utilizzare l'esecuzione Python incorporata in OML4Py per richiamare la funzione Python definita dall'utente con modelli prodotti da package di terze parti e fare previsioni dalle interfacce Python e REST.

  • Informazioni

    Oracle Machine Learning Notebooks offrono un'interfaccia utente collaborativa per data scientist e analisti aziendali e di dati per lavorare con SQL e interpreti Python e, al contempo, eseguire il machine learning in Oracle Autonomous Database, che include Autonomous Data Warehouse (ADW), Autonomous Transaction Processing (ATP) e Autonomous JSON Database (AJD). Oracle Machine Learning Notebooks consentono al più ampio team di data science (data scientist, data scientist alle prime armi, analisti di dati, ingegneri di dati, DBA) di collaborare per esplorare i propri dati visivamente e sviluppare metodologie analitiche utilizzando OML4SQL e OML4Py. L'interfaccia notebook offre l'accesso alle implementazioni in-database scalabili, parallele e ad alte prestazioni di Oracle di algoritmi di apprendimento automatico tramite Python, SQL e PL/SQL. È possibile accedere alla funzionalità nel database anche tramite la connessione ad Autonomous Database tramite interfacce esterne, come SQL Developer, ambienti notebook open source e ambienti IDE di terze parti.

    OML4Py fornisce anche un'API Python per l'apprendimento automatico automatico automatico (AutoML) per la selezione automatica di algoritmi e funzioni e per il tuning e la selezione automatici del modello.

    L'interfaccia utente di Oracle Machine Learning AutoML (interfaccia utente OML AutoML) è un'interfaccia utente priva di codice che offre apprendimento automatico con facilità di distribuzione nei servizi Oracle Machine Learning. Gli utenti business senza una vasta esperienza nel campo della data science possono utilizzare l'interfaccia utente OML AutoML per creare e distribuire modelli di apprendimento automatico, nonché generare un notebook OML contenente il codice OML4Py corrispondente per ricreare il modello e classificare i dati a livello di programmazione.

    Gli scienziati esperti dei dati possono utilizzare l'interfaccia utente AutoML OML come acceleratore di produttività per un'esplorazione dei modelli più rapida, per semplificare la distribuzione e per la generazione dei notebook di avvio.

  • Analitica

    Oracle Analytics Cloud è un servizio cloud pubblico scalabile e sicuro che offre un set completo di funzionalità per esplorare ed eseguire l'analitica collaborativa per l'utente, il gruppo di lavoro e l'azienda.

    Oracle Analytics Cloud è integrato con Oracle Machine Learning con l'accesso a modelli nel database che possono essere cercati, visualizzati e distribuiti nei flussi di lavoro e nei dashboard di Oracle Analytics Cloud.

    Con Oracle Analytics Cloud è inoltre possibile ottenere funzionalità di gestione dei servizi flessibili, tra cui configurazione rapida, scalabilità e applicazione di patch semplici e gestione automatizzata del ciclo di vita.

Suggerimenti

Utilizzare i suggerimenti riportati di seguito come punto di partenza per creare una piattaforma sia per un data warehouse cloud avanzato che per un framework di operazioni di machine learning.

Le vostre esigenze potrebbero differire dall'architettura descritta qui.

  • Inclusione, trasformazione

    Autonomous Database Tools è una funzionalità incorporata in Oracle Autonomous Data Warehouse che fornisce le funzionalità per caricare, trasformare, catalogare, acquisire informazioni dettagliate e persino sviluppare modelli aziendali in modo semplice e semplice.

  • Analizza, apprendi, prevedi

    Prima di connettersi a Oracle Analytics Cloud a Oracle Autonomous Data Warehouse, disporre di un amministratore del database che consenta l'indirizzo IP (o l'intervallo di indirizzi) per l'istanza Oracle Analytics Cloud. L'amministratore del database deve aggiungere una regola di sicurezza che consenta il traffico TCP/IP da Oracle Analytics Cloud al database.

Considerazioni

Quando si crea un framework di operazioni di machine learning in combinazione con il data warehouse cloud, prendere in considerazione queste opzioni di implementazione.

  • Gravità dei dati: mantenere la struttura delle operazioni di apprendimento automatico vicino ai dati per limitare l'elevato costo del movimento dei dati, sia monetariamente che in termini di tempo di sviluppo del modello di apprendimento automatico (anche per il punteggio dei dati utilizzando modelli di apprendimento automatico).
  • Tempo di valutazione più rapido: i suggerimenti nella tabella riportata di seguito ti aiuteranno a iniziare più velocemente e a ridurre il tempo necessario per iniziare a realizzare il valore della soluzione.
Linea guida Consigliato Altre opzioni Motivazione
Inclusione, trasformazione Strumenti di Autonomous Database Integrazione dei dati Oracle Cloud Infrastructure Dipende dal caso d'uso. Per caricare facilmente i dati dai file sullo storage degli oggetti o sullo storage dei dati locale, utilizzare Autonomous Database Tools. Come accennato in precedenza, le trasformazioni dei dati di Autonomous Data Warehouse possono essere utilizzate anche in base al caso d'uso. Per i casi più avanzati, utilizzare Oracle Cloud Infrastructure Data Integration, che è un servizio on-demand.
Persistenza Oracle Autonomous Data Warehouse Autonomous Data Warehouse è un data warehouse cloud che non solo fornisce le esigenze di analitica di un data warehouse, ma include anche la funzionalità per distribuire una struttura operativa avanzata di Oracle Machine Learning. Inoltre, puoi accedere direttamente ai dati dallo storage degli oggetti tramite tabelle esterne memorizzate in qualsiasi formato e tipo.
Informazioni Oracle Machine Learning Notebooks con OML4SQL, OML4Py e OML4R

Oracle Machine Learning AutoML UI

Terze parti

Scienza dei dati OCI

I notebook OML sono un ambiente di notebook collaborativo incluso nella piattaforma Autonomous Data Warehouse. Utilizzando OML4SQL, OML4Py e OML4R, un utente può creare modelli direttamente nel database. I modelli nel database possono essere esportati e importati tra Oracle Database e Autonomous Data Warehouse. Gli utenti possono creare modelli Python e R utilizzando strumenti di terze parti con ambienti Conda personalizzati all'interno di Autonomous Database oppure crearli al di fuori del framework Oracle Machine Learning e memorizzare questi modelli nativi nel data store del database da utilizzare con l'esecuzione di OML4Py-embedded e OML4R-embedded.
Prevedi

Servizi Oracle Machine Learning

Oracle Machine Learning Notebooks con OML4SQL, OML4Py e OML4R

Data science Oracle Cloud Infrastructure

Modelli nel database che utilizzano query SQL e interfacce OML4R/OML4Py

Possibilità di assegnare un punteggio al modello mediante l'API REST con distribuzione del modello gestita da Oracle Machine Learning Services. Oracle Machine Learning Services consente inoltre l'importazione di modelli creati al di fuori del framework Oracle Machine Learning tramite il formato ONNX. Ciò può includere modelli prodotti in Oracle Cloud Infrastructure Data Science.
Accesso e interpretazione Oracle Analytics Cloud Strumenti di terze parti Oracle Analytics Cloud è completamente gestito e perfettamente integrato con il framework Oracle Machine Learning. Una delle funzionalità chiave è la possibilità di distribuire modelli incorporati in Oracle Machine Learning a Oracle Analytics Cloud per l'apprendimento automatico scalabile e nei dashboard.

Distribuzione

Il codice richiesto per distribuire questa architettura di riferimento è disponibile in GitHub. È possibile estrarre il codice in Oracle Cloud Infrastructure Resource Manager con un solo clic, creare lo stack e distribuirlo. In alternativa, scaricare il codice da GitHub nel computer, personalizzare il codice e distribuire l'architettura utilizzando Terraform CLI.

  • Distribuisci utilizzando Oracle Cloud Infrastructure Resource Manager:
    1. Fare clic su Distribuire in Oracle Cloud

      Se non si è già connessi, immettere la tenancy e le credenziali utente.

    2. Rivedere e accettare i termini e le condizioni.
    3. Selezionare l'area in cui distribuire lo stack.
    4. Seguire le istruzioni e i prompt sullo schermo per creare lo stack.
    5. Dopo aver creato lo stack, fare clic su Azioni Terraform e selezionare Piano.
    6. Attendere il completamento del job e rivedere il piano.

      Per apportare eventuali modifiche, tornare alla pagina Dettagli stack, fare clic su Modifica stack e apportare le modifiche necessarie. Eseguire di nuovo l'azione Piano.

    7. Se non sono necessarie ulteriori modifiche, tornare alla pagina Dettagli stack, fare clic su Azioni Terraform e selezionare Applica.
  • Distribuzione con il codice Terraform in GitHub:
    1. Andare a GitHub.
    2. Duplicare o scaricare il repository nel computer locale.
    3. Seguire le istruzioni contenute nel documento README.

Log modifiche

Questo log elenca le modifiche significative: