Forma i modelli di apprendimento automatico per i casi d'uso sanitari

Utilizza il servizio Oracle Cloud Infrastructure Data Science per esplorare e formare modelli di machine learning per i casi d'uso del settore sanitario.

Architettura

Questa architettura mostra una distribuzione tipica di Oracle Cloud Infrastructure Data Science in Oracle Cloud Infrastructure (OCI).

Il diagramma riportato di seguito mostra i servizi di base e alcuni dei servizi facoltativi che è possibile incorporare, se necessario.

Descrizione di Healthcare-ml-design-pattern.png segue
Descrizione dell'illustrazione Healthcare-ml-design-pattern.png

struttura-design-pattern-oracle.zip

Di seguito sono riportati i componenti chiave dell'architettura.

  • Storage degli oggetti o Oracle Autonomous Database come posizione di storage.
  • Sessione notebook Data Science per l'esplorazione e lo sviluppo dei modelli
  • Distribuzione del modello per produrre i modelli e renderli disponibili mediante un'interfaccia API REST.

Questa architettura supporta i seguenti componenti:

  • Area

    Un'area Oracle Cloud Infrastructure è un'area geografica localizzata che contiene uno o più data center, denominati domini di disponibilità. Le regioni sono indipendenti da altre regioni e le grandi distanze possono separarle (tra paesi o addirittura continenti).

  • Rete cloud virtuale (VCN) e subnet

    Una VCN è una rete personalizzabile definita dal software che si imposta in un'area Oracle Cloud Infrastructure. Analogamente alle reti di data center tradizionali, i VCN offrono un controllo completo sull'ambiente di rete. Una VCN può avere più blocchi CIDR non sovrapposti che è possibile modificare dopo aver creato la VCN. Puoi suddividere una VCN in subnet, che possono essere definite in un'area o in un dominio di disponibilità. Ogni subnet è composta da un intervallo contiguo di indirizzi che non si sovrappongono alle altre subnet nella VCN. Puoi modificare la dimensione di una subnet dopo la creazione. Una subnet può essere pubblica o privata.

  • Gateway Internet

    Il gateway Internet consente il traffico tra le subnet pubbliche in una VCN e la rete Internet pubblica.

  • Gateway API

    Oracle API Gateway ti consente di pubblicare le API con endpoint privati accessibili dalla tua rete e che puoi esporre alla rete Internet pubblica, se necessario. Gli endpoint supportano la convalida, la trasformazione delle richieste e delle risposte API, CORS, l'autenticazione e l'autorizzazione e il limite delle richieste.

  • Integrazione dei dati

    Oracle Cloud Infrastructure Data Integration è un servizio completamente gestito, serverless e cloud nativo che estrae, carica, trasforma, pulisce e rimodella i dati da una vasta gamma di origini dati nei servizi Oracle Cloud Infrastructure di destinazione, ad esempio Autonomous Data Warehouse e Oracle Cloud Infrastructure Object Storage. ETL (Extract Transform Load; estrazione del carico di trasformazione) utilizza processi di scale-out completamente gestiti su Spark e ELT (trasformazione del carico di estrazione) utilizza funzionalità push-down SQL complete di Autonomous Data Warehouse per ridurre al minimo lo spostamento dei dati e migliorare il time-to-value per i nuovi dati in entrata. Gli utenti progettano i processi di integrazione dei dati utilizzando un'interfaccia utente intuitiva e senza codice che ottimizza i flussi di integrazione per generare il motore e l'orchestrazione più efficienti, allocando e ridimensionando automaticamente l'ambiente di esecuzione. Oracle Cloud Infrastructure Data Integration offre esplorazione interattiva e preparazione dei dati e aiuta i tecnici dei dati a proteggere dalla deviazione dello schema definendo le regole per gestire le modifiche allo schema.

  • Catalogo dati

    Oracle Cloud Infrastructure Data Catalog è una soluzione di ricerca automatica e gestione del controllo dei dati self-service completamente gestita per i dati aziendali. Fornisce ai responsabili dei dati, ai data scientist, agli steward dati e ai Chief Data Officer un singolo ambiente collaborativo per gestire i metadati tecnici, aziendali e operativi dell'organizzazione.

  • Storage oggetto

    Lo storage degli oggetti ti consente di accedere rapidamente a grandi quantità di dati strutturati e non strutturati di qualsiasi tipo di contenuto, inclusi i backup del database, i dati analitici e i contenuti avanzati quali immagini e video. Puoi archiviare e recuperare i dati in modo sicuro direttamente da Internet o dall'interno della piattaforma cloud. Puoi ridimensionare lo storage in modo trasparente senza subire cali di prestazioni o affidabilità dei servizi. Puoi utilizzare lo storage standard per lo storage "hot" a cui hai bisogno per accedere in modo rapido, immediato e frequente. Utilizzare lo storage di archivio per lo storage in grassetto conservato per lunghi periodi di tempo e accesso raramente eseguito.

  • Autonomous Database

    Oracle Cloud Infrastructure Autonomous Database è un ambiente di database completamente gestito e preconfigurato che puoi utilizzare per i carichi di lavoro di elaborazione delle transazioni e data warehousing. Non è necessario configurare o gestire alcun componente hardware né installare software. Oracle Cloud Infrastructure gestisce la creazione del database, nonché il backup, l'applicazione di patch, l'aggiornamento e il tuning del database.

  • Scienza dei dati

    Oracle Cloud Infrastructure Data Science è un servizio di apprendimento automatico (ML) end-to-end che offre ambienti notebook JupyterLab e accesso a centinaia di strumenti e framework open source più diffusi. Crea e forma modelli ML con GPU NVIDIA, funzioni AutoML e ottimizzazione automatizzata degli iperparametri. Distribuisci i modelli sotto forma di endpoint HTTP o utilizza Oracle Functions. Gestisci i modelli attraverso il controllo delle versioni, processi ripetibili e cataloghi di modelli.

Considerazioni per l'apprendimento automatico

Quando iniziare a usare l'apprendimento automatico sul servizio Oracle Cloud Infrastructure Data Science, tenere presente quanto riportato di seguito.

  • Descrizione dei dati

    I dati sono la componente primaria e più critica di qualsiasi progetto di apprendimento automatico. I set di dati pubblicati sono stati di solito curati e le funzionalità potrebbero anche essere state estratte per te, rendendolo una buona scelta per imparare il servizio.

    L'utilizzo di nuovi dati richiede più lavoro per il cleanup degli artifact, l'imputazione dei valori mancanti e la trasformazione, la codifica o il potenziamento del set di dati con funzioni aggiuntive.

    Questa parte del flusso di lavoro di data scientist richiede in genere più tempo e può facilmente considerare l'80% - 90% del tempo trascorso in un progetto di apprendimento automatico.

  • Impara la sintassi di Jupyter Notebook

    Il servizio Oracle Cloud Infrastructure Data Science si basa sulla struttura ampiamente adottata di Jupyter Notebook. Offre un ambiente visivo completo per provare i dati nella lingua python. Python è uno dei linguaggi più popolari per Data Science e Jupyter Notebook aumenta il linguaggio con una sintassi specifica (chiamata magia) che aiuta a ridurre alcune operazioni complesse e migliorare il rendering visivo dei dati. Approfitta del tempo per saperne di più sulla sintassi specifica di Jupyter Notebook per sfruttare queste funzionalità.

  • Utilizza job per operazioni costose

    Mentre l'esplorazione è un'attività molto interattiva che si adatta bene all'interfaccia Jupyter Notebook, operazioni costose come la formazione dei modelli e l'ottimizzazione degli iperparametri possono richiedere un lungo periodo di tempo e possono essere scaricate dalla funzione Job, che consente agli utenti di eseguire script a lunga esecuzione su computer dedicati.