Data Science Service: casi d'uso dell'assistenza sanitaria

Oracle Cloud Infrastructure Data Science (OCI) Data Science è una piattaforma completamente gestita e priva di server per i team di Data Science per creare, formare e gestire modelli di apprendimento automatico.

Data Science si integra con il resto dello stack OCI, inclusi Oracle Functions, Data Flow, Autonomous Data Warehouse e Object Storage. Oracle Accelerated Data Science (ADS) Software Developer Kit (SDK) è una libreria Python inclusa nel servizio Data Science, che dispone di molte funzioni e oggetti che automatizzano o semplificano i passi del flusso di lavoro Data Science, tra cui la connessione ai dati, l'esplorazione e la visualizzazione dei dati, la formazione di un modello con AutoML, la valutazione dei modelli e la spiegazione dei modelli. ADS fornisce inoltre un'interfaccia semplice per accedere al catalogo dei modelli di servizio Data Science e ad altri servizi OCI, tra cui lo storage degli oggetti.

Architettura

Questa architettura flessibile supporta più scenari in reti sanitarie integrate basate sul servizio Oracle Machine Learning, combinando piattaforme Autonomous Data Warehouse e Data Science.

Oltre a Data Science e Autonomous Data Warehouse, questa architettura utilizza anche Data Catalog, Oracle APEX Application Development e Oracle Analytics Cloud. Utilizza inoltre istanze di calcolo OCI per ospitare applicazioni in grado di trasmettere dinamicamente i dati del dispositivo indossabile a Autonomous Data Warehouse o allo storage degli oggetti. Questa architettura serve a molteplici scopi, tra cui la memorizzazione di dati importanti in uno storage sicuro, affidabile e rapido, e la costruzione e la distribuzione delle applicazioni e moduli di apprendimento automatico in brevi periodi di tempo.

Il seguente diagramma illustra questa architettura di riferimento.

Segue una descrizione dell'immagine architettura-datascience-use-cases.png
Descrizione dell'immagine architecture-datascience-use-cases.png

L'architettura ha i seguenti componenti:

  • Area

    Un'area Oracle Cloud Infrastructure è un'area geografica localizzata che contiene uno o più data center, denominati domini di disponibilità. Le regioni sono indipendenti da altre regioni, e vaste distanze possono separarle (tra paesi o addirittura continenti).

  • Domini di disponibilità

    I domini di disponibilità sono data center indipendenti e autonomi all'interno di un'area. Le risorse fisiche in ogni dominio di disponibilità vengono isolate dalle risorse negli altri domini di disponibilità, il che fornisce tolleranza agli errori. I domini di disponibilità non condividono un'infrastruttura come l'alimentazione o il raffreddamento oppure la rete interna del dominio di disponibilità. È improbabile che l'eventuale guasto di un dominio di disponibilità influenzi gli altri domini di disponibilità della regione.

  • Domini di errore

    Un dominio di errore è un raggruppamento di hardware e infrastruttura all'interno di un dominio di disponibilità. Ogni dominio di disponibilità ha tre domini di guasto con alimentazione e hardware indipendenti. Quando si distribuiscono risorse su più domini di errore, le applicazioni possono tollerare errori fisici del server, la manutenzione del sistema e gli errori di alimentazione all'interno di un dominio di errore.

  • Rete cloud virtuale (VCN) e subnet

    Un VCN è una rete customizzabile e definita dal software impostata in un'area Oracle Cloud Infrastructure. Come le reti di data center tradizionali, offre controllo completo sull'ambiente di rete. Un VCN può avere più blocchi CIDR non sovrapposti che è possibile modificare dopo la creazione di VCN. È possibile segmentare un VCN in subnet, che possono essere definite in un'area o in un dominio di disponibilità. Ogni subnet è costituita da un intervallo contiguo di indirizzi che non si sovrappongono alle altre subnet in VCN. È possibile modificare le dimensioni di una subnet dopo la creazione. Una subnet può essere pubblica o privata.

  • Servizio di scienza dei dati

    Una piattaforma completamente gestita e priva di server per i team di data science per costruire, addestrare e gestire modelli di machine learning. Può essere facilmente integrato con altri servizi OCI, quali Autonomous Data Warehouse, Object Storage e altro ancora.

  • Autonomous Data Warehouse

    Database autonomo Oracle che include Oracle Machine Learning. Gli scienziati dei dati possono creare, valutare, assegnare punteggio e distribuire modelli di apprendimento automatico utilizzando le funzioni Oracle Machine Learning nel database e l'interfaccia Notebook correlata. È inoltre possibile utilizzare l'elaborazione autonoma delle transazioni.

  • VM applicazione

    Istanza di calcolo OCI con Oracle Linux installata e pronta per l'installazione di strumenti e applicazioni che necessitano dell'accesso al database.

  • Catalogo dati

    OCI Data Catalog è una soluzione completa per la ricerca automatica e la governance dei dati self-service per i dati aziendali. Data Catalog fornisce un unico ambiente collaborativo per gestire i metadati tecnici, aziendali e operativi.

  • Oracle Analytics Cloud

    Oracle Analytics Cloud consente agli analisti aziendali di disporre di funzionalità di analisi self-service moderne e basate sull'intelligenza artificiale per la preparazione, la visualizzazione, il reporting aziendale, l'analisi aumentata e l'elaborazione e la generazione del linguaggio naturale.

    Oracle Analytics Cloud è integrato con Oracle Machine Learning. Questa integrazione consente agli analisti di elencare i modelli disponibili nel database e di utilizzarli nell'analisi e nei dashboard di Oracle Analytics Cloud.

  • APICE

    Oracle APEX Application Development è una piattaforma di sviluppo low-code che consente di creare applicazioni enterprise scalabili e sicure che è possibile distribuire ovunque. È incluso in Autonomous Database e non richiede alcuna installazione. Gli utenti APEX possono accedere a modelli e risultati da Oracle Machine Learning.

Suggerimenti

Le vostre esigenze potrebbero differire dall'architettura descritta qui. Utilizzare i suggerimenti riportati di seguito come punto di partenza.

  • VCN

    Quando si crea un VCN, determinare il numero di blocchi CIDR richiesti e la dimensione di ciascun blocco in base al numero di risorse che si prevede di associare alle subnet in VCN. Utilizzare blocchi CIDR che si trovano all'interno dello spazio degli indirizzi IP privati standard.

    Selezionare blocchi CIDR che non si sovrappongono a nessun'altra rete (in Oracle Cloud Infrastructure, nel data center in locale o in un altro provider cloud) a cui si intende impostare connessioni private.

    Dopo aver creato un VCN, è possibile modificare, aggiungere e rimuovere i blocchi CIDR.

    Quando si progettano le subnet, prendere in considerazione il flusso di traffico e i requisiti di sicurezza. Allegare tutte le risorse all'interno di uno specifico livello o ruolo alla stessa subnet, che può fungere da limite di sicurezza.

  • Sicurezza

    Utilizzare Oracle Cloud Guard per monitorare e mantenere proattivamente la sicurezza delle risorse in OCI. Cloud Guard utilizza ricette di detector che è possibile definire per esaminare le risorse per individuare le debolezze della sicurezza e monitorare gli operatori e gli utenti per attività rischiose. Quando viene rilevata una configurazione errata o un'attività non sicura, Cloud Guard consiglia azioni correttive e assiste tali azioni in base alle ricette del rispondente che è possibile definire.

    Per le risorse che richiedono la massima sicurezza, Oracle consiglia di utilizzare le zone di sicurezza. Una zona di sicurezza è un compartimento associato a una ricetta definita da Oracle di criteri di sicurezza basati sulle best practice. Ad esempio, le risorse in una zona di sicurezza non devono essere accessibili da Internet pubblico e devono essere cifrate utilizzando chiavi gestite dal cliente. Quando si creano e aggiornano le risorse in una zona di sicurezza, OCI convalida le operazioni rispetto ai criteri nella composizione della zona di sicurezza e nega le operazioni che violano uno qualsiasi dei criteri.

  • Autonomous Data Warehouse

    Creare uno schema separato per l'uso esclusivo da parte di data scientist. Concedere lo schema di accesso in sola lettura allo schema del data warehouse principale. Questa disposizione consente agli scienziati dei dati di creare viste locali dei dati per l'esplorazione, l'analisi e la creazione di modelli. Se necessario, i dati condivisi possono essere copiati nel proprio schema in cui possono modificarli localmente.

  • Virtual Machine

    Le VM vengono distribuite su più domini di errore per un'elevata disponibilità. Si consiglia di utilizzare una forma VM flessibile per l'istanza di calcolo, che consente di aumentare o diminuire la capacità delle VM in pochi minuti.

  • Memorizzazione degli oggetti

    Object Storage offre una durata dei dati affidabile ed efficiente in termini di costi, fornisce un rapido accesso a grandi quantità di dati strutturati e non strutturati di qualsiasi tipo di contenuto, inclusi dati di database, dati analitici, immagini, video e altro ancora. Si consiglia di utilizzare lo storage standard per ingerire dati da origini esterne perché le applicazioni e gli utenti possono accedervi rapidamente. È possibile creare un criterio del ciclo di vita per spostare i dati dalla memoria standard alla memorizzazione dell'archivio quando non è più necessario accedervi frequentemente.

Considerazioni

Quando si distribuisce questa architettura di riferimento, prendere in considerazione i seguenti punti.

  • Sicurezza

    Utilizzare i criteri per limitare chi può accedere alle risorse OCI di cui dispone l'azienda e come accedervi.

  • Disponibilità applicazioni

    I domini di errore forniscono la migliore resilienza all'interno di un singolo dominio di disponibilità. È possibile distribuire istanze di calcolo che eseguono gli stessi task in più domini di errore. Questo design elimina un singolo punto di guasto introducendo ridondanza.

  • Costo

    Valuta le tue esigenze per scegliere le forme di calcolo appropriate.

  • Monitoraggio e segnalazioni

    Impostare il monitoraggio e gli avvisi sull'uso della CPU e della memoria per i nodi in modo da poter scalare la forma su o giù in base alle esigenze.

Distribuzione

Il codice richiesto per distribuire questa architettura di riferimento è disponibile in GitHub. È possibile estrarre il codice in Oracle Cloud Infrastructure Resource Manager con un solo clic, creare lo stack e distribuirlo. In alternativa, scaricare il codice da GitHub nel computer, personalizzare il codice e distribuire l'architettura utilizzando Terraform CLI.

  • Distribuisci utilizzando Oracle Cloud Infrastructure Resource Manager:
    1. Fare clicsu Distribuire in Oracle Cloud

      Se non si è già connessi, immettere la tenancy e le credenziali utente.

    2. Rivedere e accettare i termini e le condizioni.
    3. Selezionare l'area in cui distribuire lo stack.
    4. Seguire le istruzioni e i prompt sullo schermo per creare lo stack.
    5. Dopo aver creato lo stack, fare clic su Azioni Terraform e selezionare Piano.
    6. Attendere il completamento del job e rivedere il piano.

      Per apportare eventuali modifiche, tornare alla pagina Dettagli stack, fare clic su Modifica stack e apportare le modifiche necessarie. Eseguire di nuovo l'azione Piano.

    7. Se non sono necessarie ulteriori modifiche, tornare alla pagina Dettagli stack, fare clic su Azioni Terraform e selezionare Applica.
  • Distribuzione con il codice Terraform in GitHub:
    1. Andare a GitHub.
    2. Duplicare o scaricare il repository nel computer locale.
    3. Seguire le istruzioni contenute nel documento README.

Ulteriori informazioni

Per ulteriori informazioni su Oracle Cloud Infrastructure Data Science, vedere le seguenti risorse: