Panoramica di Data Science

Oracle Cloud Infrastructure (OCI) Data Science è una piattaforma completamente gestita e serverless che consente ai team di data science di creare, formare e gestire modelli di machine learning.

Il servizio di Data Science:

  • Offre ai data scientist un'area di lavoro collaborativa e basata su progetti.

  • Consente l'accesso self-service e serverless all'infrastruttura per i carichi di lavoro di data science.

  • Include strumenti, librerie e pacchetti incentrati su Python sviluppati dalla community open source e da Oracle Accelerated Data Science Library, che supporta il ciclo di vita end-to-end dei modelli predittivi:

    • Acquisizione, profilazione, preparazione e visualizzazione dei dati.

    • Progettazione delle funzionalità.

    • Formazione sui modelli (incluso Oracle AutoML).

    • Valutazione, spiegazione e interpretazione dei modelli (incluso Oracle MLX).

  • Si integra con il resto dello stack Oracle Cloud Infrastructure, tra cui Functions, Data Flow, Autonomous AI Lakehouse e Object Storage.

  • Modella la distribuzione come risorse per distribuire modelli come applicazioni Web (endpoint API HTTP).

  • I job di Data Science ti consentono di definire ed eseguire task di Machine Learning ripetibili su un'infrastruttura completamente gestita.

  • Le pipeline ti consentono di eseguire flussi di lavoro di Machine Learning end-to-end.

  • Include criteri e vault per controllare l'accesso a compartimenti e risorse.

  • Include metriche che forniscono insight su stato, disponibilità, prestazioni e utilizzo delle risorse di Data Science.
  • Aiuta i data scientist a concentrarsi sulle competenze in metodologie e domini per fornire modelli alla produzione.

Suggerimento

Per iniziare, puoi utilizzare la Guida di un data scientist a OCI.

Concetti sulla data science

Esamina i concetti e i termini riportati di seguito per iniziare a utilizzare Data Science.

SDK Data Science accelerato

L'SDK ADS (Oracle Accelerated Data Science) è una libreria Python inclusa nell'ambito del servizio OCI Data Science. ADS dispone di molte funzioni e oggetti che automatizzano o semplificano i passi nel flusso di lavoro di Data Science, tra cui la connessione ai dati, l'esplorazione e la visualizzazione dei dati, la formazione di un modello con AutoML, la valutazione dei modelli e la spiegazione dei modelli. Inoltre, ADS fornisce un'interfaccia per accedere al catalogo dei modelli di servizio di Data Science e ad altri servizi OCI, incluso lo storage degli oggetti. Per acquisire familiarità con ADS, consulta Accelerated Data Science Library.

Progetti

I progetti sono aree di lavoro collaborative per l'organizzazione e la documentazione degli asset di Data Science, ad esempio le sessioni notebook e i modelli.

Sessioni notebook

Le sessioni notebook di Data Science sono ambienti di codifica interattivi per la creazione e l'addestramento dei modelli. Le sessioni notebook includono numerosi pacchetti open source preinstallati e di apprendimento automatico e data science sviluppati da Oracle.

Ambienti Conda

Conda è un ambiente open source e un sistema di gestione dei pacchetti ed è stato creato per i programmi Python. Installa, esegue e aggiorna i pacchetti e le relative dipendenze. Conda crea, salva, carica e commuta facilmente tra gli ambienti del computer locale.

Modelli

I modelli definiscono una rappresentazione matematica dei dati e del processo aziendale. Il catalogo modelli è un luogo in cui memorizzare, tracciare, condividere e gestire i modelli.

Distribuzioni di modelli

Le distribuzioni dei modelli sono una risorsa gestita nel servizio Data Science che consente di distribuire i modelli memorizzati nel catalogo dei modelli come endpoint HTTP. L'implementazione di modelli di machine learning come applicazioni Web (endpoint API HTTP) che forniscono previsioni in tempo reale è il modo più comune per realizzare modelli. Gli endpoint HTTP sono flessibili e possono soddisfare le richieste di previsioni dei modelli.

Job

I job di Data Science ti consentono di definire ed eseguire task di Machine Learning ripetibili su un'infrastruttura completamente gestita.

Pipeline

Una pipeline di Data Science è un costrutto eseguibile che descrive un'orchestrazione di Machine Learning end-to-end che può essere eseguita in modo ripetibile.

Log

Integrare il servizio di log in Data Science per creare e gestire log personalizzati.

Metriche

Monitora lo stato, la capacità e le prestazioni di alcune risorse di Data Science utilizzando metriche, allarmi e notifiche.

Esaminare i concetti chiave OCI.

Modi per accedere alla Data Science

Puoi accedere a Data Science utilizzando la console, l'API REST, gli SDK o l'interfaccia CLI.

Utilizzare una delle seguenti opzioni, in base alle preferenze e alla relativa idoneità per l'attività che si desidera completare:

  • La Console OCI è un'interfaccia basata su browser facile da usare. Per accedere alla console, è necessario utilizzare un browser supportato.
  • Le API REST offrono il maggior numero di funzionalità, ma richiedono competenze di programmazione. Il riferimento API e gli endpoint forniscono dettagli sull'endpoint e collegamenti ai documenti di riferimento API disponibili, inclusa l'API REST di Data Science.
  • OCI fornisce SDK che interagiscono con Data Science senza la necessità di creare un framework.
  • La CLI offre accesso rapido e funzionalità complete senza necessità di programmazione.

Aree e domini di disponibilità

I servizi OCI sono ospitati in aree e domini di disponibilità. Una regione è un'area geografica localizzata, mentre un dominio di disponibilità è costituito da uno o più data center trovati in tale area.

Data Science è ospitato in tutte le aree in cui OCI è disponibile.

Limiti delle risorse di Data Science

Quando ti iscrivi a OCI, viene configurato un set di limiti del servizio per la tua tenancy. Il limite del servizio è la quota o l'accesso impostato per le risorse.

Limiti per servizio include i limiti di Data Science e altri servizi OCI. Per modificare le impostazioni predefinite, è possibile richiedere un aumento del limite del servizio.

Suggerimento

Guarda il video sull'aumento dei limiti del servizio di Data Science per le specifiche.

Oltre a questi limiti di servizio, si noti che:

  • Le sessioni e i modelli notebook non riusciti e inattivi vengono conteggiati in base ai limiti del servizio. Solo quando si arresta completamente un'istanza o si elimina un modello, questo non viene conteggiato ai fini della quota.

  • I limiti della GPU sono impostati su zero per impostazione predefinita, quindi chiedere all'amministratore di sistema di aumentare i limiti in modo da poter utilizzare le GPU.

  • Il numero massimo di job è 1000. Per impostazione predefinita, ogni tenancy può creare fino a 1000 job. È possibile aumentare questo limite di un ticket di richiesta di servizio CAM.

  • Il numero di esecuzioni di job simultanee è limitato dai limiti di conteggio delle memorie centrali di Data Science.

Identificativi risorsa

La maggior parte dei tipi di risorse OCI ha un ID univoco assegnato da Oracle chiamato OCID (Oracle Cloud Identifier) .

L'OCID viene incluso come parte delle informazioni della risorsa sia nella console che nell'API. Per informazioni sul formato OCID e su altri modi per identificare le risorse, vedere Identificativi risorsa.

Autenticazione e autorizzazione

Ogni servizio in OCI è integrato con Identity and Access Management per l'accesso alle risorse cloud tramite tutte le interfacce (la Console OCI, gli SDK, le API REST o la CLI).

Un amministratore dell'organizzazione deve impostare tenancy, gruppi, compartimenti e criteri che controllano chi può accedere a quali servizi e risorse e il tipo di accesso. L'amministratore conferma quali compartimenti utilizzare.

Utilizza i criteri per creare e gestire progetti di Data Science o avviare sessioni notebook.

Provisioning e prezzi

Il servizio Data Science offre un'esperienza serverless per lo sviluppo e l'implementazione dei modelli. Quando crei risorse di Data Science, ad esempio sessioni notebook, modelli, distribuzioni di modelli, job e l'infrastruttura di computazione e storage sottostante viene fornita e gestita automaticamente.

Paghi per l'uso dell'infrastruttura di base (storage a blocchi, computazione e storage degli oggetti). Consulta l'elenco dettagliato dei prezzi per le risorse di Data Science.

Paghi solo l'infrastruttura mentre la usi con le risorse di Data Science:

Sessioni notebook
  • Le sessioni notebook sono serverless e l'intera infrastruttura di base è gestita dal servizio.

  • Quando si crea una sessione notebook, si seleziona la forma VM (il tipo di CPU o GPU del computer e il numero di OCPU o GPU) e la quantità di storage a blocchi (minimo 50 GB).

  • Mentre una sessione notebook è attiva, si paga per la computazione e lo storage a blocchi alle tariffe standard di Oracle Cloud Infrastructure. Vedere Disattivazione delle sessioni notebook.
  • È possibile disattivare la sessione notebook, che arresta la computazione pur conservando lo storage a blocchi. In questo caso, non ti viene più addebitato il costo per la computazione, ma continui a pagare per lo storage a blocchi. Questo vale per le sessioni notebook con un'istanza GPU. Le sessioni notebook con un'istanza GPU non vengono sottoposte a misurazione per la computazione quando sono disattivate.

    È possibile attivare la sessione notebook per ricollegare lo storage a blocchi alla nuova computazione. Vedere Disattivazione e attivazione di una sessione notebook.

  • Quando si elimina una sessione notebook, non viene più addebitato alcun costo per la computazione o lo storage a blocchi. Vedere Eliminazione di una sessione notebook.

Modelli
  • Quando si salva un modello nel catalogo modelli, viene addebitato il costo per lo storage dell'artifact del modello alle tariffe standard di storage degli oggetti in termini di GB al mese.

  • Quando si elimina un modello, non viene più addebitato alcun costo. Vedere Eliminazione di un modello.

Distribuzioni di modelli
  • Quando si distribuisce un modello, è necessario selezionare il tipo di forma e il numero di repliche che ospitano i server modello. Inoltre, puoi selezionare la larghezza di banda del load balancer associata alla distribuzione.

  • Quando la distribuzione di un modello è attiva, paghi per le VM che ospitano i server dei modelli e il load balancer alle tariffe OCI standard.

  • Quando si disattiva la distribuzione di un modello, non viene più addebitato il costo per le VM o il load balancer. Puoi riattivare la distribuzione di un modello e i curriculum di fatturazione sia per le VM che per il load balancer.

  • Quando si elimina una distribuzione modello, non viene più addebitato alcun costo per l'infrastruttura associata alla distribuzione modello.

Job
  • I job non comportano un costo aggiuntivo per l'utilizzo del servizio, paghi solo per l'infrastruttura utilizzata sottolineatura e solo durante la durata dell'esecuzione dell'artifact del job.

  • La misurazione inizia dal momento in cui l'artifact del job viene eseguito e si interrompe con l'uscita del codice. Non si paga per il tempo di provisioning dell'infrastruttura né per l'annullamento del provisioning dell'infrastruttura.

    La misurazione include il consumo di CPU o GPU per ogni OCPU durante la durata dell'esecuzione dell'artifact del job e la dimensione di storage a blocchi utilizzata per il job.

  • L'utilizzo del servizio di log con Job non comporta costi aggiuntivi.

Pipeline
  • Le pipeline vengono fatturate in base all'uso dello storage di calcolo e a blocchi di base utilizzato dalla pipeline per eseguire il codice del passo della pipeline.

  • Non sono previsti costi aggiuntivi per l'orchestrazione o lo storage degli artifact.

Suggerimento

È possibile utilizzare Controllo del saldo e dell'uso per esaminare i costi associati al conto. Inoltre, puoi utilizzare gli strumenti di fatturazione e pagamento di Oracle Cloud Infrastructure per analizzare l'uso di Data Science e gestire i costi.

conformità

Rivedere gli standard con cui il servizio Data Science è conforme.

Il servizio è conforme ai seguenti standard:

HIPAA, utilizzato dalle aziende sanitarie per proteggere la privacy dei pazienti.

PCI-DSS, utilizzato dall'industria delle carte di credito per proteggere i consumatori dalle frodi.