Panoramica dell'analisi degli endpoint SQL di OCI Data Flow

Oracle Analytics Cloud viene utilizzato per analizzare i dati dagli endpoint SQL di OCI Data Flow nello storage degli oggetti, nei data lake e nelle applicazioni.

Gli endpoint SQL di Data Flow sono progettati per consentire a sviluppatori, data scientist e analisti avanzati di eseguire query interattive sui dati direttamente nella posizione in cui risiedono in un data lake.

Benefit dell'uso degli endpoint SQL di OCI Data Flow

  • È possibile analizzare grandi volumi di dati di evento e di serie temporali disponibili nel data lake senza doverli spostare e riepilogare per le prestazioni.
  • È possibile consolidare i dati provenienti da più applicazioni e data store (ad esempio, in Enterprise Resource Planning) nello storage degli oggetti ed eseguire query ad hoc indipendentemente dall'origine dei dati.
  • È possibile fare a meno delle estrazioni e dell'aggregazione preventiva, utilizzando dati attivi con qualsiasi livello di granularità. In questo modo, sarà possibile risparmiare tempo e sforzi durante la preparazione dei dati e avere, al contempo, capacità di analisi più efficaci.
Procedure ottimali per le prestazioni


  • Per sfruttare l'indicizzazione e l'inserimento nella cache a livello di cluster Spark, creare un data set basato su una singola tabella o vista. I data set basati su join di più tabelle sono supportati, ma l'uso non è consigliato.
  • Quando si configura il cluster degli endpoints SQL di OCI Data Flow, impostare incrementalCollect su true, ad esempio:

    spark.sql.thriftServer.incrementalCollect=true;

Visualizzazione dei dati dagli endpoint SQL di OCI Data Flow

Nell'editor di cartelle di lavoro di Oracle Analytics Cloud aggiungere più tabelle o cubi degli endpoint SQL di OCI Data Flow. Quando si seleziona una tabella o un cubo, è possibile aggiungere colonne dimensione e colonne misura ai data set a scopo di analisi.