Identifica le connessioni nei dati ed esegui analisi grafiche utilizzando Oracle Autonomous Database

I database grafici e gli Analytics sono parte integrante dell'offerta di database convergente di Oracle. L'uso delle funzionalità grafiche integrate in Oracle Database elimina la necessità di un database a scopo singolo e di replicare i dati. Analisti e sviluppatori possono eseguire analisi complete per trovare connessioni nei dati che offrono informazioni dettagliate come le tendenze dei clienti o il rilevamento di frodi o migliorare la tracciabilità nella produzione intelligente. Possono eseguire queste analisi e, al contempo, ottenere sicurezza di livello Enterprise, facili procedure di inclusione dei dati e supporto per più tipi di carichi di lavoro dei dati.

Oracle Autonomous Database (ADB) offre uno strumento self-service di provisioning integrato con un clic, denominato Graph Studio, che automatizza e semplifica la modellazione, la gestione, l'analisi e la visualizzazione dei grafici durante un ciclo di vita dei dati. Graph Studio offre l'accesso a un set completo di analitica dei grafici, inclusi più di 60 algoritmi grafici predefiniti e un linguaggio dichiarativo simile a SQL denominato Property Graph Query Language (PGQL). Graph Studio supporta notebook che consentono agli appassionati di dati e agli sviluppatori di eseguire un'analisi passo-passo utilizzando un motore di analisi dei grafici in-memory (PGX) per ottenere le massime prestazioni.

I grafici rappresentano un modo molto intuitivo per modellare i dati e concentrarsi sulle connessioni tra le entità dati quando la maggior parte dei dati è connessa. I grafici semplificano la navigazione tra entità dati connesse, esplorano i collegamenti e traggono nuove conclusioni. I componenti principali dei grafici sono vertici (o nodi) e bordi, che collegano due vertici. Esempi tipici di grafici sono i social network, i flussi di denaro, le distinte base o la derivazione dei dati.

L'immagine di esempio riportata di seguito illustra in che modo l'analisi grafica è una buona soluzione per identificare le frodi nelle transazioni finanziarie.


Segue la descrizione di graph-analysis-example.png
Descrizione dell'illustrazione graph-analysis-example.png

Per semplificare il rilevamento delle frodi, è possibile creare un grafico dalle transazioni tra entità e quelle che condividono alcune informazioni, inclusi indirizzi e-mail, password, indirizzi e altro ancora. Una volta creato un grafico, l'esecuzione di una query semplice consente di trovare tutti i clienti con account che dispongono di informazioni simili e di individuare gli account che inviano denaro tra loro.

Per ulteriori informazioni ed esempi tipici dei grafici, vedere eBook "17 casi d'uso per i database grafici e l'analitica grafica". È possibile trovarlo nella sezione "Esplora altro" alla fine di questa architettura di riferimento.

Per scoprire nuovi insight da relazioni complesse nei dati, puoi:
  • Esegui algoritmi grafici

    Gli algoritmi grafici analizzano percorsi e distanze tra i vertici, l'importanza dei vertici o il clustering dei vertici. Sono utili per:

    • Individuazione di comunità (ad es. Louvain, propagazione di etichette)
    • Rilevamento di componenti connessi (ad esempio componenti fortemente connessi, componenti strettamente connessi)
    • Strutture di valutazione (ad esempio Rilevamento ciclo, Conteggio triangolo, Raggiungibilità)
    • Prevedere i collegamenti (ad esempio, da Whom-to-follow), classificare e camminare i nodi in un grafico (ad es. PageRank, Laurea Centrality, Closeness Centrality, SALSA)
    • Percorsi di ricerca (ad es. Bellman-Ford, Dijkstra, Percorso grasso, Distanza hop)
  • Esegui query di corrispondenza pattern grafico

    Le query di corrispondenza pattern di grafici possono rilevare pattern quali cicli o dipendenze indirette tra vertici e bordi che corrispondono a un set di vincoli specificato.

Architettura

Questa architettura utilizza Oracle Autonomous Data Warehouse come data warehouse centralizzato, con dati caricati e curati da più repository di livello Enterprise e origini dati dipartimentali.

Utilizza Graph Studio per modellare i dati sotto forma di grafici. L'interfaccia notebook integrata di Graph Studio con interpreti per Java, PGQL e Python consente di eseguire rapidamente algoritmi grafici, grafici delle query e visualizzare i risultati. Questa architettura di riferimento consente di iniziare a usare i grafici e creare un ambiente di laboratorio per l'analisi dei grafici senza dover ricorrere a strumenti o componenti software aggiuntivi. È possibile utilizzare grafici contenenti milioni di vertici e bordi, incluse le relative proprietà.

Il diagramma riportato di seguito mostra una rappresentazione funzionale dell'architettura di riferimento.



propertygraph-analysis-arch-oracle.zip

Questa rappresentazione funzionale è incentrata sulle seguenti divisioni logiche:
  • Raffineria dei dati

    Consente di generare e perfezionare i dati da utilizzare in ciascun layer di dati nell'architettura. La forma ha lo scopo di illustrare le differenze nei costi di elaborazione per la memorizzazione e la raffinazione dei dati a ciascun livello e lo spostamento dei dati tra di essi.

  • Piattaforma di persistenza dei dati (livello di informazioni verificato)

    Facilita l'accesso e la navigazione dei dati per visualizzare la vista aziendale corrente. Questo layer consente di creare viste grafiche o strutture grafiche persistenti da dati relazionali.

  • Accesso e interpretazione

    Estrae la vista business logica dei dati per i consumatori. Questa astrazione facilita approcci agili all'analisi dei dati, fornendo un unico livello di analitica per i dati curati.

L'architettura dispone dei seguenti componenti:

  • Integrazione dati

    Oracle Autonomous Database dispone degli strumenti integrati necessari per acquisire, caricare e trasformare i dati per molti scenari dipartimentali e casi d'uso avanzati specifici. Autonomous Data Warehouse include la possibilità di caricare rapidamente i dati da storage locale o degli oggetti. Sono incluse anche le trasformazioni dei dati autonomi, che consentono di connettersi ai dati provenienti da molti tipi di origine diversi e di accedere alla funzionalità del tipo EL-T.

    Il servizio Oracle Cloud Infrastructure Data Integration Cloud prevede casi d'uso più avanzati. Si tratta di un servizio cloud nativo, completamente gestito, serverless. Il servizio consente di progettare ed eseguire task per estrarre, caricare e trasformare i dati (ETL) da origini diverse.

  • Storage degli oggetti

    Oracle Cloud Infrastructure Object Storage è una piattaforma di storage su scala Internet ad alte prestazioni che offre una durabilità dei dati affidabile ed efficiente in termini di costi. Oracle Cloud Infrastructure Object Storage può memorizzare una quantità illimitata di dati non strutturati di qualsiasi tipo di contenuto, inclusi dati analitici. Puoi recuperare i dati dipartimentali e, ad esempio, quelli in un bucket dello storage degli oggetti in tutta sicurezza. Successivamente, puoi utilizzare gli strumenti di caricamento dati dell'Autonomous Database per caricare i dati da un bucket nell'Autonomous Database.

  • Autonomous Database (ADW, ATP)

    Oracle Autonomous Database è un servizio di database self-driving, self-securing, self-repairing ottimizzato per i carichi di lavoro di data warehousing. Non è necessario configurare o gestire alcun componente hardware né installare software. Oracle Cloud Infrastructure gestisce la creazione del database e il backup, l'applicazione di patch, l'upgrade e il tuning del database. Con Autonomous Data Warehouse hai la flessibilità di caricare i dati in più formati, tra cui strutturato, JSON, XML, grafico e spaziale. Questo servizio è integrato con gli Autonomous Tools che consentono di caricare i dati nelle tabelle ed eseguire operazioni ETL chiare in modo efficiente.

  • Studio grafico

    Graph Studio è una funzionalità di Oracle Autonomous Database su Shared Infrastructure. È integrato in Autonomous Transactional Processing (ATP) e Autonomous Data Warehouse (ADW). Fornisce strumenti per sviluppatori, analisti, ingegneri di dati e data scientist che utilizzano grafici.Graph Studio contiene un'interfaccia utente low-code che automatizza i grafici di modellazione dei grafici dalle tabelle relazionali esistenti nel data warehouse, eseguendo analisi dei grafici, sviluppando applicazioni grafiche e visualizzando e condividendo i risultati. La combinazione di Autonomous Database e Graph Studio offre una piattaforma di database grafici completa distribuibile in pochi minuti con provisioning con un solo clic, strumenti integrati e sicurezza. Non richiede di essere un esperto di database o uno specialista di grafici per iniziare ed essere produttivo.

Il diagramma riportato di seguito mostra un mapping dell'architettura sopra riportata ai servizi forniti in Oracle Cloud Infrastructure utilizzando migliori prassi per quanto riguarda la sicurezza.


Segue la descrizione di oci-adb-graph-studio-arch.png
Descrizione dell'immagine oci-adb-graph-studio-arch.png

oci-adb-graph-studio-arch-oracle.zip

Questa architettura di riferimento presenta i seguenti componenti principali:

  • Rete cloud virtuale (VCN) e subnet

    Una VCN è una rete personalizzabile definita dal software che si imposta in un'area Oracle Cloud Infrastructure. Analogamente alle reti di data center tradizionali, i VCN offrono un controllo completo sull'ambiente di rete. Una VCN può avere più blocchi CIDR non sovrapposti che è possibile modificare dopo aver creato la VCN. Puoi suddividere una VCN in subnet, che possono essere definite in un'area o in un dominio di disponibilità. Ogni subnet è composta da un intervallo contiguo di indirizzi che non si sovrappongono alle altre subnet nella VCN. Puoi modificare la dimensione di una subnet dopo la creazione. Una subnet può essere pubblica o privata.

  • Dominio di disponibilità

    I domini di disponibilità sono data center indipendenti e autonomi all'interno di un'area geografica. Le risorse fisiche presenti in ogni dominio di disponibilità sono isolate dalle risorse presenti negli altri domini di disponibilità, garantendo quindi la tolleranza agli errori. I domini di disponibilità non condividono l'infrastruttura, ad esempio l'alimentazione o il raffreddamento, o la rete interna del dominio di disponibilità. Pertanto, è improbabile che l'errore di un dominio di disponibilità influisca sugli altri domini di disponibilità nell'area.

  • Host bastion

    L'host bastion è un'istanza di computazione che funge da punto di accesso controllato e sicuro alla topologia dall'esterno del cloud. Il provisioning dell'host del bastion viene in genere eseguito in una zona demilitarizzata (DMZ, Demilitarized Zone). Consente di proteggere le risorse sensibili posizionandole in reti private a cui non è possibile accedere direttamente dall'esterno del cloud. La topologia dispone di un singolo punto di ingresso noto che è possibile monitorare e controllare regolarmente. Pertanto, è possibile evitare di esporre i componenti più sensibili della topologia senza comprometterne l'accesso.

  • Gateway NAT (Network Address Translation)

    Un gateway NAT consente alle risorse private in una VCN di accedere agli host su Internet, senza esporre tali risorse alle connessioni Internet in entrata.

  • Gateway Internet

    Il gateway Internet consente il traffico tra le subnet pubbliche in una VCN e la rete Internet pubblica.

  • Gateway del servizio

    Il gateway di servizi fornisce l'accesso da una VCN ad altri servizi, ad esempio Oracle Cloud Infrastructure Object Storage. Il traffico dalla VCN al servizio Oracle viaggia su fabric di rete Oracle e non passa mai su Internet.

  • Autonomous Database con ridimensionamento automatico

    In questa architettura Oracle Autonomous può essere Autonomous Data Warehouse (ADW) o Autonomous Transactional Processing (ATP) configurato con il ridimensionamento automatico e l'endpoint privato. Viene utilizzato per memorizzare dati specifici dell'applicazione, nonché per la modellazione, la creazione, la manutenzione, l'esecuzione di query e la visualizzazione di grafici. Una lista di controllo dell'accesso (ACL) limita l'accesso di rete ad Autonomous Database. Dispone di un utente applicativo precreato con i diritti necessari concessi per sviluppare e gestire i grafici e per utilizzare Graph Studio come strumento integrato di Autonomous Database. I dati di esempio vengono precaricati nello schema utente del database per iniziare facilmente con Graph Studio.

Suggerimenti

Utilizzare i suggerimenti riportati di seguito come punto di partenza per creare una piattaforma che consenta di analizzare i dati nell'intero ciclo di vita dell'analisi dei grafici. I requisiti potrebbero essere diversi dall'architettura descritta in questa sezione.
  • Raffineria dei dati

    Gli strumenti di Autonomous Database sono integrati in Oracle Autonomous Data Warehouse che offre le funzionalità di caricamento, trasformazione, catalogo, approfondimenti e persino sviluppo di modelli di business in modo semplice e diretto.

  • Studio grafico
    Prima di connettersi a Graph Studio, si consiglia di:

Considerazioni

Durante il caricamento e la configurazione dei dati da più database e origini file in un data warehouse centralizzato abilitato per l'analisi grafica, prendere in considerazione le seguenti opzioni di implementazione:

Linea guida Raffineria dei dati Piattaforma di persistenza dei dati Accesso e interpretazione
Consigliato Strumenti di Oracle Autonomous Database Oracle Autonomous Database (ADW o ATP) Oracle Graph Studio
Altre opzioni
  • Integrazione dei dati di Oracle Cloud Infrastructure
  • Oracle GoldenGate Cloud Service
  • 3a parte
  • Oracle Autonomous Database - Infrastruttura dedicata
  • Oracle Database Cloud Service
  • Oracle Database Exadata Cloud Service
  • Server e client Oracle Graph distribuiti in Compute
  • Oracle Analytics Cloud
Quando crei un ambiente di analitica grafico insieme al tuo data warehouse cloud, prendi in considerazione le seguenti opzioni di implementazione:
  • Gravità dei dati:

    Tieni le operazioni di analisi dei grafi vicine ai tuoi dati per limitare l'elevato costo di spostamento dei dati.

Distribuzione

Il codice Terraform per questa architettura di riferimento è disponibile come stack di esempio in Oracle Cloud Infrastructure Resource Manager. Puoi anche scaricare il codice da GitHub e personalizzarlo in base ai tuoi requisiti specifici.

  • Distribuire utilizzando lo stack di esempio in Oracle Cloud Infrastructure Resource Manager:
    1. Fare clic su Distribuisci su Oracle Cloud

      Se non si è già connessi, immettere le credenziali della tenancy e dell'utente.

    2. Selezionare l'area in cui distribuire lo stack.
    3. Seguire i prompt visualizzati e le istruzioni per creare lo stack.
    4. Dopo aver creato lo stack, fare clic su Azioni Terraform e selezionare Plan.
    5. Attendere il completamento del job e rivedere il piano.

      Per apportare eventuali modifiche, tornare alla pagina Dettagli stack, fare clic su Modifica stack e apportare le modifiche necessarie. Eseguire quindi di nuovo l'azione Piano.

    6. Se non sono necessarie ulteriori modifiche, tornare alla pagina Dettagli stack, fare clic su Azioni Terraform e selezionare Applica.
  • Distribuiscilo utilizzando il codice Terraform in GitHub:
    1. Visita GitHub.
    2. Copiare o scaricare il repository sul computer locale.
    3. Seguire le istruzioni riportate nel documento README.

Visualizza altro

Esaminare le risorse riportate di seguito per ulteriori informazioni sulle funzioni di questa architettura.

Conferme

  • Authors: Karin Patenge, Neelima Tadikonda, Jayant Sharma, Rahul Tasker, Jesus Vizcarra
  • Contributors: Hans Viehmann, Diego Ramirez