Panoramica di Data Integration
Amministratori, data engineer, sviluppatori ETL e operatori sono tra i diversi tipi di professionisti dei dati che utilizzano Oracle Cloud Infrastructure Data Integration.
È possibile eseguire uno o più dei seguenti ruoli:
- Amministratori: supervisionano, gestiscono e monitorano i criteri di gestione e sicurezza del ciclo di vita per il servizio.
- Data engineer e sviluppatori ETL: sviluppare, creare e testare soluzioni di integrazione dei dati.
- Operatori: consente di gestire, monitorare e diagnosticare le esecuzioni dell'integrazione dei dati.
Informazioni sul servizio
Prima di iniziare, l'amministratore deve soddisfare i requisiti di connettività in modo che il servizio Data Integration possa stabilire una connessione alle origini dati. L'amministratore crea quindi aree di lavoro e consente di accedervi. Le aree di lavoro vengono utilizzate per rimanere organizzate e gestire facilmente diversi ambienti di integrazione dei dati.
Per ogni soluzione di integrazione dei dati, è possibile registrare gli asset dati per identificare le origini dati di origine e di destinazione da utilizzare. Quando si è pronti a iniziare a progettare una soluzione di integrazione dati, Data Integration fornisce task di integrazione e caricamento dati .
Per creare un task di integrazione, iniziare con un flusso di dati. Il designer in Data Integration è un'interfaccia utente grafica di facile utilizzo in cui è possibile selezionare da diversi operatori e creare visivamente il flusso di dati. Include funzioni di convalida e debug che consentono di identificare e correggere potenziali problemi prima di eseguire l'attività.
Quando si crea un task di Data Loader, si specifica l'asset dati di origine, quindi si configurano le trasformazioni per eseguire il cleanup e l'elaborazione dei dati man mano che vengono caricati nell'asset dati di destinazione.
Per eseguire un set specifico di processi in una sequenza o in parallelo dall'inizio alla fine, è necessario creare una pipeline. La progettazione di una pipeline è simile alla creazione di un flusso di dati, in cui si utilizzano gli operatori per aggiungere i task e le attività desiderati. Dopo aver creato una pipeline, è possibile creare un task della pipeline che utilizza la pipeline.
Dopo aver creato i task, è possibile pubblicarli nell'applicazione predefinita in Data Integration o in un'applicazione creata. Da un'applicazione è possibile eseguire task e monitorarne l'avanzamento e lo stato. È inoltre possibile pianificare i task per le esecuzioni automatiche.
Concetti sull'integrazione dei dati
Di seguito è riportato un elenco di concetti utili per l'utilizzo del servizio Integrazione dati.
- Area di lavoro
- Il contenitore per tutte le risorse di integrazione dati, ad esempio progetti, cartelle, asset dati, task, flussi di dati, pipeline, applicazioni e pianificazioni, associate a una soluzione di integrazione dati.
- Project
- Contenitore per le risorse in fase di progettazione, ad esempio task o flussi di dati e pipeline.
- Cartella
- Contenitore all'interno di un progetto o di un'altra cartella per organizzare le risorse in fase di progettazione.
- Asset dati
- Rappresenta un'origine dati, ad esempio un database, un'area di memorizzazione degli oggetti, un'area di memorizzazione di file o documenti contenente i metadati e i dettagli di connessione dell'origine dati.
- Connessione
- Include i dettagli necessari per stabilire una connessione a un'origine dati. Una connessione è sempre associata a un asset dati. Un asset dati può avere più connessioni.
- Entità dati
- Raccolta di dati, ad esempio una tabella o una vista di database o un singolo file logico, con molti attributi che ne descrivono i dati.
- Schema
- Raccolta di entità dati all'interno di un asset dati.
- Flusso dati
- Una risorsa in fase di progettazione che definisce il flusso di dati e qualsiasi operazione sui dati tra i sistemi di origine e di destinazione. Per eseguire un flusso di dati, aggiungere il flusso di dati a un task di integrazione.
- pipeline
- Una risorsa in fase di progettazione per l'orchestrazione di task e attività in una sequenza o in parallelo per facilitare un processo dall'inizio alla fine. Per eseguire una pipeline, aggiungere la pipeline a un task della pipeline.
- Operatore
- Un operatore rappresenta un'origine di input o una destinazione di output oppure una trasformazione in un flusso di dati. In una pipeline, un operatore rappresenta una fase di progettazione o un task pubblicato oppure un'attività, ad esempio unione, decisione e fine.
- Parametro
- Tipo di variabile che è possibile assegnare ai dettagli di un operatore in modo da poter riutilizzare il flusso di dati o la progettazione della pipeline con risorse e valori diversi. Quando si utilizzano i parametri e si impostano i valori predefiniti durante la fase di progettazione, è possibile modificare i valori in un secondo momento, sia nei task che eseguono il wrapping del flusso di dati o della pipeline, sia durante l'esecuzione dei task.
- Attività
- Una risorsa in fase di progettazione che specifica un set di azioni da eseguire sui dati. È possibile creare task di Data Loader, task di integrazione per i flussi di dati e task pipeline per le pipeline. È inoltre possibile creare task SQL e task di OCI Data Flow. Per eseguire un task, è necessario pubblicarlo in un'applicazione per testarlo o distribuirlo in produzione.
- Application
- Contenitore per artifact runtime, ad esempio task pubblicati insieme alle relative dipendenze. Le applicazioni vengono utilizzate per i test e infine vengono implementate nella produzione.
- Applica patch
- Aggiornamento a un'applicazione. Quando si pubblica un singolo task o un gruppo di task o si annulla la pubblicazione di un task, queste attività vengono registrate come patch in un'applicazione. Quando si crea un'applicazione (destinazione) creando una copia delle risorse esistenti in un'altra applicazione (origine), viene aggiunta una patch all'applicazione (destinazione). Negli aggiornamenti successivi dell'applicazione target mediante la sincronizzazione con le modifiche dell'applicazione di origine, viene creata anche una patch nell'applicazione (destinazione).
- Eseguire
- Artifact runtime che rappresenta l'esecuzione di un task.
- Pianificazione
- Risorsa runtime che definisce quando e con quale frequenza vengono eseguiti automaticamente i task pubblicati.
- Pianificazione task
- Una risorsa runtime associata a un task pubblicato specifico e a una pianificazione esistente per definire quando e con quale frequenza il task viene eseguito automaticamente.
Architetture di riferimento
Scopri le architetture di riferimento disponibili per aiutarti a imparare a utilizzare Oracle Cloud Infrastructure Data Integration.
Le architetture di riferimento sono architetture, configurazioni e best practice per la distribuzione su Oracle Cloud Infrastructure. Sono disponibili presso Oracle Architecture Center.
Nella pagina principale di Architecture Center, immettere OCI Data Integration
nel campo di ricerca e premere Invio.
Di seguito sono riportati alcuni esempi di architetture di riferimento disponibili.
Modi per accedere a Oracle Cloud Infrastructure
Puoi accedere a Oracle Cloud Infrastructure utilizzando la console (un'interfaccia basata su browser) o l'API REST.
Le istruzioni per la console e l'API di Data Integration sono incluse negli argomenti di questa guida. Per un elenco di SDK disponibili, vedere SDK e CLI (Software Development Kits and Command Line Interface).
Per accedere alla console, è necessario utilizzare un browser supportato. Vedere Browser supportati. Dal menu di navigazione nella parte superiore di questa pagina della Guida, è possibile utilizzare il collegamento Console di Oracle Cloud per andare alla pagina di accesso. Viene richiesto di immettere un nome di account cloud o una tenancy. Se viene richiesto un dominio di Identity, nella maggior parte dei casi lasciarlo all'indirizzo Default, quindi immettere un nome utente e una password.
Identificativi risorsa
La maggior parte dei tipi di risorse Oracle Cloud Infrastructure ha un identificativo univoco assegnato da Oracle chiamato OCID (Oracle Cloud ID).
Per informazioni sul formato OCID e su altri modi per identificare le risorse, vedere Identificativi risorsa.
Limiti e quote del servizio
Limiti del servizio
Integrazione dei dati limita l'utente a cinque aree di lavoro per area.
Quote compartimento
È possibile limitare il numero di risorse dell'area di lavoro in un compartimento creando un limite di quota. Ad esempio:
set data-integration quota dis-workspace-count to 3 in compartment <compartment_name>
Tempo di conservazione
Data Integration conserva le aree di lavoro eliminate e non riuscite per 15 giorni. Dopo 15 giorni, le aree di lavoro vengono rimosse definitivamente.
Servizi integrati
L'integrazione dei dati è integrata con vari servizi e funzionalità di Oracle Cloud Infrastructure.
Integrazione dei dati si integra con il servizio IAM OCI con i domini di Identity per l'autenticazione e l'autorizzazione, per tutte le interfacce (console, SDK, CLI e API REST).
Un amministratore imposta gruppi, compartimenti e criteri. I criteri controllano chi può creare utenti, creare e gestire la rete cloud, avviare istanze, creare bucket, scaricare oggetti e così via.
Se sei un utente normale, non un amministratore, che deve utilizzare le risorse Oracle Cloud Infrastructure di proprietà dell'azienda, chiedi all'amministratore di impostare automaticamente l'ID utente. L'amministratore può confermare quale compartimento o compartimenti è possibile utilizzare.
L'amministratore può creare criteri comuni per autorizzare gli utenti di Data Integration. Possono inoltre creare criteri di integrazione dati per controllare l'accesso degli utenti al servizio Integrazione dati.
L'integrazione dei dati non è integrata con l'API delle richieste di lavoro comune. Data Integration utilizza la propria API per le richieste di lavoro. Vedere WorkRequest Riferimento.
Il programma di esplorazione delle tenancy consente di visualizzare tutte le risorse in un compartimento specifico, in tutte le aree. La funzione di esplorazione della tenancy si basa sul servizio Search e supporta il tipo di risorsa Integrazione dei dati, workspace
.
Oracle Cloud Infrastructure Monitoring ti consente di monitorare attivamente e passivamente le risorse di integrazione dei dati utilizzando metriche e allarmi. Metriche di integrazione dati acquisisce il numero di byte letti, byte scritti, esecuzioni di task attive, esecuzioni di task riuscite e esecuzioni di task non riuscite.
Informazioni sulla sicurezza dei dati
Oltre al controllo e alla trasparenza che ottieni con la sicurezza di Oracle Cloud Infrastructure, il servizio di integrazione dei dati gestisce anche i dati con cura.
L'isolamento dei clienti di Oracle Cloud Infrastructure garantisce che ogni area di lavoro di Data Integration creata ottenga la propria istanza di computazione riservata. Un'area di lavoro è isolata da altre aree di lavoro all'interno della stessa tenancy e da altre tenancy. In Data Integration non vengono memorizzati dati in questa istanza di computazione oltre le esecuzione dei task per garantire la sicurezza dei dati.
Integrazione dei dati utilizza il servizio Vault di Oracle Cloud Infrastructure per memorizzare e cifrare le informazioni riservate, come le password, i file wallet per gli asset dati e le informazioni di connessione come segreti. Gli schemi e le entità dati sono accessibili in tempo reale, quando necessario. Quando un campionamento dei dati viene caricato nella scheda Dati per un flusso di dati o per la configurazione delle trasformazioni nel task Data Loader, i dati vengono caricati dall'entità dati in tempo reale.
Assegnare solo i privilegi richiesti agli account utilizzati per dataintegration
. Ad esempio, Data Integration richiede solo l'accesso in lettura per includere dati dagli asset dati.
Per ulteriori informazioni, fare riferimento agli argomenti sotto riportati.
- Guida per la sicurezza di Oracle Cloud Infrastructure
- Descrizioni dei concetti di Vault e Secret in Oracle Cloud Infrastructure Vault
- Integrazione sicura dei dati
- Criteri di integrazione dei dati
Attività tipiche dell'utente di Data Integration
Di seguito sono riportate alcune attività che è probabile eseguire come utente di Data Integration.
Attività | descrizione; |
---|---|
Accesso o creazione di aree di lavoro | Accedere o creare un'area di lavoro per i progetti di integrazione dati e le relative risorse (asset dati, flussi di dati, task e così via) |
Creazione di un asset dati | Registrare le origini dati utilizzate come asset dati di Data Integration |
Creazione di una connessione | Aggiungi nuove connessioni agli asset dati |
Uso di progetti e cartelle |
Creare progetti e cartelle per organizzare gli artifact della fase di progettazione Creare un progetto copiando un progetto esistente |
Creazione di un flusso di dati | Progettare un flusso di dati |
Creazione di una pipeline | Progettare una pipeline |
Creazione di un task di integrazione (per un flusso di dati) Creazione di un task di Data Loader Creazione di un task di OCI Data Flow Creazione di un task della pipeline (per una pipeline) |
Creare task |
Creazione di applicazioni |
Creare un'applicazione per l'esecuzione e la pianificazione dei task:
|
Pubblicazione dei task di progettazione | Pubblica task nelle applicazioni per test ed esecuzione |
Eseguire i task e quindi monitorarne l'avanzamento | |
Pianificazione dei task pubblicati | Creare una pianificazione e pianificazioni di task per automatizzare le esecuzioni |
Monitoraggio di un'area di lavoro | Monitorare un'area di lavoro |
Uso della pagina Panoramica di Data Integration della console
Quando si accede a Integrazione dati nella console e si seleziona Panoramica, viene visualizzata la pagina Panoramica di Integrazione dati.
La pagina Panoramica fornisce informazioni sulle funzioni, i collegamenti che consentono di iniziare a utilizzare il servizio e le risorse per utilizzare Data Integration in modo efficiente.
Risorse di formazione su Data Integration
Utilizza le seguenti risorse per saperne di più su Oracle Cloud Infrastructure Data Integration.