Panoramica di Data Catalog
Data Catalog è un servizio di gestione dei metadati che consente ai consumatori di dati di scoprire i dati e migliorare la governance nell'ecosistema Oracle.
Grazie a OCI Data Catalog, gli analisti di dati, i data scientist, gli ingegneri e gli steward dati hanno un unico ambiente self-service per scoprire i dati disponibili nelle origini cloud. Data Catalog consente ai provider di dati di creare un dizionario dati composto da metadati tecnici e aziendali. I consumatori di dati possono valutare facilmente l'idoneità dei dati per i progetti di analisi e data science.
Funzionalità chiave di Data Catalog
- Raccogli metadati tecnici da una vasta gamma di origini dati supportate accessibili mediante IP pubblici o privati.
- Crea e gestisci un vocabolario aziendale comune con un glossario aziendale. Crea una gerarchia di categorie, sottocategorie e termini con descrizioni rich text dettagliate.
- Arricchisci i metadati tecnici raccolti con annotazioni collegando entità e attributi di dati ai termini business, alle proprietà definite dall'utente o aggiungendo tag in formato libero.
- Trovare le informazioni necessarie esplorando gli asset dati, sfogliando il Data Catalog o utilizzando la barra di ricerca rapida.
- Automatizza e gestisci i processi di raccolta utilizzando i programmi.
- Integra le funzionalità di livello Enterprise del tuo Data Catalog con altre applicazioni utilizzando le API REST e gli SDK.
Concetti di Data Catalog
Per utilizzare Data Catalog è essenziale comprendere i concetti riportati di seguito.
- Asset dati
- Rappresenta un'origine dati, ad esempio un database, un'area di memorizzazione degli oggetti, un'area di memorizzazione di file o documenti, una coda di messaggi o un'applicazione.
- Connessione
- Include i dettagli necessari per stabilire una connessione a un'origine dati. Una connessione è sempre associata a un asset dati. Un asset dati può avere più connessioni.
- Tipo di connessione
- Definisce il diverso set di proprietà disponibili in una connessione per la connessione a un asset dati.
- Raccolta
- Processo che estrae i metadati tecnici dalle origini dati connesse nel repository Data Catalog.
- Object
- Un oggetto nel Data Catalog si riferisce a qualsiasi oggetto gestito nel Data Catalog, ad esempio asset dati, entità dati, attributi, glossari e termini.
- oggetto dati
- Un oggetto dati in Data Catalog si riferisce agli asset dati e alle entità dati.
- Entità dati
- Un'entità dati è una raccolta di dati, ad esempio una tabella o una vista di database o un singolo file logico. In genere, un'entità dati dispone di numerosi attributi che ne descrivono i dati.
- Pattern nomi file
- Un pattern di nomi file è un'espressione regolare creata per raggruppare più file di storage degli oggetti in un'entità dati logica.
- Entità di dati logica
- Un'entità dati logica è un gruppo di file di storage degli oggetti che vengono derivati creando e assegnando pattern di nomi file a un asset dati.
- Attribute
- Un attributo descrive un elemento dati con un nome e un tipo di dati. Ad esempio, una colonna in una tabella o un campo in un file.
- Proprietà personalizzata
- La proprietà personalizzata viene creata per integrare gli oggetti Data Catalog con il contesto aziendale.
- Glossario
- Un glossario è una raccolta di concetti aziendali nell'azienda. Il glossario è costituito da categorie e termini commerciali.
- Categoria
- Una categoria viene creata in un glossario per raggruppare termini business correlati a livello logico. È possibile creare una categoria all'interno di una categoria per raggruppare i termini.
- Termine
- I termini sono le definizioni effettive dei concetti aziendali concordate dai diversi stakeholder aziendali della tua azienda. Le condizioni vengono utilizzate per organizzare le entità dati e gli attributi.
- Tag Data Catalog
- Le tag sono etichette in formato libero o parole chiave create per identificare logicamente gli oggetti dati. Le tag sono utili per la classificazione e la ricerca automatica dei metadati. È possibile creare tag per asset dati, entità dati e attributi. Utilizzando le tag è possibile cercare tutti gli oggetti dati contrassegnati con un nome di tag specifico.
- Job
- Task che esegue il processo di raccolta. Un job può essere creato ed eseguito immediatamente, pianificato per essere eseguito a una frequenza specificata oppure creato ed eseguito quando necessario.
- Pianificazione
- Job automatizzato che può essere eseguito ogni ora, ogni giorno, ogni settimana o ogni mese.
Modalità di accesso a Data Catalog
Accedi a Data Catalog utilizzando la console, l'API REST, gli SDK o l'interfaccia CLI.
Utilizzare una delle seguenti opzioni, in base alle preferenze e alla relativa idoneità per l'attività che si desidera completare:
- La console è un'interfaccia basata su browser facile da usare. Per un elenco dei browser supportati, vedere Browser supportati.
Per andare alla pagina di accesso, utilizzare il collegamento Console nella parte superiore di questa pagina. Viene richiesto di immettere il tenant cloud, il nome utente e la password.
. - Le API REST offrono la maggior parte delle funzionalità, ma richiedono competenze di programmazione. Gli endpoint e riferimenti API forniscono dettagli sugli endpoint e collegamenti ai documenti di riferimento API disponibili.
- Oracle Cloud Infrastructure offre SDK che interagiscono con Data Catalog senza dover creare un framework.
- L'interfaccia a riga di comando offre accesso rapido e funzionalità complete senza necessità di alcuna programmazione.
Identificativi risorsa
La risorsa Data Catalog dispone di un identificativo univoco assegnato da Oracle noto come OCID (Oracle Cloud ID).
Aree e domini di disponibilità
Data Catalog è disponibile in tutte le aree menzionate in Aree e domini di disponibilità. Le aree e i domini di disponibilità indicano l'organizzazione fisica e logica delle risorse di Data Catalog. Un'area è un'area geografica localizzata, mentre un dominio di disponibilità è costituito da uno o più data center situati all'interno di un'area.
Limiti e quote
Limiti del servizio
Data Catalog limita l'utente a due istanze di Data Catalog per area.
Quote compartimento
È possibile limitare il numero di risorse del Data Catalog in un compartimento creando un limite di quota. Ad esempio:
set data-catalog quota catalog-count to 1 in compartment <MyCompartment>
Servizi integrati
Data Catalog è integrato con vari servizi e funzioni.
Data Catalog si integra con IAM per l'autenticazione e l'autorizzazione, per tutte le interfacce (console, SDK, CLI e API REST).
Un amministratore dell'azienda deve impostare i gruppi, i compartimenti e i criteri che controllano chi può accedere a diversi servizi e risorse e il tipo di accesso. Ad esempio, i criteri controllano chi può creare utenti, creare e gestire la rete cloud, creare istanze, creare bucket e scaricare oggetti.
Se sei un utente normale (non un amministratore) che deve utilizzare le risorse Oracle Cloud Infrastructure di proprietà della tua azienda, contatta il tuo amministratore per impostare un ID utente per te. L'amministratore può confermare i compartimenti che è possibile utilizzare.
È possibile creare criteri comuni per autorizzare gli utenti di Data Catalog. È inoltre possibile creare criteri di Data Catalog per controllare l'accesso degli utenti a Data Catalog.
Data Catalog è integrato con l'API delle richieste di lavoro comune. Vedere Richieste di lavoro di Data Catalogo.
Data Catalog è integrato con il servizio Eventi. Vedere Eventi di Data Catalog.
Oracle Cloud Infrastructure Search ti consente di trovare risorse nella tua tenancy senza dover navigare tra diversi servizi e compartimenti. È possibile cercare il tipo di risorsa datacatalog
nelle query di ricerca.
Il servizio di esplorazione delle tenancy ti consente di visualizzare tutte le risorse in un compartimento specifico, in tutte le aree. La funzione di esplorazione della tenancy si basa sul servizio Search e supporta il tipo di risorsa Data Catalog datacatalog
.
Oracle Cloud Infrastructure Monitoring ti consente di monitorare attivamente e passivamente le tue risorse del Data Catalog utilizzando le funzioni di metriche e allarmi.
Le metriche di Data Catalog consentono di misurare:
- Numero di oggetti memorizzati nell'istanza del Data Catalog.
- Numero di oggetti raccolti.
- Tempo impiegato per raccogliere gli oggetti.
- Errori riscontrati durante la raccolta.