Creare e configurare pipeline

È possibile creare una o più pipeline di caricamento o esportazione. Quando si crea una pipeline, è possibile utilizzare i parametri e impostare gli attributi della pipeline per configurare la pipeline.

Di seguito sono riportate le opzioni per creare e configurare una pipeline.

Crea e configura una pipeline per il caricamento dei dati

È possibile creare una pipeline per caricare i dati dai file esterni nell'area di memorizzazione degli oggetti alle tabelle in Autonomous Database.

Una pipeline di caricamento utilizza i dati posizionati nell'area di memorizzazione degli oggetti e li carica in una tabella in Autonomous Database. Quando si crea una pipeline di caricamento, la pipeline viene eseguita a intervalli regolari per utilizzare i dati inseriti nell'area di memorizzazione degli oggetti, quando arrivano nuovi file di dati, la pipeline carica i nuovi dati. È inoltre possibile utilizzare una pipeline per copiare i file in modo affidabile, con funzionalità di ripresa e nuovi tentativi, dall'area di memorizzazione degli oggetti a una tabella nel database.

Con una pipeline di caricamento, il package di pipeline utilizza DBMS_CLOUD.COPY_DATA per caricare i dati.

In Autonomous Database, utilizzare una tabella esistente o creare la tabella di database in cui si stanno caricando i dati. Ad esempio:

CREATE TABLE EMPLOYEE
            (name     VARCHAR2(128),
             age      NUMBER,
             salary   NUMBER);
  1. Creare una pipeline per caricare i dati dall'area di memorizzazione degli oggetti.
    BEGIN
         DBMS_CLOUD_PIPELINE.CREATE_PIPELINE(
            pipeline_name => 'MY_PIPE1',
            pipeline_type => 'LOAD',
            description   => 'Load metrics from object store into a table'
      );
    END;
    /

    Per ulteriori informazioni, vedere CREATE_PIPELINE Procedura.

  2. Creare un oggetto credenziali per accedere all'area di memorizzazione degli oggetti contenente i file che si stanno caricando.

    Specificare la credenziale per la posizione di origine della pipeline con l'attributo credential_name. Se non si fornisce un valore credential_name nel passo successivo, il valore credential_name viene impostato su NULL. È possibile utilizzare il valore predefinito NULL quando l'attributo location è un URL pubblico o preautenticato.

    Per ulteriori informazioni, vedere CREATE_CREDENTIAL Procedura.

  3. Impostare gli attributi della pipeline, inclusi gli attributi obbligatori: location, table_name e format.
    BEGIN
         DBMS_CLOUD_PIPELINE.SET_ATTRIBUTE(
           pipeline_name => 'MY_PIPE1',
           attributes    => JSON_OBJECT(
                'credential_name' VALUE 'OBJECT_STORE_CRED',
                'location' VALUE 'https://objectstorage.us-phoenix-1.oraclecloud.com/n/namespace-string/b/bucketname/o/',
                'table_name' VALUE 'employee',
                'format' VALUE '{"type":"json", "columnpath":["$.NAME", "$.AGE", "$.SALARY"]}',
                'priority' VALUE 'HIGH',
                'interval' VALUE '20')
      );
    END;
    /

    Per eseguire una pipeline di caricamento, è necessario impostare i seguenti attributi:

    • location: specifica la posizione del file di origine nell'area di memorizzazione degli oggetti.

    • table_name: specifica la tabella nel database in cui si stanno caricando i dati. Il valore location specificato si riferisce a un valore table_name per pipeline.

    • format: descrive il formato dei dati che si stanno caricando.

      Per ulteriori informazioni, vedere DBMS_CLOUD Opzioni formato pacchetto.

    credential_name è la credenziale creata nel passo precedente.

    Il valore priority determina il numero di file caricati in parallelo. Una pipeline con una priorità più alta consuma più risorse di database e completa ogni esecuzione più velocemente, rispetto all'esecuzione con una priorità inferiore.

    Il valore interval specifica l'intervallo di tempo in minuti tra le esecuzioni consecutive di un job pipeline. Il valore predefinito interval è di 15 minuti.

    Per informazioni dettagliate sugli attributi della pipeline, vedere DBMS_CLOUD_PIPELINE Attributi.

    Dopo aver creato una pipeline, è possibile eseguire il test della pipeline o avviarla.

In alternativa, per impostare il formato per JSON, è possibile utilizzare il seguente formato:

BEGIN
    DBMS_CLOUD_PIPELINE.SET_ATTRIBUTE(
        pipeline_name   => 'MY_PIPE1',
        attribute_name  => 'format',
        attribute_value => JSON_OBJECT('type' value 'json', 'columnpath' value '["$.NAME", "$.AGE", "$.SALARY"]')
    );
END;
/

Crea e configura una pipeline per l'esportazione con colonna indicatore orario

È possibile creare una pipeline di esportazione per esportare automaticamente i dati delle serie temporali dall'Autonomous Database all'area di memorizzazione degli oggetti.

Questa opzione della pipeline di esportazione consente di specificare una tabella o una query SQL e una colonna con un indicatore orario utilizzato dalla pipeline per tenere traccia dell'ora dell'ultimo caricamento. È possibile utilizzare una pipeline di esportazione per condividere i dati per l'utilizzo da parte di altre applicazioni o per salvare i dati nell'area di memorizzazione degli oggetti.

Con una pipeline di esportazione, il package di pipeline utilizza DBMS_CLOUD.EXPORT_DATA per esportare i dati.

Una pipeline di esportazione esporta i dati dall'Autonomous Database all'area di memorizzazione degli oggetti. Quando si crea una pipeline di esportazione, la pipeline viene eseguita a intervalli regolari e inserisce i dati nell'area di memorizzazione degli oggetti.

  1. Creare una pipeline per esportare i dati nell'area di memorizzazione degli oggetti.
    BEGIN
         DBMS_CLOUD_PIPELINE.CREATE_PIPELINE(
            pipeline_name=>'EXP_PIPE1',
            pipeline_type=>'EXPORT',
            description=>'Export time series metrics to object store');
    END;
    /

    Per ulteriori informazioni, vedere CREATE_PIPELINE Procedura.

  2. Creare un oggetto credenziali per accedere alla posizione dell'area di memorizzazione degli oggetti di destinazione in cui si esportano i file di dati.

    Specificare la credenziale per la posizione di destinazione della pipeline con l'attributo credential_name. Se non si fornisce un valore credential_name nel passo successivo, il valore credential_name viene impostato su NULL. È possibile utilizzare il valore predefinito NULL quando l'attributo location è un URL pubblico o preautenticato.

    Per ulteriori informazioni, vedere CREATE_CREDENTIAL Procedura.

  3. Impostare gli attributi della pipeline di esportazione.

    Quando si specifica un parametro table_name, le righe della tabella vengono esportate nell'area di memorizzazione degli oggetti. Quando si specifica un parametro query, la query specifica un'istruzione SELECT in modo che vengano esportati solo i dati richiesti nell'area di memorizzazione degli oggetti.

    • Utilizzando un parametro table_name:

      BEGIN
           DBMS_CLOUD_PIPELINE.SET_ATTRIBUTE(
             pipeline_name => 'EXP_PIPE1',
             attributes    => JSON_OBJECT('credential_name' VALUE 'OBJECT_STORE_CRED',
                'location' VALUE 'https://objectstorage.us-phoenix-1.oraclecloud.com/n/namespace-string/b/bucketname/o/',
                'table_name' VALUE 'metric_table',
                'key_column' VALUE 'metric_time',
                'format' VALUE '{"type": "json"}',
                'priority' VALUE 'MEDIUM',
                'interval' VALUE '20')
        );
      END;
      /
    • Utilizzando un parametro query:

      BEGIN
           DBMS_CLOUD_PIPELINE.SET_ATTRIBUTE(
             pipeline_name => 'EXP_PIPE1',
             attributes    => JSON_OBJECT('credential_name' VALUE 'OBJECT_STORE_CRED',
                 'location' VALUE 'https://objectstorage.us-phoenix-1.oraclecloud.com/n/namespace-string/b/bucketname/o/',
                 'query' VALUE 'SELECT * from metrics_table',
                 'key_column' VALUE 'metric_time',
                 'format' VALUE '{"type": "json"}',
                 'priority' VALUE 'MEDIUM',
                 'interval' VALUE '20')
        );
      END;
      /

    Dove credential_name è la credenziale creata nel passo precedente.

    Per eseguire una pipeline di esportazione, è necessario impostare i seguenti attributi:

    • location: specifica la posizione dell'area di memorizzazione degli oggetti di destinazione. Il valore location specificato si riferisce a un valore table_name per pipeline.

    • table_name: specifica la tabella nel database contenente i dati che si stanno esportando (è necessario il parametro table_name o il parametro query).

    • query: specifica la query da eseguire nel database che fornisce i dati che si stanno esportando (è necessario il parametro table_name o il parametro query).

    • format: descrive il formato dei dati che si stanno esportando.

      Per ulteriori informazioni, vedere DBMS_CLOUD Opzioni formato pacchetto per EXPORT_DATA.

    Il valore priority determina il grado di parallelismo per il recupero dei dati dal database.

    Il valore interval specifica l'intervallo di tempo in minuti tra le esecuzioni consecutive di un job pipeline. Il valore predefinito interval è di 15 minuti.

    Per informazioni dettagliate sugli attributi della pipeline, vedere DBMS_CLOUD_PIPELINE Attributi.

    Dopo aver creato una pipeline, è possibile eseguire il test della pipeline o avviarla.

Crea e configura una pipeline per esportare i risultati delle query (senza indicatore orario)

È possibile creare una pipeline di esportazione per esportare automaticamente i dati dall'Autonomous Database all'area di memorizzazione degli oggetti. Questa opzione di pipeline di esportazione consente di specificare una query SQL eseguita periodicamente dalla pipeline per esportare i dati nell'area di memorizzazione degli oggetti. È possibile utilizzare questa opzione di esportazione per condividere i dati più recenti da Autonomous Database nell'area di memorizzazione degli oggetti affinché altre applicazioni utilizzino i dati.

Una pipeline di esportazione esporta i dati dall'Autonomous Database all'area di memorizzazione degli oggetti. Quando si crea una pipeline di esportazione, la pipeline viene eseguita a intervalli regolari e inserisce i dati nell'area di memorizzazione degli oggetti.

  1. Creare una pipeline per esportare i dati nell'area di memorizzazione degli oggetti.
    BEGIN
         DBMS_CLOUD_PIPELINE.CREATE_PIPELINE(
            pipeline_name=>'EXP_PIPE2',
            pipeline_type=>'EXPORT',
            description=>'Export query results to object store.');
    END;
    /

    Per ulteriori informazioni, vedere CREATE_PIPELINE Procedura.

  2. Creare un oggetto credenziali per accedere alla posizione dell'area di memorizzazione degli oggetti di destinazione in cui si esportano i file di dati.

    Specificare la credenziale per la posizione di destinazione della pipeline con l'attributo credential_name. Se non si fornisce un valore credential_name nel passo successivo, il valore credential_name viene impostato su NULL. È possibile utilizzare il valore predefinito NULL quando l'attributo location è un URL pubblico o preautenticato.

    Per ulteriori informazioni, vedere CREATE_CREDENTIAL Procedura.

  3. Impostare gli attributi della pipeline di esportazione.
    BEGIN
         DBMS_CLOUD_PIPELINE.SET_ATTRIBUTE(
           pipeline_name => 'EXP_PIPE2',
           attributes    => JSON_OBJECT(
              'credential_name' VALUE 'OBJECT_STORE_CRED',
              'location' VALUE 'https://objectstorage.us-phoenix-1.oraclecloud.com/n/namespace-string/b/bucketname/o/',
              'query' VALUE 'SELECT * FROM table_name',
              'format' VALUE '{"type": "json"}',
              'priority' VALUE 'MEDIUM',
              'interval' VALUE '20')
      );
    END;
    /

    Dove credential_name è la credenziale creata nel passo precedente.

    Per eseguire una pipeline di esportazione, è necessario impostare i seguenti attributi:

    • location: specifica la posizione dell'area di memorizzazione degli oggetti di destinazione.

    • query: specifica la query da eseguire nel database che fornisce i dati che si stanno esportando.

    • format: descrive il formato dei dati che si stanno esportando.

      Per ulteriori informazioni, vedere DBMS_CLOUD Opzioni formato pacchetto per EXPORT_DATA.

    Il valore priority determina il grado di parallelismo per il recupero dei dati dal database.

    Il valore interval specifica l'intervallo di tempo in minuti tra le esecuzioni consecutive di un job pipeline. Il valore predefinito interval è di 15 minuti.

    Per informazioni dettagliate sugli attributi della pipeline, vedere DBMS_CLOUD_PIPELINE Attributi.

    Dopo aver creato una pipeline, è possibile eseguire il test della pipeline o avviarla.