關於自治式 AI 資料庫的資料管線
自治式 AI 資料庫資料管線為載入管線或匯出管線。
載入管線提供從外部來源持續增量資料載入 (當資料到達物件存放區時,會載入至資料庫表格)。匯出管線提供連續增量資料匯出至物件存放區 (當新資料顯示在匯出至物件存放區的資料庫表格中時)。管線會使用資料庫排程器來持續載入或匯出增量資料。
自治式 AI 資料庫資料管線提供下列各項:
-
統一作業:管線可讓您快速輕鬆地載入或匯出資料,並定期為新資料重複這些作業。
DBMS_CLOUD_PIPELINE套裝程式提供一組統一的管線組態 PL/SQL 程序,以及建立和啟動排定的工作以進行載入或匯出作業。 -
排定的資料處理:管線會監督其資料來源,並隨著新資料到達定期載入或匯出資料。
-
高效能:管線會使用自治式 AI 資料庫上的可用資源來擴展資料傳輸作業。管線預設會對所有載入或匯出作業使用平行程度,並根據自治式 AI 資料庫上可用的 CPU 資源或可設定的優先順序屬性進行擴展。
-
單元性與復原:管線可確保單元性,讓物件存放區中的檔案在載入管線中完全載入一次。
-
監督及疑難排解:管線提供詳細的日誌和狀態表格,可讓您監督和除錯管線作業。
-
多雲端相容:自治式 AI 資料庫上的管線支援在雲端提供者之間輕鬆切換,無須變更應用程式。管線支援自治式 AI 資料庫支援的所有證明資料和物件存放區 URI 格式 (Oracle Cloud Infrastructure Object Storage、Amazon S3、Azure Blob 儲存體、Google Cloud Storage 和 Amazon S3 相容的物件存放區)。
資料管線生命週期
DBMS_CLOUD_PIPELINE 套裝程式提供建立、設定、測試及啟動管線的程序。負載和匯出管線的管線生命週期和程序相同。

對於任一種管線類型,您可以執行下列步驟來建立及使用管線:
此外,您可以監督、停止或刪除管線:
-
管線正在執行時 (在測試期間或在您啟動管線後定期使用期間),您可以監督管線。請參閱監督及疑難排解管線以瞭解詳細資訊。
載入管線
使用載入管線從物件存放區中的外部檔案連續增量資料載入至資料庫表格。載入管線會定期識別物件存放區中的新檔案,並將新資料載入資料庫表格中。
載入管線運作方式如下 (部分功能可使用管線屬性進行設定):
-
物件存放區檔案會平行載入資料庫表格中。
-
載入管線會使用物件存放區檔案名稱來唯一識別和載入較新的檔案。
-
在資料庫表格中載入物件存放區中的檔案之後,如果物件存放區中的檔案內容變更,就不會再載入。
-
如果刪除物件存放區檔案,則不會影響資料庫表格中的資料。
-
-
如果發生失敗,則載入管線會自動重試作業。每次後續的管線排定工作執行都會嘗試重試。
-
在檔案中的資料不符合資料庫表格的情況下,會將其標示為
FAILED,並可複查以對問題進行除錯和疑難排解。- 如果無法載入任何檔案,管線不會停止並繼續載入其他檔案。
-
載入管線支援多種輸入檔案格式,包括:JSON、CSV、XML、Avro、ORC 和 Parquet。
從非 Oracle 資料庫移轉是負載管線的其中一個可能使用案例。當您需要將資料從非 Oracle 資料庫移轉至專用 Exadata 基礎架構上的 Oracle Autonomous AI Database 時,可以擷取資料並將其載入至自治式 AI 資料庫 (Oracle Data Pump 格式無法用於從非 Oracle 資料庫移轉)。透過使用一般檔案格式 (例如 CSV) 從非 Oracle 資料庫匯出資料,您可以將資料儲存至檔案並將檔案上傳至物件存放區。接著,建立將資料載入自治式 AI 資料庫的管線。使用負載管線來載入一組大型 CSV 檔案,提供諸如容錯以及繼續和重試作業等重要優點。對於具有大型資料集的移轉,您可以為非 Oracle 資料庫檔案建立多個管線,每個表格一個管線,以將資料載入至 Autonomous AI Database。
匯出管線
使用匯出管線將資料從資料庫持續增量匯出至物件存放區。匯出管線會定期識別候選資料並將資料上傳至物件存放區。
有三個匯出管線選項 (可使用管線屬性設定匯出選項):
-
使用日期或時戳資料欄作為追蹤較新資料的索引鍵,將查詢的增量結果匯出至物件存放區。
-
使用日期或時戳資料欄作為追蹤較新資料的索引鍵,將表格的增量資料匯出至物件存放區。
-
使用查詢將表格的資料匯出至物件存放區,以選取沒有日期或時戳資料欄參照的資料 (讓管線匯出查詢針對每個排程器執行選取的所有資料)。
匯出管線具有下列功能 (部分功能可使用管線屬性進行設定):
-
結果會以平行方式匯出至物件存放區。
-
如果發生任何失敗,後續的管線工作就會重複匯出作業。
-
匯出管線支援多種匯出檔案格式,包括:CSV、JSON、Parquet 或 XML。
Oracle 維護的管線
專用 Exadata 基礎架構上的自治式 AI 資料庫提供內建管線,以 JSON 格式將特定日誌匯出至物件存放區。這些管線會預先設定,並由 ADMIN 使用者啟動及擁有。
「Oracle 維護」管線包括:
-
ORA$AUDIT_EXPORT:此管線會匯出資料庫稽核日誌至 JSON 格式的物件存放區,並在啟動管線後每 15 分鐘執行一次 (根據interval屬性值)。 -
ORA$APEX_ACTIVITY_EXPORT:此管線會以 JSON 格式將 Oracle APEX 工作區活動日誌匯出至物件存放區。此管線已預先設定 SQL 查詢,用於擷取 APEX 活動記錄,並在啟動管線後每 15 分鐘執行一次 (根據interval屬性值)。
設定及啟動 Oracle 管理的管線:
-
決定您要使用的 Oracle Managed Pipeline:
ORA$AUDIT_EXPORT或ORA$APEX_ACTIVITY_EXPORT。 -
設定
credential_name和location屬性。注意:
credential_name是專用 Exadata 基礎架構上自治式 AI 資料庫的必要值。舉例而言:
BEGIN DBMS_CLOUD_PIPELINE.SET_ATTRIBUTE( pipeline_name => 'ORA$AUDIT_EXPORT', attribute_name => 'credential_name', attribute_value => 'DEF_CRED_OBJ_STORE' ); DBMS_CLOUD_PIPELINE.SET_ATTRIBUTE( pipeline_name => 'ORA$AUDIT_EXPORT', attribute_name => 'location', attribute_value => 'https://objectstorage.us-phoenix-1.oraclecloud.com/n/namespace-string/b/bucketname/o/' ); END; /資料庫的日誌資料會匯出至您指定的物件存放區位置。
請參閱 SET_ATTRIBUTE 以取得詳細資訊。
-
選擇性地設定
interval、format或priority屬性。請參閱 SET_ATTRIBUTE 以取得詳細資訊。
-
開始業務進程。
請參閱 START_PIPELINE 以取得詳細資訊。