關於自治式 AI 資料庫的資料管線
載入管線可從外部來源提供連續的增量資料載入 (當資料到達物件存放區時,會將其載入資料庫表格)。匯出管線提供連續的增量資料匯出至物件存放區 (當新資料顯示在匯出至物件存放區的資料庫表格中時)。管線會使用資料庫排程器持續載入或匯出增量資料。
Autonomous AI Database 資料管線提供下列功能:
-
統一作業:管線可讓您快速輕鬆地載入或匯出資料,並定期為新資料重複這些作業。
DBMS_CLOUD_PIPELINE套裝程式提供一組整合的管線組態 PL/SQL 程序,以及建立和啟動用於載入或匯出作業的排定工作。 -
排定的資料處理:管線會監督其資料來源,並在新資料到達時定期載入或匯出資料。
-
高效能:管線使用 Autonomous AI Database 上可用的資源擴展資料傳輸作業。管線預設會對所有載入或匯出作業使用平行程度,並根據自治式 AI 資料庫上可用的 CPU 資源或可設定的優先順序屬性進行擴展。
-
單元性與復原:管線會保證單元性,讓物件存放區中的檔案針對載入管線完全載入一次。
-
監督與疑難排解:管線提供詳細的日誌和狀態表格,供您監督和除錯管線作業。
- 多雲端相容: Autonomous AI Database 上的管線可支援在雲端提供者之間輕鬆切換,無需變更應用程式。管線支援 Autonomous AI Database 支援的所有證明資料和物件存放區 URI 格式 (Oracle Cloud Infrastructure Object Storage 、Amazon S3 、Azure Blob Storage 、Google Cloud Storage 和 Amazon S3-Compatible 物件存放區)。
資料管線生命週期
DBMS_CLOUD_PIPELINE 套裝軟體提供建立、設定、測試及啟動管線的程序。載入和匯出管線的管線生命週期和程序相同。

圖解說明 pipeline_lifecycle.eps
對於任一種管線類型,您可以執行下列步驟來建立和使用管線:
此外,您可以監督、停止或刪除管線:
載入管線
載入管線的運作方式如下 (可以使用管線屬性設定部分功能):
-
物件存放區檔案會以平行方式載入資料庫表格。
- 載入管線會使用物件存放區檔案名稱來唯一識別及載入較新的檔案。
- 一旦在資料庫表格中載入了物件倉庫中的檔案,如果物件倉庫中的檔案內容發生變更,則不會再次載入該檔案。
- 如果刪除物件倉庫檔案,則不會影響資料庫表格中的資料。
-
如果發生失敗,載入管線會自動重試作業。系統會在每次後續執行管線排定工作時嘗試重試。
-
如果檔案中的資料不符合資料庫表格,就會將其標示為
FAILED,並且可以複查以對問題進行除錯和疑難排解。- 如果無法載入任何檔案,管線就不會停止並繼續載入其他檔案。
-
載入管線支援多種輸入檔案格式,包括:JSON、CSV、XML、Avro、ORC 和 Parquet。
匯出管線
使用匯出管線將資料從資料庫持續增量匯出至物件存放區。匯出管線會定期識別候選資料,並將資料上傳至物件存放區。
有三個匯出管線選項 (可使用管線屬性設定匯出選項):
-
使用日期或時戳資料欄作為追蹤較新資料的索引鍵,將查詢的增量結果匯出至物件存放區。
-
使用日期或時戳資料欄作為追蹤較新資料的索引鍵,將表格的增量資料匯出至物件存放區。
-
使用查詢將表格的資料匯出至物件存放區,以選取資料而不參照日期或時戳資料欄 (讓管線匯出查詢為每個排程器執行選取的所有資料)。
匯出管線具有下列功能 (可以使用管線屬性設定部分功能):
-
結果會以平行方式匯出至物件存放區。
-
如果發生任何失敗,後續管線工作會重複匯出作業。
-
匯出管線支援多種匯出檔案格式,包括: CSV、JSON、Parquet 或 XML 。
Oracle 維護的管線
專用 Exadata 基礎架構上的自治式 AI 資料庫提供內建管線,可將特定日誌以 JSON 格式匯出至物件存放區。這些管線會預先設定,並由 ADMIN 使用者啟動及擁有。
「Oracle 維護」管線包括:
-
ORA$AUDIT_EXPORT:此管線會將資料庫稽核日誌匯出成 JSON 格式的物件存放區,並在啟動管線後每 15 分鐘執行一次 (根據interval屬性值)。 -
ORA$APEX_ACTIVITY_EXPORT:此管線會將 Oracle APEX 工作區活動日誌匯出成 JSON 格式的物件存放區。此管線已預先設定用於擷取 APEX 活動記錄的 SQL 查詢,並且在開始管線後每 15 分鐘執行一次 (根據interval屬性值)。
設定並啟動「Oracle 管理的管線」: