6 自動植入型錄
本章包含建立與管理自動擷取程式以將資料提取至目錄的相關資訊。
關於自動植入
您可以自動化將中繼資料從來源直接擷取到資料目錄的程序。
從資料來源手動建立綱要、表格和分割區相當耗時且複雜。Oracle AI Data Platform Workbench 可讓您自動從資料來源擷取中繼資料,並在您在中繼資料擷取器中指定的目錄中建立實體。
您可以建立描述資料擷取器,在目錄中自動填入此描述資料。在建立擷取器時,您可以指定要擷取中繼資料的目標目錄和中繼資料的來源。您可以選擇讓擷取器在指定的綱要中建立表格,或讓系統建議在未指定或偵測到綱要時建立表格的位置。
自動植入可以從下列檔案類型擷取中繼資料:
- CSV
- JSON
- Avro
- ORC
- Parquet
- Delta Lake
附註:
當您在建立中繼資料擷取器時指定來源資料夾時,分葉資料夾中的所有檔案必須為相同的資料格式。附註:
自動植入僅支援底線 (_) 作為資料欄名稱中的特殊字元。您可以選擇手動複查擷取的實體,或讓系統自動從擷取的中繼資料建立實體。擷取中繼資料時,會在日誌中擷取造成錯誤的實體。您可以檢視日誌以查看哪些實體發生錯誤並採取更正動作。
手動複查實體可讓您個別接受或拒絕實體。您可以在「複查的實體」頁籤中檢視已經核准或拒絕的實體。
擷取器會顯示其狀態,讓您知道目前所在的階段,以及是否需要使用者介入。
| 擷取器狀態 | 描述 |
|---|---|
| 未啟動 | 擷取器尚未開始。啟動擷取器以開始。 |
| 執行中 | 擷取器進行中 |
| 可供複查 | 擷取程式已執行,且您已選擇手動核准。擷取的實體必須經過複查且已接受或核准。 |
| 複查 | 擷取程式已執行,且您已選擇手動核准。某些實體已由使用者複查或核准,但實體仍需要複查。 |
| 已完成 | 擷取程式已執行,且實體已自動核准或由使用者手動核准 |
若您具有必備條件權限,則您可以檢視並使用由其他使用者建立的中繼資料擷取程式。
建立中繼資料擷取器
您可以建立中繼資料擷取器,將綱要和表格等實體自動擷取至您的目錄。
- 在「首頁」上,按一下自動植入目錄。
- 按一下
建立描述資料擷取器。 - 輸入描述資料擷取器的名稱。
- 從目錄下拉式清單中選取目標目錄。
- 從來源類型下拉式清單中選取適當的來源類型。
- 在運算旁邊,按一下瀏覽,然後選擇擷取器應使用的叢集。按一下「選取」。
- 對於物件儲存 URI ,選取是要瀏覽您希望擷取中繼資料的儲存桶或資料夾的區間,還是要指定儲存桶或資料夾的 URI。
- 在選取儲存桶或資料夾中,按一下瀏覽以選取要擷取描述資料的區間、儲存桶和資料夾。
- 若為手動輸入 URI ,請在提供的欄位中輸入 URI。
- 選取是否以手動核准或由系統自動核准建立實體。
- 選擇性:選取建立外部表格的綱要。如果未指定任何綱要,系統就會根據資料夾結構在綱要中建立表格,如果未偵測到綱要,則在預設綱要中建立表格。
手動複查擷取的描述資料實體
當您選擇在中繼資料擷取器中建立實體的手動方法時,您需要複查擷取的實體,並核准或拒絕將其新增至您的目錄。
- 在「首頁」上,按一下自動植入目錄。
- 按一下中繼資料擷取器的名稱。
- 按一下等待複查的實體頁籤。
- 針對每個實體,選取核准或拒絕。
- 選擇性:選取全部核准或全部拒絕,將所有複查中的實體設定為選取的狀態。
- 按一下提交。
檢視複查的實體
您可以查看已手動或自動複查為描述資料擷取一部分的個體,並查看該個體的日誌詳細資訊、表格詳細資訊或資料欄綱要。
- 在「首頁」上,按一下自動植入目錄。
- 按一下描述資料擷取器的名稱。
- 按一下已複查實體頁籤。
- 在實體旁邊,按一下
動作。- 按一下檢視表格詳細資訊,即可查看所選實體的表格詳細資訊。
- 按一下檢視資料欄綱要,即可查看所選實體的資料欄綱要。
- 按一下檢視日誌,即可查看所選實體的描述資料擷取器日誌。