6 カタログの自動移入
この章では、カタログにデータをプルする自動エクストラクタを作成および管理する方法について説明します。
自動移入について
ソースからデータ・カタログに直接メタデータを抽出するプロセスを自動化できます。
データ・ソースからスキーマ、表およびパーティションを手動で作成するには、時間がかかり複雑になります。Oracle AI Data Platform Workbenchは、データ・ソースからメタデータを自動的に抽出し、メタデータ・エクストラクタで指定するカタログにエンティティを作成する機能を提供します。
メタデータ・エクストラクタを作成して、このメタデータをカタログに自動的に移入します。エクストラクタの作成の一環として、メタデータを抽出するターゲット・カタログとメタデータのソースを指定します。エクストラクタで指定したスキーマに表を作成するか、スキーマが指定または検出されていない場合に表が作成される場所をシステムで提案するかを選択できます。
自動移入では、次のファイル・タイプからメタデータを抽出できます。
- CSV
- JSON
- Avro
- ORC
- Parquet
- Delta Lake
ノート:
メタデータ・エクストラクタの作成時にソース・フォルダを指定する場合、リーフ・フォルダ内のすべてのファイルが同じデータ形式である必要があります。ノート:
自動移入では、列名の特殊文字としてアンダースコア( _ )のみがサポートされます。抽出されたエンティティを手動で確認するか、抽出されたメタデータからエンティティを自動的に作成するかを選択できます。メタデータを抽出すると、エラーの原因となるエンティティがログに取得されます。ログを表示して、エラーが発生したエンティティを確認し、修正するアクションを実行できます。
エンティティを手動でレビューすると、エンティティを個別に受け入れるか拒否できます。「レビュー済エンティティ」タブで、すでに承認または否認されているエンティティを表示できます。
エクストラクタにはステータスが表示され、現在どのステージにいるか、およびユーザーの介入が必要かどうかが示されます。
| 抽出者ステータス | 説明 |
|---|---|
| 開始していません | エクストラクタが開始されていません。抽出を開始する。 |
| Running | エクストラクタが進行中です |
| レビュー準備完了 | 抽出プログラムが実行され、手動承認を選択しました。抽出されたエンティティはレビューされ、承認または承認される必要があります。 |
| レビュー中 | 抽出プログラムが実行され、手動承認を選択しました。一部のエンティティはユーザーによってレビューまたは承認されましたが、確認が必要なエンティティは残ります。 |
| 完了 | エクストラクタが実行され、エンティティが自動的に承認されるか、ユーザーが手動で承認されました |
必要な権限がある場合は、他のユーザーが作成したメタデータ・エクストラクタを表示して使用できます。
メタデータ・エクストラクタの作成
メタデータ・エクストラクタを作成して、スキーマや表などのエンティティのカタログへの抽出を自動化できます。
- ホーム・ページで、「カタログの自動移入」をクリックします。
「メタデータ・エクストラクタの作成」をクリックします。- メタデータ・エクストラクタの名前を入力します。
- 「カタログ」ドロップダウンからターゲット・カタログを選択します。
- 「ソース・タイプ」ドロップダウンから適切なソース・タイプを選択します。
- 「コンピュート」の横にある「参照」をクリックし、エクストラクタが使用するクラスタを選択します。「選択」をクリックします。
- 「オブジェクト・ストレージURI」で、メタデータを抽出するバケットまたはフォルダのコンパートメントを参照するか、バケットまたはフォルダのURIを指定するかを選択します。
- 「バケットまたはフォルダの選択」で、「参照」をクリックして、メタデータを抽出するコンパートメント、バケットおよびフォルダを選択します。
- 「URIを手動で入力」に、指定されたフィールドにURIを入力します。
- エンティティを手動承認で作成するか、システムで自動的に承認するかを選択します。
- オプション: 外部表が作成されるスキーマを選択します。スキーマが指定されていない場合は、フォルダ構造に基づいてスキーマに表が作成され、スキーマが検出されない場合はデフォルトのスキーマに表が作成されます。
抽出されたメタデータ・エンティティの手動レビュー
メタデータ・エクストラクタでエンティティを手動で作成する方法を選択した場合は、抽出されたエンティティを確認し、カタログへの追加を承認または拒否する必要があります。
- ホーム・ページで、「カタログの自動移入」をクリックします。
- メタデータ・エクストラクタの名前をクリックします。
- 「レビュー待ちのエンティティ」タブをクリックします。
- エンティティごとに、「承認」または「却下」を選択します。
- オプション: 「すべて承認」または「すべて却下」を選択して、レビュー中のすべてのエンティティを選択したステータスに設定します。
- 「送信」をクリックします。
レビュー済エンティティの表示
メタデータ抽出の一部として手動または自動でレビューされたエンティティを表示し、そのエンティティのログ詳細、表詳細または列スキーマを表示できます。
- ホーム・ページで、「カタログの自動移入」をクリックします。
- メタデータ・エクストラクタの名前をクリックします。
- 「確認済エンティティ」タブをクリックします。
- エンティティの横にある
「アクション」をクリックします。- 「表の詳細の表示」をクリックして、選択したエンティティの表の詳細を表示します。
- 「列スキーマの表示」をクリックして、選択したエンティティの列スキーマを表示します。
- 「ログの表示」をクリックして、選択したエンティティのメタデータ・エクストラクタ・ログを表示します。