技術メタデータの収集

データ・ソースからデータ・カタログ・リポジトリにデータ構造情報を抽出します。

データ構造情報の抽出プロセスは、収集と呼ばれます。

データ・アセットとは

データ・ソースを収集するには、データ・カタログ・インスタンスでデータ・アセットとしてデータ・ソースを登録する必要があります。データ・アセットとは、データベース、クラウド・ストレージ・コンテナ、メッセージ・ストリームなどの任意の物理データ・ストアまたはストリームです。

データ・アセットを収集すると、データ・カタログ・ハーベスタは、データ・アセットからメタデータ情報を抽出、標準化および索引付けし、データ・カタログに統合済で検索可能なリポジトリを作成します。その後、データ・カタログを参照または探索し、収集されたデータ・エンティティおよび属性を表示して、データ・アセットに注釈を付けたり拡張します。

データ・ソースの収集では、次のステップを実行します:

データ・ソースに接続するための接続の詳細を識別します。
データ・アセットを作成します。
データ・アセットへの接続を追加します。
データ・アセットを収集します。

データ・アセットでサポートされるデータ・ソース

次のデータ・ソース(パブリックIPまたはプライベートIPを使用してアクセス可能)を使用して、データ・カタログにデータ・アセットを作成します。

ノート

これはサポートされているデータ・ソースのリストであり、動作保証されているデータ・ソースではありません。


データ・ソース・タイプ	バージョン
Oracle Database	12.1
	12.2
	18
	19
	20
	21
Oracle Cloud Infrastructure上のOracle Database	12.1
	12.2
	18
	19
Exadata DBシステム	12.1
	12.2
	18
	19
Oracle Cloud Infrastructure Object Storage	最新
Autonomous AI Lakehouse	18c/19c
Autonomous AI Transaction Processing	18c/19c
MySQL	8.0.x
OCI MySQL HeatWaveサービス	8.0.25-u3-cloud
PostgreSQL	10.1
	9.6、9.5、9.4、9.3、9.2、9.1および9.0
	8.4、8.3および8.2
Apache Hive	CDH 5.4以上
Apache Hive	Apache 1.0、2.0、3.0以上
Microsoft SQL Server	2019
	2017
	2016 サービス・パック 2
	2014 サービス・パック 3
	2012 サービス・パック 4
IBM DB2 LUW (DB2 for Linux、UNIXおよびWindows)	10.5.0.11
IBM DB2 LUW (DB2 for Linux、UNIXおよびWindows)	11.5.5.0
IBM DB2 AS400	7.1以上
Apache Kafka	2.12-2.3.0
Microsoft Azure SQL Database	12.00.2000

Oracle Cloud Infrastructure Virtual Cloud Networks (VCNs)に接続されているオンプレミス・データ・ソースに接続することもできます。

作成するデータ・アセットのタイプに応じて、異なるデータ構造を使用してデータ・エンティティを参照します。たとえば、Oracle Databaseデータ・アセットを作成する場合、データベース・オブジェクトを参照して表を確認し、データ・エンティティを表示します。

ノート

データベース・バージョンがOracle Database 12c以上の場合、Oracle DatabaseまたはAutonomous AI Databases型のデータ・アセットでは、データ・カタログ・ハーベスタはOracle管理スキーマおよびその他の共通ユーザー・スキーマを収集しません。

データ・ソースの収集済オブジェクト

次の表に、様々なデータ・ソースの収集済オブジェクトを示します。


データソース	収集されたオブジェクト
Apache Hive	Hiveデータベース表列
Apache Kafka	トピックメッセージ属性
Oracle Cloud Infrastructure Object Storage	バケットファイル (ファイル・タイプ: CSV、Avro、ORC、Parquet、JSON、XML、Excel) フィールド (ファイル・タイプに基づく)
OCIデータ・カタログ・メタデータ	カタログデータベース表列
Autonomous AI Lakehouse	スキーマ表ビュー列制約(主キーおよび外部キー) コメント(Oracle Databaseにのみ適用可能)
Autonomous AI Transaction Processing
IBM DB2
Microsoft Azure SQLデータベース
Microsoft SQL Server
MySQL
Oracle Database
PostgreSQL

サポートされるファイル・タイプ

Oracle Object Storageでは、次のファイル・タイプがサポートされています:

カンマ区切り値(CSV)ファイル(.csv、.csv.gz)

ノート

サポートされているセパレータは、,(カンマ)、\t(タブ)、|(縦棒)、;(セミコロン)です。
XMLファイル(.xml、.xsd)
Avroファイル(.avro、.avro.gz)
Excelファイル(.xls、.xlsx)
Apache Parquetファイル(.parquet、.pq)
Apache ORCファイル(.orc)
単純なJSONファイル(.json、.json.gz)

サポートされていないファイル・タイプの収集を選択した場合、データ・カタログ・ハーベスタは、名前やパスなどの基本情報のみをこれらのファイルから抽出します。

データ・エンティティおよび属性

データ・アセットには、1つ以上のデータ・エンティティが含まれています。データ・エンティティとは、データベース表やビューなどのデータの集合、または単一の論理ファイルです。通常、データ・エンティティにはデータを表す多くの属性があります。属性は、名前とデータ型を持つデータ・アイテムを記述します。


データ・アセット	データ・エンティティ	属性
データベース	表およびビュー	列
ファイル・コンテナ	ファイル	フィールド
データ・ストリーム	イベント、トピックまたはペイロード	キー