この図は、データ・レイクハウスのメダリオン・アーキテクチャのコンポーネントとステージを示しています。
アーキテクチャのエンタープライズ・データ管理は、Microsoft Purviewによって提供されます。アーカイブのために提供されるインフラストラクチャおよびセキュリティ・サービスには、監視、DevOpsおよびCI/CD、アイデンティティおよびアクセスの管理および暗号化、およびマルチリージョンのディザスタ・リカバリ・フェイルオーバーが含まれます。
データ・ソースには、ソース・システム、オンプレミス型リレーショナル・データベース管理システム(RDBMS)、クラウドRDBMS、モノのインターネット(IoT)デバイス、その他の非構造化データ・ソースが含まれます。
メダリオン・アーキテクチャは、ソース・データの移動を、図の上部にリストされている個別のステージに分割します。
- ブロンズ・ステージ: 様々なソースからのデータが取り込まれ、検証され、キュレーションされます。
- シルバー・ステージ: データは格納され、分析およびレポート用に処理されます。
- ゴールド・ステージ: 洗練されたデータが分析およびレポート用に提供されます。
これらのステージでは、コンポーネント・グループがコンピュート機能とストレージ機能のどちらを提供するかによってさらに識別されます。
- コンピュート: 重複除外、データ品質、スター・スキーマのデータ・モデリング・ルールの適用など、様々な変換ルールを実行して、データを処理および変換し、分析およびレポート作成のためのデータの準備において重要な役割を果たすデータ・エンジニアリング・パイプライン。
- ストレージ: データは、Azure Data Lake Service、Oracle Database@Azure、SQLプールなどによるデータ取得の基盤として取り込まれ、格納および管理されます。
メダリオン・ステージは、データが順次移動する次のデプロイメント領域にさらに分割されます。
- Azure SQL Database (compute): Azure Data Factoryを使用してデータを取り込みます。
- ランディング- rawゾーン ビュー(ストレージ): ファイルは Azure Data Lake Storageに保存されます。
- Raw - rawゾーン・ビュー(ストレージ): 「Ingestion Framework」ステージでは、Delta Lakeおよびモニタリング・サービスを使用して、Azure Data Lake Storageのファイルおよびデータの変更を管理します。
- キュレーション(コンピュート): 「検証」ステージは、RAWデータをOracle Autonomous Data WarehouseサーバーレスまたはOracle Exadata Database Serviceに取り込み、複製解除およびデータ品質チェックを行います。
- データ・レイク- キュレーション(ストレージ): 「Rejection Workflow」ステージでは、データ・ガバナンスにより、検証エラーやその他の処理エラーのために取込みステージ中に拒否されたレコードは、別のAzure Data Lake Storageパスにステージングされます。DevOpsおよびCI/CDサービスは、このステージへの入力を提供します。
- 標準化(コンピュート): 「Rejection Workflow」ステージでは、データ・ガバナンスにより、検証エラーやその他の処理エラーのために取込みステージ中に拒否されたレコードは、別のAzure Data Lake Storageパスにステージングされます。DevOpsおよびCI/CDサービスは、このステージへの入力を提供します。
- データ・ウェアハウス- 消費レイヤー(ストレージ): オーケストレーション・ステージでは、スケジューリング・システムによってデータ処理ジョブ、スケジューリングおよびジョブの依存関係が管理されます。Azure Data Factoryは、ETLジョブのオーケストレーションに使用できます。「オーケストレーション」ステージには、Oracle Autonomous Data Warehouse ServerlessまたはOracle Exadata Database Service、Delta LakeおよびAzure Data Lake Storage Gen 2が含まれます
- レポート/分析: このステージには、Power BIと外部フィードやデータ収益化などのデータ・サービスが含まれます。