Oracle Database@AzureでのPower BIを活用したデータレイクの導入

多くの企業が、Microsoft AzureのデータレイクでMicrosoft Power BIを活用して、実用的なビジネス・インサイトを得ています。

これらの機能を拡張するには、Azure Data Factory、Azure Data Lake Storage、Azure Compute、Oracle Database@Azure (フルマネージドのOracle Autonomous Databaseまたは共同管理のOracle Exadata Database Serviceインスタンス)およびPower BIを含むメダリオン・アーキテクチャを使用して、お客様が直面するいくつかの主要なデータ課題に対処します。

  • データサイロと統合: Azure Data Factoryは、さまざまなソースから統合データレイクにデータを取り込み、サイロを解消し、信頼できる唯一の情報源を提供します。
  • データ品質と一貫性: キュレーション・レイヤーのAutonomous Data Warehouseは、重複除外と品質ルールを通じてクリーンで一貫性のある高品質なデータを確保し、エラーを減らし、意思決定を強化します。
  • スケーラビリティとパフォーマンス: Azureのスケーラブルなコンピュート・リソースと、Autonomous Data Warehouseのサーバーレス・アーキテクチャまたはOracle Exadata Database Serviceは、データ量とユーザー採用(同時実行性)の増加に応じて最適なパフォーマンスを維持しながら、大規模なデータ処理を効率的に処理します。
  • 複雑な変換: Azure ComputeおよびAutonomous Data WarehouseまたはOracle Exadata Database Serviceは、複雑な変換と分析を効率的に実行し、処理時間を短縮し、インサイトに焦点を当てます。
  • コスト管理: AzureサービスおよびAutonomous Data WarehouseまたはOracle Exadata Database Serviceのサーバーレスおよびpay-as-you-goモデルによってコストが最適化され、使用した分にのみ支払うことが保証されます。
  • データ・ガバナンスとコンプライアンス: 構造化されたデータ管理レイヤーにより、ガバナンス、トレーサビリティおよび規制コンプライアンスが向上します。
  • 組込み分析: ユーザーは、人工知能(AI)、機械学習(ML)、グラフ、空間、テキスト分析などの組込み機能を使用して、データに分析を直接適用できます。

一般的なユースケースは次のとおりです。

  • 小売分析: オンライン販売、店内取引、顧客フィードバックからのデータを統合し、在庫戦略とマーケティング戦略を最適化します。
  • 金融サービス: トランザクション・データを分析して不正検出と規制コンプライアンスを実現し、リスクを軽減します。
  • 医療アナリティクス: EHR、ラボ結果、ウェアラブル・デバイスからの患者データを統合し、患者ケアと健康管理を改善します。

このアーキテクチャにより、あらゆる業界のエンタープライズ顧客はデータを効果的に活用して、ビジネス・ユーザーが十分な情報に基づいた意思決定を行い、ビジネス成果を向上させることができます。

論理アーキテクチャ

分析データレイクは、複数のソースからデータを取り込み、Microsoft Azure上で動作するPower BIを使用してビジネスインサイトを提供することができます。

  • データ・ソース: 分析データ・レイクでは、複数のソースからデータを取り込むことができます。Azure Data Factoryは、Microsoft SQL Serverおよび Azure Blob Storageからデータを取り込むことができます。Oracle Database@Azureは、Oracle Cloud ERPOracle Cloud Infrastructure Object Storage、Azure Cosmos Database、Azure SQL Database、様々なタイプの表ストレージ・データ(Azure、PostgresSQL、Azure MariaDB)およびその他のタイプのオンプレミス・リレーショナル・データベースからデータを取り込むことができます。
  • データ層: Oracle Database@Azureは、Azure Data Lake StorageからAzure Data Factoryとともにソース・データを取り込みます。
  • 消費層: Oracle Database@Azureは、Microsoft Azureで実行されているMicrosoft Power BIに対するインサイトを提供します。

次の図は、機能アーキテクチャを示しています。



data-lake-db-azure-process-oracle.zip

メダリオン・アーキテクチャ

この項では、Azureメダリオン・アーキテクチャ内のデータ・ウェアハウスとしてOracle Database@Azureをデプロイする方法を示します。

メダリオン・アーキテクチャは、データ・レイクハウスのデータ処理を異なるステージ(ブロンズ、シルバーおよびゴールド)に構造化するデータ管理フレームワークであり、データ処理の様々な段階を表します。

  • ブロンズ・ステージ: 様々なソースからのデータが取り込まれ、検証され、キュレーションされます。
  • シルバー・ステージ: データは格納され、分析およびレポート用に処理されます。
  • ゴールド・ステージ: 洗練されたデータが分析およびレポート用に提供されます。

次の表に、このアーキテクチャを示します。



data-lake-db-azure-medallion-oracle.zip

メダリオン・ステージは、さらに次のデプロイメント領域に分割されます。

  • 取り込みフレームワーク: Azure Data Factoryを使用してさまざまなデータソースからデータを取り込みます。RAWデータは、Azure Data Lake Storage Gen 2およびDelta Lakeに格納されます。このフレームワークにより、ソース・システムとシンク・システム間でのデータの一貫性と正確性が保証されます。このフレームワークは、プラットフォーム間で監査、バランスおよび制御メカニズムを使用することで品質を確保するための堅牢なスクリプト・セットを構成します。
  • 検証: RAWデータは、複製解除およびデータ品質チェックのためにOracle Autonomous Data WarehouseサーバーレスまたはOracle Exadata Database Serviceに取り込まれます。このワークフローでは、PIIおよびPHIデータの基本的なクレンジング・マスキングと、ルール主導のフレームワークを介したRAWファイルの検証を実行して、スキーマ・チェックを実行します。検証フレームワークは、Azure Data Factoryを使用して実装できます。
  • 拒否ワークフロー: 検証エラーやその他の処理エラーのために取込みステージ中に拒否されたレコードは、別のAzure Data Lake Storageパスにステージングされます。Logic Appを使用した自動電子メール通知は、定義されたソフトウェア・ライセンス契約(SLA)に基づいてサポート・チームに送信されます。標準化されたデータは、Oracle Autonomous Data WarehouseサーバーレスまたはOracle Exadata Database Serviceに残ります。
  • オーケストレーション: スケジュール・システムは、データ処理ジョブ、スケジューリングおよびジョブの依存関係を管理します。Azure Data Factoryは、ETLジョブのオーケストレーションに使用できます。「オーケストレーション」ステージには、Oracle Autonomous Data WarehouseサーバーレスまたはOracle Exadata Database Service、Delta LakeおよびAzure Data Lake Storage Gen 2が含まれます。
  • レポート/分析: レポート・ステージには、Power BIと外部フィードやデータ収益化などのデータ・サービスが含まれます。

アーキテクチャには、次のインフラストラクチャ・コンポーネントがあります。

  • リージョン

    Azureリージョンは、可用性ゾーンと呼ばれる1つ以上の物理Azureデータ・センターが存在する地理的領域です。リージョンは他のリージョンから独立しており、長距離の場合は(国または大陸にまたがって)分離できます。

    AzureリージョンとOCIリージョンはローカライズされた地理的領域です。Oracle Database@Azureの場合、AzureリージョンはOCIリージョンに接続され、Azureの可用性ゾーン(AZ)はOCIの可用性ドメイン(AD)に接続されます。距離とレイテンシを最小限に抑えるために、AzureとOCIのリージョンのペアが選択されています。

  • 可用性ゾーン

    可用性ゾーンは、使用可能でフォルト・トレラントになるように設計されたリージョン内の物理的に独立したデータ・センターです。アベイラビリティ・ゾーンは、他のアベイラビリティ・ゾーンへの低レイテンシ接続に十分近くなります。

  • 仮想ネットワーク(VNet)およびサブネット

    VNetは、Azureで定義する仮想ネットワークです。VNetには、重複しない複数のCIDRブロック・サブネットを含めることができます。このサブネットは、VNetの作成後に追加できます。VNetをサブネットにセグメント化して、リージョンまたは可用性ゾーンにスコープを設定できます。各サブネットは、VNet内の他のサブネットと重複しない連続した範囲のアドレスで構成されます。VNetを使用して、ネットワーク・レベルでAzureリソースを論理的に分離します。

  • Azure ExpressRoute

    Azure ExpressRouteでは、VNetと別のネットワーク(オンプレミス・ネットワークや別のクラウド・プロバイダのネットワークなど)との間にプライベート接続を設定できます。ExpressRoute経由のトラフィックはパブリック・インターネットを横断しないため、ExpressRouteは、一般的なインターネット接続のより信頼性が高く高速な代替手段です。

  • 仮想ネットワーク・ゲートウェイ

    仮想ネットワーク・ゲートウェイを使用すると、指定したゲートウェイ・タイプに応じて、Azure VNetと、パブリック・インターネット経由またはExpressRouteを使用したAzure外部のネットワーク間のトラフィックが許可されます。

  • ルート表

    ルート表は、Azureサブネット、VNetsおよびAzure外のネットワーク間のトラフィックを転送します。

  • ネットワーク・セキュリティ・グループ

    ネットワーク・セキュリティ・グループには、VNet内のAzureリソース間のネットワーク・トラフィックを制御するルールが含まれます。各ルールは、許可または拒否されるネットワーク・トラフィックのソースまたは宛先、ポート、プロトコルおよび方向を指定します。

  • サイト間VPN

    セキュアな暗号化接続を介して、オンプレミス・ネットワークとVCNの間にサイト間IPSec VPNを提供します。

このアーキテクチャには、次のOracle製品およびサービスがあります。

  • Oracle Database@Azure

    Oracle Database@Azureは、Microsoft Azureデータ・センターにデプロイされたOracle Cloud Infrastructure (OCI)で実行されているOracle Databaseサービス(Oracle Exadata Database Service on Dedicated InfrastructureおよびOracle Autonomous Database Serverless)です。このサービスは、OCIで機能と価格を同等に提供します。Azure Marketplaceでサービスを購入します。

    Oracle Database@Azureは、Oracle Exadata Database ServiceOracle Real Application Clusters (Oracle RAC)およびOracle Data GuardテクノロジをAzureプラットフォームに統合します。ユーザーは、AzureコンソールおよびAzure自動化ツールでサービスを管理します。サービスはAzure Virtual Network(VNet)にデプロイされ、Azure Identity and Access Managementシステムと統合されます。OCIおよびOracle Databaseの汎用メトリックおよび監査ログは、Azureでネイティブに利用できます。このサービスでは、ユーザーにAzureサブスクリプションとOCIテナンシが必要です。

    Autonomous Databaseは、Oracle Exadataインフラストラクチャ上に構築されており、自己管理、自己保護、自己修復が可能なため、手動のデータベース管理や人的エラーを排除できます。Autonomous Databaseでは、大規模言語モデル(LLM)と導入場所の選択肢を使用して、組み込みのAI機能を使用して、あらゆるデータでスケーラブルなAI搭載アプリを開発できます。

    Oracle Exadata Database ServiceOracle Autonomous Database Serverlessはどちらも、ネイティブのAzure Portalを介して簡単にプロビジョニングされるため、より広範なAzureエコシステムにアクセスできます。

  • Oracle Cloud Infrastructure Object Storage

    Oracle Cloud Infrastructure Object Storageは、コンテンツをバケットと呼ばれるストレージ・コンテナ内のオブジェクトとして格納します。各オブジェクトにはデータと記述メタデータが含まれており、簡単に取得および管理できます。

このアーキテクチャには、次のMicrosoft製品およびサービスがあります。

  • Azureデータ・ファクトリ

    Azure Data Factory(ADF)は、Microsoft Azureが提供するクラウドベースのデータ統合サービスです。データ・ワークフローを大規模に作成、スケジュールおよび編成するように設計されています。ADFを使用すると、組織は様々なソースから宛先にデータを取り込んで変換し、移動できるため、データ主導型の意思決定と分析が可能になります。

  • Azure関数

    Azure Functionsは、少ないコードの記述、インフラストラクチャの維持、コスト削減を可能にするサーバーレス ソリューションです。

  • Azure Service Bus

    Azureサービス・バスは、キューとパブリッシュ/サブスクライブ・トピックを含むフルマネージド・エンタープライズ・メッセージ・ブローカです。

  • Azureモニター

    Azure Monitorは、ほとんどの Azureサービスの基本レベルのインフラストラクチャ メトリックとログを提供します。Azure診断ログはリソースによって発行され、そのリソースの操作に関する豊富な頻繁なデータを提供します。Azure Data Factory (ADF)は、Azure Monitorに診断ログを書き込むことができます。

  • Azure DevOps (CICD)

    Azure Data Factoryは、GitHubとAzure DevOps Gitの両方と統合され、ソース制御、リリース管理、CI/CDを実現しています。ソース・コントロールを使用すると、開発者はコラボレーション、追跡および選択したブランチへの変更を保存できます(この場合、DEVブランチになります)。これらの変更はメイン・ブランチにマージされ、上位レベルの環境(QA、UAT、Prod)にデプロイされ、テストおよび検証も行われます。

  • Azure Active Directory

    Azureサービス上のビッグ データ プラットフォームは、既存の Azure Active Directoryサービスと統合して、きめ細かなセキュリティ コントロールを提供できます。これにより、組織は既存のシングル・サイン・オン・プロセスを再利用して、Azureクラウド上のデータおよびサービスにアクセスできるようになります。

  • Azure ML

    Azure MLは、Azureで機械学習ワークフローを構築および実装するためのGUIベースの統合開発環境です。

  • Power BI

    Power BIは、組織がデータを視覚化し、インサイトを共有し、情報に基づいた意思決定を行うのに役立つように設計された、Microsoftのビジネス分析ツールのスイートです。これにより、ユーザーは幅広いデータ・ソースに接続し、対話型のダッシュボードとレポートを作成して、チーム間でコラボレーションできます。Power BIは Microsoft Power Platformの一部であり、Excel、Teams、Azureサービスなどの他の Microsoft製品とシームレスに統合されます。

    Power BIの主なコンポーネント:

    • Power BIサービス: ユーザーがレポートおよびダッシュボードで共有、公開およびコラボレーションして、組織間でのリアルタイムのデータ監視および共有を可能にするクラウドベースのプラットフォームです。
    • Power BI Mobile: 外出先でダッシュボードおよびレポートにアクセスするためのiOS、AndroidおよびWindowsデバイス用のモバイル・アプリケーション。
    • Power BI Embedded: 開発者がPower BIのビジュアルおよび分析をカスタム・アプリケーション、ポータルまたはWebサイトに統合できるサービス。
  • Azure SQLサーバー

    Azure SQL Serverは、Microsoft Azureが提供するクラウドベースのリレーショナル・データベース・サービスです。Azure SQLファミリの一部であり、クラウドでSQL Serverデータベースをホスティングおよび管理するためのフルマネージド・プラットフォーム・アズ・ア・サービス(PaaS)環境を提供します。Azure SQL Serverは、拡張性が高く、セキュアで、高可用性、自動バックアップ、およびディザスタリカバリの機能を提供します。

  • Azure PostgreSQL

    Azure Database for PostgreSQLは、Microsoft Azureが提供するマネージド・リレーショナル・データベース・サービスです。これは、高可用性、セキュリティおよびスケーラビリティを提供しながら、クラウド内のPostgreSQLデータベースのデプロイメント、スケーリングおよび管理を簡素化するように設計されています。Azure Database for PostgreSQLを使用すると、開発者はインフラストラクチャ管理を気にすることなく、アプリケーションの構築に集中できます。

  • Azureコスモス

    Azure Cosmos DBは、Microsoft Azureが提供するグローバルに分散したマルチモデル データベース サービスです。応答性が高く、スケーラブルで、グローバルに利用可能なアプリケーションを構築するために設計されています。Cosmos DBは、複数のデータモデルとAPIをサポートし、多様なアプリケーションシナリオのための多用途の選択肢となっています。

  • Azure BLOBストレージ

    Azure Blob Storageは、Microsoft Azureのクラウド向けオブジェクト・ストレージ・ソリューションで、膨大な量の非構造化データを格納するように設計されています。スケーラビリティ、安全性、コスト効率が高いため、アプリケーション開発、データ・アーカイブ、メディア・ストレージなどの様々なユースケースに最適です。

  • Delta Lake

    Delta Lakeは、データレイクに信頼性をもたらすオープンソースのストレージ・レイヤーです。ACID(原子性、一貫性、分離、耐久性)トランザクション、スケーラブルなメタデータ処理を提供し、ストリーミングおよびバッチ・データ処理を統合するように設計されています。Azure Data Lake Serviceと統合すると、Delta Lakeは Azureのデータ ストレージおよび分析サービスの機能を強化します。

  • Azure Data Lake Storage

    Azure Data Lake Storage(ADLS)は、ビッグデータ分析用に最適化された、スケーラブルでセキュアなデータストレージサービスです。オブジェクト・ストレージのスケーラビリティと階層ファイル・システムのパフォーマンスおよびセキュリティ機能を組み合せたもので、大規模なデータの管理や高度な分析および機械学習の有効化に最適です。

    Azure Blob Storageとの比較

    機能 Azure Data Lake Storage Azure Blob Storage
    使用例 ビッグ・データ分析、階層データ 汎用オブジェクト・ストレージ
    ネームスペース 階層(ファイル・システム類似) フラット(ディレクトリ構造なし)
    統合 ビッグ・データ・フレームワーク用に最適化 汎用用途とアプリケーション・ストレージ
    アクセス制御 ファイルレベルのACLとRBAC RBACおよびSASトークン

レコメンデーション

Oracle Database@Azureを使用してMicrosoft Azureにデータ分析パイプラインをデプロイするには、次の推奨事項を開始点として使用します。実際の要件は、ここで説明する要件とは異なる場合があります。
  • Azureサブスクリプションおよびディレクトリにアクセスできることを確認します。
  • Oracle Cloud Infrastructure (OCI)テナンシにアクセスできることを確認します。
  • AzureとOCIの間にアクティブなOracle Database@Azureマルチクラウド・リンクがあることを確認します(この接続は、Oracle Database@Azureをプロビジョニングするときにデフォルトで作成され、Oracleによって管理されます)。
  • Azure VNetsとOCI VCNsの間に重複しないCIDRブロックがあることを確認します。
  • プロビジョニング前に、適切なOracle Exadata Database ServiceまたはOracle Autonomous Database Serverlessサービス制限があることを確認してください。

考慮事項

Oracle Database@Azureを使用してMicrosoft Azureにデータ分析パイプラインをデプロイする場合は、次の点を考慮してください。

  • ディザスタ・リカバリ(DR)

    災害復旧は、このアーキテクチャでは示されず、お客様の責任となります。

  • Oracle Database@Azureのネットワーキング設定
    • Azure環境: ネットワークにAzure Virtual Network (VNet)を使用し、事前作成された委任サブネット内に仮想ネットワーク・インタフェース・カード(VNIC)を作成します。
    • OCI環境: Oracle Database@Azureは、Oracle Cloud Infrastructure (OCI)仮想クラウド・ネットワーク(VCN)内のクライアント・サブネットに接続します。
  • クライアント接続

    このネットワーク設定により、Azureリソースからのクライアント接続が可能になります。

  • Oracle Autonomous Database Serverlessネットワーキング
    • Azureで1つのデータベース・サブネットを持つVNetを使用します。/27サブネットを使用しますが、将来の拡張を計画できます。
    • Oracle Autonomous Database Serverlessをデプロイする前に、データベース・サブネットを作成してOracle Database@Azureに委任します。
    • 委任されたサブネットを追加のデータベースで再利用(または共有)します。
  • Azure ExpressRoute

    Azure ExpressRouteのコストは、リージョンによって異なります。Azureには1つのエクスプレス・ルートで使用可能なSKUが複数あります。Oracleでは、個別のイングレスまたはエグレス料金がなく、最小帯域幅1Gbpsで開始するため、ローカル設定を使用することをお薦めします。StandardおよびPremiumの構成では、帯域幅は低くなりますが、従量制の設定では別々のエグレス料金が発生します。

  • Oracle Autonomous Database Serverless
    • 統合

      Oracle Autonomous Databaseには、100を超えるアプリケーション、データベースおよびオブジェクト・ストア用の統合サービスが組み込まれています。Data Studioのグラフィカル・ユーザー・インタフェースを使用して、Autonomous Databaseとのデータ統合のためのデータ変換を設計します。

    • 「アナリティクス」

      Oracle Autonomous Databaseには、さまざまな分析(グラフ、空間、機械学習、AI)をデータに直接適用できる分析サービスが組み込まれており、分析のレイテンシを削減して実用的なインサイトを迅速に提供できます。

    • コスト

      Oracle Autonomous Database Serverlessインスタンスのプロビジョニングおよび基本管理機能は、Oracle Database@Azureページから実行します。Oracle Database@Azureページの特定のAutonomous Databaseへのリンクを使用して、使用可能なOracle Cloud Infrastructure (OCI)ポータル内に追加の管理機能を使用できます。

      次の構成オプションを使用して、リソースの使用を制御します。
      • ECPU数では、ECPU数を2から512に設定できます。
      • コンピュート自動スケーリングでは、コンピューティング割当てを512まで自動的にスケーリングできます。デフォルトでは、これが選択されます。
      • ストレージでは、ストレージ割当てを1TBから383TBまたは20 GBから393216 GBに設定できます。
      • ストレージ・ユニット・サイズでは、ストレージをGBまたはTBのどちらで割り当てるかを選択できます。
      • ストレージの自動スケーリングでは、ストレージ割当てを最大383TBまたは393216 GBまで自動的にスケーリングできます。デフォルトでは、これは選択されていません
    • パフォーマンス
      • Oracle Autonomous Database Serverlessには高可用性(HA)が用意されています。
      • アプリケーション・パフォーマンス・テストの一環として、ネットワーク・レイテンシを確認して測定します。
      • リージョン・アフィニティを考慮します。異なるクラウド・データ・センターでホストされているアプリケーションとデータベース間のネットワーク・レイテンシは、10ミリ秒未満である必要があります。最適なエンドツーエンドのパフォーマンスを実現するために、近くのアプリケーションおよびデータベース・リージョンを選択することをお薦めします。
    • 可用性

      Oracle Autonomous Database Serverlessは、複数のMicrosoft Azureリージョンで使用できます。

      「詳細の確認」セクションの「サービス・ライセンス契約(SLA)」リンクを参照してください。

  • Oracle Exadata Database Service on Dedicated Infrastructure
    • コスト
      • デプロイされたインフラストラクチャには一貫したコストがあり、いつでも停止できます(最低48時間は課金されます)。
      • 実行時のコストは、スケーラブルなVMに割り当てられたOCPUの数によって決まります。
      • ライセンス・オプションには、Bring Your Own License (BYOL)とLicense Includedの両方が含まれます。
      • BYOLでOracle Support Rewardsを利用可能
    • パフォーマンス
      • お客様は、他のExadataデプロイメント(Oracle Exadata Database ServiceOracle Exadata Database Service on Cloud@Customerまたはオンプレミス)と同じパフォーマンスを体験できます。
      • あらゆるタイプのAzure VMからOracle Database@Azureサービスへのレイテンシ(一方向/ラウンドトリップ)は、Azureクラウド・サービスの州のみです。目標は.5msですが、Azureネットワーキングの考慮事項によって異なる場合があります。
      • Oracleは、Oracle Database@Azureのデータ・エグレス料金を請求しませんが、Azureアーキテクチャによっては、Microsoftがデータ移動料金を請求する場合があります。
    • 可用性

      Exadataデプロイメントには、99.99%のサービス・レベル目標(SLO)があります。最大可用性アーキテクチャ(MAA)を使用すると、より多くの数に到達できます。これには、ディザスタ・リカバリ・サイトの設定や、Oracle Database Zero Data Loss Autonomous Recovery Serviceなどのバックアップおよびリストア機能の使用が含まれます。

確認

  • 作成者: Amrita Mukherjee, CCSP
  • コントリビュータ: : Wei Han, Roger Simon, Tammy Bednar, Martin Gubar, Roy Rodan, Robert Lies