マルチクラウド・データ・レイク統合アーキテクチャの実装
このリファレンス・アーキテクチャは、組織が複数のソースからOracle Cloud Infrastructure (OCI)データレイクにデータを統合する方法を示しています。
このリファレンス・アーキテクチャは、長期的な成長計画の一環として新しい組織を取得するビジネス戦略を持つ大規模な企業組織のユースケースを表します。組織は分析プラットフォームでデータレイクを構築する過程にあり、コスト分析はスコープ内のモジュールの1つです。
この組織では、請求書データが格納されている財務用にOracle Fusion Cloud Applicationsを実装しています。
最近、組織は新しい組織を買収し、請求書処理アプリケーションをホストするためにAmazon Web Services (AWS)を使用しています。データ・レイクにロードする前に、AWSからOracle Cloud Infrastructure (OCI)に請求書データを取り込み、コスト・センター/サプライヤ情報で大量の請求書データをエンリッチする必要があります。コスト・センターのデータはOracle Fusion Cloud Applicationsをソースとし、サプライヤ・データはオンプレミスのMySQLデータベースからソースされます。
アーキテクチャ
このリファレンス・アーキテクチャでは、様々なクラウド・プロバイダやオンプレミス・データ・ソースのデータをOCIでホストされているデータレイクに取り込む方法について説明します。このアーキテクチャは、バッチ統合、データ統合、リアルタイム統合およびイベント・ベースの統合シナリオを対象としています。
次の図は、このリファレンス・アーキテクチャのデータ・フローを示しています。
図oci_multicloud_datalake_flow.pngの説明
oci-multicloud-datalake-flow-oracle.zip
- 次のものからデータを接続および抽出します。
- ネイティブ・アダプタを介したAWSサービスおよびAzureサービス。
- プライベート接続を介したオンプレミス・データ・ソース(FastConnect/VPN)。
- BICCコネクタを介したOracle SaaSアプリケーション。
- 抽出されたデータに対して変換を実行します。
- アダプタ(ADB/Object Storage)を介してデータをOCIデータ・レイクにロードします。
- ネイティブ・アダプタを介して、Oracle SaaSアプリケーション/IOT/ストリーミング・サービス/ソーシャル・メディア/オンプレミス・システム/その他のクラウド・プロバイダなどの様々なソース・システムからリアルタイム・データを受信します。
- 変換/オーケストレーション・ロジックを実行します。
- アダプタ(ADB/Object Storage)を介してデータをOCIデータ・レイクにロードします。
次の図は、このリファレンス・アーキテクチャを示しています。
oci-multicloud-datalake-oracle.zip
- 複数の異種ソース・システムからデータを取得し、単一の永続ストアに統合することで、データを統合します。これは通常、抽出、変換およびロード(ETL)ルーチンを使用して行われます。
- ソース・システム(HDFS、Oracle Autonomous Database、MySQL、Oracle Database、Azure Synapse、AWS Redshift、Object Storage、S3、Microsoft SQL、PostgreSQLなど)から大量データを抽出し、プライベート/パブリック・ネットワーク(顧客のオンプレミス、サード・パーティのクラウド・ネットワーク(Azure VNet、AWS VPC)でホストして、OCIデータ・レイクにロードします。
- Oracle Fusion Cloud ApplicationsからBICC/BI Publisherコネクタを介してデータを抽出し、OCIデータ・レイクにロードします。
- オーケストレーション・パターンを使用した複数のソースからの大量データの抽出。
- スケジュール済(日次、月次、週次、月次、cron式など)ETLジョブの実装。
Oracle Integration Cloud (OIC)は、次のシナリオに使用されます。
- Oracle Cloudアプリケーション、CRM、Eコマース、オンプレミス/サードパーティのクラウド・アプリケーションからデータをリアルタイムで受信し、データレイクにロードします。
- データ・ソースによって生成されたファイル(ボリュームが少ない)からデータ・レイクにデータをロードします。
- Oracle Integration Cloud REST APIをWebフック・プラットフォームに公開し、データをリアルタイムで受信してデータ・レイクにロードします。
- 一部のIOTプラットフォーム(Geotab、CheckSafeなど)には、Webフック・オークションがあり、新しいイベントのhttps APIにデータを送信して、APIゲートウェイに直接接続できるようにします。
- ソーシャル・メディア・プラットフォーム(Facebook、LinkedIn、Twitter、Slackなど)からデータを受信し、OCIデータ・レイクにロードします。
- ネットワーク内からアクセス可能なプライベート・エンドポイントを使用してOIC APIおよびアプリケーションAPIを公開するか、必要に応じてパブリック・インターネットに公開できます。エンドポイントは、API検証、リクエストとレスポンスの変換、CORS、認証と認可およびリクエスト制限をサポートします。
- API開発のセキュリティおよびビジネス・ロジックを分離します。
- ダウンストリームのデータ・レイクにデータを供給するセキュリティ制御を使用して、制限されたソースにAPIを公開します。
アーキテクチャには、次のコンポーネントがあります。
- リージョン
Oracle Cloud Infrastructureリージョンは、可用性ドメインと呼ばれる1つ以上のデータ・センターを含むローカライズされた地理的領域です。リージョンは他のリージョンから独立しており、広大な距離で(複数の国または複数の大陸にまたがる)リージョンを分離できます。
- 可用性ドメイン
アベイラビリティ・ドメインは、リージョン内の独立したスタンドアロン・データ・センターです。各可用性ドメイン内の物理リソースは、他の可用性ドメイン内のリソースから分離されるため、耐障害性が提供されます。可用性ドメインは、電源や冷却、内部可用性ドメイン・ネットワークなどのインフラストラクチャを共有しません。そのため、ある可用性ドメインでの障害がリージョン内の他の可用性ドメインに影響することはほとんどありません。
- 仮想クラウド・ネットワーク(VCN)およびサブネット
VCNは、Oracle Cloud Infrastructureリージョンで設定する、カスタマイズ可能なソフトウェア定義のネットワークです。従来のデータ・センター・ネットワークと同様に、VCNによってネットワーク環境を完全に制御できます。VCNには、VCNの作成後に変更できる、重複しない複数のCIDRブロックを含めることができます。VCNをサブネットにセグメント化して、そのスコープをリージョンや可用性ドメインに設定できます。各サブネットは、VCN内の他のサブネットと重複しない連続した範囲のアドレスで構成されます。サブネットのサイズは、作成後に変更できます。サブネットはパブリックにもプライベートにもできます。
- 統合
Oracle Integrationは、アプリケーションの統合、プロセスの自動化、ビジネス・プロセスに対するインサイトの取得およびビジュアル・アプリケーションの作成を可能にするフルマネージド・サービスです。
- Oracle Data Integration
Oracle Cloud Infrastructure Data Integrationは、様々なデータ・ソースからAutonomous Data WarehouseやOracle Cloud Infrastructure Object StorageなどのターゲットOracle Cloud Infrastructureサービスにデータを抽出、ロード、変換、クレンジングおよび再シェイプする、フルマネージドのサーバーレス・クラウドネイティブ・サービスです。ETL (変換ロードの抽出)はSparkで完全に管理されたスケールアウト処理を利用し、ELT (ロード変換の抽出)はAutonomous Data Warehouseの完全なSQLプッシュダウン機能を利用して、データの移動を最小限に抑え、新しく取り込まれたデータの価値実現までの時間を短縮します。ユーザーは、直感的でコードレスなユーザー・インタフェースを使用してデータ統合プロセスを設計し、統合フローを最適化して最も効率的なエンジンおよびオーケストレーションを生成し、実行環境の割当てとスケーリングを自動的に行います。Oracle Cloud Infrastructure Data Integrationは、対話型の調査およびデータ準備を提供し、スキーマ変更を処理するルールを定義することで、データ・エンジニアがスキーマのドリフトから保護するのに役立ちます。
- Oracle Business Intelligence Cloud Connector
Oracle BI Cloud Connector (BICC)は、Fusionからデータを抽出し、Oracle Universal Content Management (UCM) ServerやCSV形式のクラウド・ストレージなどの共有リソースに格納する場合に役立つツールです。
- OIC接続エージェント
OIC接続エージェントを使用すると、ハイブリッド統合を作成し、プライベートまたはオンプレミス・ネットワーク内のアプリケーションとOracle Integration Cloud間でメッセージを交換できます。
- データ・レイク
データ・レイクとは、生データを格納できるスケーラブルで一元化されたリポジトリで、企業はコスト効率に優れた柔軟な環境にすべてのデータを格納できます。データ・レイクには、RAWデータを格納するための柔軟なストレージ・メカニズムが用意されています。
- オブジェクト・ストレージ
オブジェクト・ストレージでは、データベースのバックアップ、分析データ、イメージやビデオなどのリッチ・コンテンツなど、あらゆるコンテンツ・タイプの構造化データおよび非構造化データにすばやくアクセスできます。インターネットから直接またはクラウド・プラットフォーム内から、安全かつセキュアにデータを格納し、取得できます。パフォーマンスやサービスの信頼性を損なうことなく、シームレスにストレージを拡張できます。迅速、即時、頻繁にアクセスする必要があるホット・ストレージには、標準ストレージを使用します。長期間保持し、ほとんどまたはほとんどアクセスしないコールド・ストレージには、アーカイブ・ストレージを使用します。
- Autonomous Database
Oracle Cloud Infrastructure Autonomous Databaseは、トランザクション処理およびデータ・ウェアハウス・ワークロードに使用できるフルマネージドの事前構成済データベース環境です。ハードウェアの構成や管理、ソフトウェアのインストールを行う必要はありません。Oracle Cloud Infrastructureでは、データベースの作成、およびデータベースのバックアップ、パッチ適用、アップグレードおよびチューニングが処理されます。
- 「アナリティクス」
Oracle Analytics Cloudはスケーラブルで安全なパブリック・クラウド・サービスであり、最新のAI駆動型セルフサービス・アナリティクス機能を使用して、データ準備、ビジュアライゼーション、エンタープライズ・レポート、拡張分析および自然言語処理と生成に対応する機能をビジネス・アナリストに提供します。Oracle Analytics Cloudでは、迅速な設定、容易なスケーリングとパッチ適用、自動ライフサイクル管理など、柔軟なサービス管理機能も利用できます。
- データ・カタログ
Oracle Cloud Infrastructure Data Catalogは、エンタープライズ・データの完全管理型セルフサービス・データ検出およびガバナンス・ソリューションです。データ・エンジニア、データ・サイエンティスト、データ・スチュワードおよび最高データ担当者に、組織の技術メタデータ、ビジネス・メタデータおよび運用メタデータを管理するための単一のコラボレーション環境を提供します。
推奨事項
- セキュリティ
すべての接続はプライベート・ネットワークを介して確立され、すべてのETLトランザクションはオンプレミスのFastconnect、AWS用のColt、Azure Interconnect for Azureを介してルーティングされます。ソースおよびターゲットで暗号化および復号化を使用することもお薦めします。これにより、転送時のセキュリティが確保されます。
注意事項
このリファレンス・アーキテクチャをデプロイする場合は、次の点を考慮してください。
- セキュリティOCI Identity and Access Management (IAM)ポリシーを使用して、クラウド・リソースにアクセスできるユーザー、および実行できる操作を制御します。データベース・パスワードまたはその他のシークレットを保護するには、OCI Vaultサービスの使用を検討してください。
- IAMユーザーおよびグループの最小限のアクセス権限を、
dis-family
のリソース・タイプに割り当てます。 - 認可されたユーザーによる不注意な削除または悪意のある削除によるデータの損失を最小限に抑えるために、Oracleでは、IAMユーザーおよびグループの可能な最小セットに
DIS_WORKSPACE_DELETE
権限を割り当てることをお薦めします。DIS_WORKSPACE_DELETE
権限は、テナンシ管理者およびコンパートメント管理者にのみ割り当てます。 - セキュリティの脆弱性からデータ・ソースを保護するために、読取り専用アカウントのみに資格証明を提供します。データ統合には、データ・アセットからデータを収集するための読取りアクセスのみが必要です。
- IAMユーザーおよびグループの最小限のアクセス権限を、
- コスト
- 大規模なデータがクラウド境界を越えて頻繁に転送される場合は、データ・フローの方向性が不可欠になります。クラウド・プロバイダは通常、データ・イングレスに対して課金されませんが、すべてのプロバイダがデータ・エグレス料金を請求します。データ・エグレス率は、クラウド・プロバイダによって異なります。マルチクラウド設計の考慮事項にエグレス・コストを適用することが重要です。また、データの移動時にデータ・レジデンシを考慮する必要があります。
- OCI FastConnect: FastConnectのコストは、すべてのOCIリージョンで同じです。
- Microsoft Azure ExpressRoute: Microsoft AzureのExpressRouteコストは、リージョンによって異なります。Azureには、エクスプレス・ルートに使用できる複数のSKUがあります。Oracleでは、個別のイングレスまたはエグレス・チャージがなく、最小帯域幅1Gbpsで開始するため、ローカル設定を使用することをお薦めします。Standard and Premium構成では帯域幅が少なくなりますが、従量制設定では別々のエグレス料金が発生します。
- 低コストのArchive Storageサービスを使用して、アクセスはほとんどないが、長期間保存する必要があるデータを格納します。ライフサイクル管理ポリシーを定義して、データをアーカイブ・ストレージに自動的に移動したり、指定された期間後にデータを削除したりします。
- 高可用性
すべてのインターコネクト回線(ExpressRouteおよびFastConnect)には、同じPOPにあるが物理ルーターが異なる冗長回線が付属しているため、高可用性が提供されます。