Data Platform - データ・フェデレーション

データレイクハウス・アーキテクチャは、デバイスからのイベント・データおよびストリーミング・データをリアルタイムで効果的に収集および分析し、それを幅広いエンタープライズ・データ・リソースと関連付けて、データ投資を活用し、必要なインサイトを得るのに役立ちます。

しかし、データレイクハウスのデータを、異機種間データ・ソースに存在するデータや、データを複製することなく他のクラウドやオンプレミス・システムにデプロイされているデータとどのように関連付けるのですか?

その答えは、データレイクハウスのデータとサードパーティのクラウド・ストアからのフェデレーテッド・データ、およびクラウドとオンプレミスのデータベースからのデータを、物理的な場所に関係なく組み合わせるデータ・フェデレーション・アプローチを活用することです。

このリファレンス・アーキテクチャは、テクノロジ・ソリューションをビジネス・コンテキスト全体に配置します。



データ・フェデレーションは、単一の問合せをソース・データ・ストアに出荷される副問合せに変換するフェデレーテッド問合せエンジンを使用することで、異なるデータ・ストアに格納されるデータの統合、統合およびガバナンスを可能にする手法です。結果は、次に示すように、マージされてユーザーまたはアプリケーションに表示されます。



データ・プラットフォーム・フェデレーション概要-oracle.zip#GUID-6CFF3896-837A-4379-90C4-C1797B831AA6

多くの場合、データ・フェデレーションはデータ仮想化と交換されます。データ仮想化は、データを複製することなく、複数のソースからのデータの統合ビューを作成し、新鮮なデータをリアルタイムで提供します。

このリファレンス・アーキテクチャの目的上、次に説明する機能がフェデレーションと仮想化の両方に対応していても、データ・フェデレーションという用語が使用されます。

データ・フェデレーションを使用すると、複数のデータ・ソースではなくフェデレーテッド・サービング・エンジンに接続することで、分析エンジンやデータ・サイエンス・エンジンなどのコンシューマのデータ・アクセスが簡素化され、フェデレーテッド・データの再利用性、ガバナンスおよびセキュリティが向上します。

分析エンジンは従来、フェデレーテッド・サービング・エンジンの補完として使用できるデータ・フェデレーション機能を提供しています。通常、フェデレーテッド・データ・サービング・エンジンは、パフォーマンスを向上させ、それらの分析エンジンに暗黙的に利益をもたらすスケーラビリティに対処するためのより多くの機能を備えています。

このドキュメントでは、Oracle Cloud Infrastructure内のデータ・フェデレーションに対して考えられる1つのソリューションについて説明しますが、シナリオごとに異なるテクノロジを使用する代替方法もあります。

機能アーキテクチャ

このアーキテクチャでは、データレイクハウスを使用して、データの形状や形式に関係なく、データを格納および操作します。このアーキテクチャの中核は、Oracle Autonomous AI Lakehouseにデプロイされたデータウェアハウスです。

さらに、このアーキテクチャでは、統合クエリ・エンジンを使用して、選択したソースからのキュレートされたデータをレイクハウス内のデータとフェデレートします。フェデレーテッド・データは、データ・ストアに応じて、外部表、データベース・リンク、データ共有などのメカニズムを使用して取得されます。

レイクハウス・データと既存のデータ・ストアを組み合せたフェデレーション・アーキテクチャにより、次のことが可能になります。

  • 格納場所に関係なく、すべてのデータを結合します
  • 他のクラウドやオンプレミスに保存されているデータを連携させるマルチクラウドおよびハイブリッド・クラウドのデータ・プラットフォームをサポート
  • 異なるエンジンからデータを取得および問合せするデータ・コンシューマ・エクスペリエンスを簡素化
  • フェデレーテッド・クエリー・エンジンで単一のデータ・セキュリティ・モデルを適用できるため、セキュリティが向上
  • レイクハウスに保存され、クエリ・エンジンとフェデレートされたエンティティのメタデータを統合するデータ・カタログを使用することで、ガバナンスを強化します
  • データ・マテリアライズと自律型データベース・キャッシュを活用してパフォーマンスを向上
  • 分析ダッシュボード、SQLインタフェース、APIエンドポイント、データ共有を使用して、統一されたキュレーションされたデータを異なるコンシューマに公開
  • フェデレーテッド問合せエンジンとしてのマルチモデル・データベースの活用

次の図は、機能アーキテクチャを示しています。シンプルさのために、レイクハウスのすべての機能が示されているわけではありません。



データ・プラットフォーム・フェデレーション機能-oracle-1.zip#GUID-827999E3-20E0-4D6C-B343-7AD45CF085A9

このアーキテクチャは、主にバッチ処理を使用するフェデレーテッド・データ・プラットフォームを示していますが、ストリーミング・データを処理するためのデータレイクハウスのリアルタイム機能で拡張できます。

ストリーミング・データ処理では、多くの場合、データ・パイプライン内でコンテキスト・データを消費する必要があります。コンテキスト・データは異なるデータ・ソースに格納される場合がありますが、すべてのコンテキスト・データをデータ・パイプラインに提供するデータ・フェデレーション・エンジンによって、これらのパイプラインが簡素化されます。

アーキテクチャは、次の論理的な区分に重点を置いています。

取込み、変換

アーキテクチャ内の各データ・レイヤーで使用するデータを収集および調整します。

フェデレーテッド・データは、クラウド・ストレージ、データベースおよびデータ共有からオンデマンドで消費されます。データはソース・データ・ストアですでにキュレートされているため、このレイヤーでは変換されません。

永続化、キュレーション、作成

データのアクセスとナビゲーションを容易にし、現在のビジネス・ビューを表示します。リレーショナル・テクノロジの場合、データは論理的または物理的に単純なリレーショナル・フォーム、縦方向フォーム、ディメンション・フォームまたはOLAPフォームで構造化できます。非リレーショナル・データの場合、このレイヤーには1つ以上のデータ・プール(分析プロセスからの出力、または特定の分析タスク用に最適化されたデータ)が含まれます。

このレイヤーには、データ・ウェアハウス、データレイク、およびフェデレーテッド・データ・ソースに存在するデータを統合し、提供するフェデレーテッド・サービング・エンジンが含まれています。オンデマンドでフェデレーテッド・データを問い合せたり、フェデレーテッド・データをマテリアライズして問合せのパフォーマンスを向上させる機能を提供します。

フェデレーション・エンジンは、SQL、REST APIまたはデータ共有を使用してデータを提供できるため、相互運用性が向上し、接続性が簡素化されます。データ・コンシューマは、複数のデータ・ストアではなく単一のサービング・エンジンに接続するためです。

分析、学習、予測

コンシューマのデータの論理ビジネス・ビューを抽象化します。この抽象化により、開発へのアジャイルなアプローチ、ターゲット・アーキテクチャへの移行、および複数のフェデレーテッド・ソースからの単一のレポート・レイヤーのプロビジョニングが容易になります。

このレイヤーは、サービング・エンジンを利用して、フェデレーテッド・データを取得します。フェデレーテッド・データは、このレイヤーで使用可能なデータ・コネクタでさらに拡張でき、ビジュアライゼーションまたはデータ・サイエンス・サービスによって提供されます。

フェデレーテッド問合せエンジンを使用すると、基礎となるデータ・ストアからデータ・コンシューマ・アクセスを抽象化できるため、データが1回フェデレートされて多くのデータ・コンシューマによって消費されるため、生産性が向上します。これにより、SQL、REST APIまたはデータ共有と相互運用可能なコンシューマがレイクハウスおよびフェデレーテッド・データを使用および結合できるため、システムの相互運用性が向上します。

アーキテクチャには次の機能コンポーネントがあります。

バッチ取込み

バッチ取り込みは、リアルタイムで取り込めないデータや、リアルタイム取り込みに適応するにはコストがかかりすぎるデータに役立ちます。また、データを、定期的な消費のためにキュレートおよび永続化できる信頼性の高い情報に変換することも重要です。

Batch Ingestは、フェデレーション・エンジンがネイティブ・アクセスを持っていないデータを取り込むことができるため、またはレイクハウス・データ・モデルに準拠するようにデータを変換する必要がある特定のユース・ケースのために、データ・フェデレーション・エンジンを補完します。

次のサービスを一緒に使用するか、または独立して使用して、非常に柔軟で効果的なデータ統合および変換ワークフローを実現できます。

  • Oracle Cloud Infrastructure Data Integrationは、データ・パイプラインを設計および実行するためのフルマネージドのサーバーレス・サービスです。これにより、Autonomous AI LakehouseOCI Object StorageなどのOCIターゲットにデータをシームレスに抽出、変換、ロードできます。ユーザーは、実行環境を自動スケーリングするコードレスで直感的なインタフェースを介して統合フローを構築できます。Sparkベースの処理でのETLと、パフォーマンスと効率性を実現するためのSQLプッシュダウンを使用したELTの両方をサポートします。また、このサービスは、データ準備のためのツールを提供し、ルールベースの処理によってスキーマ・ドリフトから保護します。

  • Oracle Data Integratorは、大容量および高パフォーマンスのバッチ・ロードから、イベント駆動のトリクルフィード統合プロセス、SOA対応データ・サービスへの包括的なデータ統合を提供します。宣言的な設計アプローチにより、より迅速でシンプルな開発とメンテナンスが保証され、データ変換および検証プロセスで可能な最高レベルのパフォーマンスを保証するのに役立つ、ロード変換(ELT)を抽出するための独自のアプローチが提供されます。Oracleデータ変換では、Webインタフェースを使用してELTの構成と実行を簡素化し、宣言的な設計アプローチを使用してデータおよびワークフローを構築およびスケジュールできます。

  • Oracleデータ変換では、選択したサポートされているテクノロジに対してELTが使用可能になり、ユーザーがデータ・フローおよびワークフローを宣言的に構築およびスケジュールできるWebユーザー・インタフェースを使用して、データ・パイプラインの構成および実行が簡素化されます。Oracle Data Transformsは、Oracle Autonomous AI Lakehouse内のフルマネージド環境として使用でき、複数のデータ・ソースからOracle Autonomous AI Lakehouseインスタンスにデータをロードおよび変換できます。

ユースケースに応じて、これらのコンポーネントを個別にまたは一緒に使用して、非常に柔軟で高パフォーマンスなデータ統合および変換を実現できます。

バッチ処理

バッチ処理は、データレイクハウスに保存されている大規模なデータセットを変換します。バッチ処理では、Oracle Cloud Infrastructure Object Storageとシームレスに統合されたOracle Cloud Infrastructureネイティブ・サービスを利用し、データの集計とエンリッチメント、データ・ウェアハウスの取込み、機械学習とAIデータの使用などのユースケース向けにキュレートされたデータを作成できます。

前述のOracle Cloud Infrastructure Data Integrationは、フルマネージドのサーバーレス・クラウドネイティブ・サービスであり、様々なデータ・ソースからOracle Cloud Infrastructureサービス(Oracle Autonomous AI LakehouseOracle Cloud Infrastructure Object Storageなど)にデータを抽出、ロード、変換、クレンジングおよび再シェイプします。

Oracle Cloud Infrastructure Data Flowは、フルマネージドのビッグ・データ・サービスであり、インフラストラクチャをデプロイまたは管理しなくてもApache Sparkアプリケーションを実行できます。これにより、運用を管理することなくアプリケーションに集中できるため、ビッグ・データとAIアプリケーションをより迅速に提供できます。データ・フロー・アプリケーションは再利用可能なテンプレートで、Sparkアプリケーションとその依存関係、デフォルト・パラメータおよびデフォルトの実行時リソース仕様で構成されます。

サービング

Oracle Autonomous AI Lakehouseは、データ・ウェアハウスのワークロード向けに最適化された、自動運転、自己保護、自己修復が可能なデータベース・サービスです。ハードウェアを構成または管理したり、ソフトウェアをインストールする必要はありません。OCIは、データベースの作成、バックアップ、パッチ適用、アップグレードおよびチューニングを処理します。

プロビジョニング後は、可用性またはパフォーマンスに影響を与えることなく、いつでもCPUコア数またはデータベースのストレージ容量をスケーリングできます。

また、Oracle Autonomous AI Lakehouseは、オブジェクト・ストレージに存在するデータを外部およびハイブリッド・パーティション表として仮想化できるため、他のソースから導出されたデータをウェアハウス・データと結合して消費できます。また、履歴データをウェアハウスからオブジェクト・ストレージに移動し、ハイブリッド・パーティション表を使用してシームレスに消費することもできます。

Oracle Autonomous AI Lakehouseでは、Oracle Cloud Infrastructure Data Catalogに格納された以前に収集されたメタデータを使用して外部表を作成し、Oracle Cloud Infrastructure Data Catalogのメタデータ更新を外部表定義と自動的に同期して、一貫性を維持し、管理を簡素化し、労力を削減できます。

Autonomous AI Database機能であるアナリティック・ビューでは、既存のデータベース表およびビューに格納されているデータの分析問合せを迅速に効率的に作成する方法が提供されます。アナリティック・ビューは、ディメンション・モデルを使用してデータを編成します。これらを使用すると、集計および計算をデータ・セットに簡単に追加でき、比較的単純なSQLで問い合せることができるデータをビューに表示できます。この機能により、内部および外部に格納されたデータを使用して、Oracle Autonomous AI Lakehouseでスター・スキーマまたはスノーフレーク・スキーマをセマンティックにモデル化し、SQLおよびSQL準拠のデータ・コンシューマを使用してモデルを消費できます。

Oracle Autonomous AI Lakehouseは、サードパーティのクラウド・ストア(AWS S3、Azure Blob、GCP CGSなど)に格納されたデータを、サードパーティのクラウド・データベース(AWS Redshift、Azure Synapse Analytics、Google BigQuery、Snowflakeなど)、サードパーティのデータベース(IBM DB2、MongoDB、PostrgreSQL、Hiveなど)およびSaaSアプリケーション上でフェデレートおよびクエリする機能を提供します。

単一のクエリで、Oracle Autonomous AI Lakehouseは、クラウド・ストア、クラウド・データベース、その他の一般的なデータベースのデータをクエリおよび結合し、サービス・エンジン・コンシューマへのデータ・アクセスを簡素化できます。これらのコンシューマは、複数のクエリ・エンジンを個別にクエリする複雑さから切り離され、統一された結果を得ることができます。また、このデータと、Delta Sharingオープン・プロトコルに準拠したプロデューサが提供するデータ共有から取得したデータを組み合せることもできます。

クラウド・ストレージ

Oracle Cloud Infrastructure Object Storageは、信頼性とコスト効率の高いデータ耐久性を実現する、インターネット規模の高パフォーマンス・ストレージ・プラットフォーム です。Oracle Cloud Infrastructure Object Storageでは、分析データを含むあらゆるコンテンツ・タイプの非構造化データを無制限に格納できます。インターネットから直接またはクラウド・プラットホーム内から、安全かつセキュアにデータを格納または取得できます。複数の管理インタフェースによって、パフォーマンスまたはサービスの信頼性が低下することなく、小規模から簡単に開始し、シームレスにスケーリングできます。

Oracle Cloud Infrastructure Object Storageは、使用頻度の低いデータを格納し、Oracle Autonomous AI Lakehouseのハイブリッド表を使用して最新のデータとシームレスに結合することで、データ・ウェアハウスのコールド・ストレージ・レイヤーとしても使用できます。

ビジュアル化/学習

Oracle Analytics Cloudは、スケーラブルで安全なパブリック・クラウド・サービスであり、ユーザー、ワーク・グループおよびエンタープライズに対して共同分析を調査および実行するための完全な機能セットを提供します。シチズン・データ・サイエンティスト、高度なビジネス・アナリスト・トレーニング、機械学習(ML)モデルの実行をサポートします。機械学習モデルは、分析サービス上またはOracle Autonomous AI Lakehouse上で直接、OML組み込みモデルとして実行でき、Oracle Cloud Infrastructure VisionなどのウェアハウスおよびOCI AIサービスの処理能力、スケーラビリティ、弾力性を活用する大規模なバッチ予測を実現します。

Oracle Analytics Cloudでは、迅速なセットアップ、容易なスケーリングとパッチ適用、および自動ライフサイクル管理など、柔軟なサービス管理の機能も利用できます。

学習と予測

Oracle Cloud Infrastructure Data Scienceは、データ・サイエンス・チームがOracle Cloud Infrastructureで機械学習(ML)モデルを構築、トレーニングおよび管理するためのインフラストラクチャ、オープン・ソース・テクノロジ、ライブラリ、パッケージおよびデータ・サイエンス・ツールを提供します。コラボレーション・ワークスペースとプロジェクト駆動ワークスペースは、エンドツーエンドの一貫性のあるユーザー・エクスペリエンスを提供し、予測モデルのライフサイクルをサポートします。

データ・サイエンス・ジョブ機能により、データ・サイエンティストはフルマネージドのインフラストラクチャで繰返し可能な機械学習タスクを定義して実行できます。

データ・サイエンス・モデル・デプロイメント機能を使用すると、データ・サイエンティストは、トレーニング済モデルをフルマネージドのHTTPエンドポイントとしてデプロイできます。これにより、リアルタイムで予測を提供し、プロセスやアプリケーションにインテリジェンスを注入し、ビジネスが関連するイベントに発生に応じて対応できるようになります。

Oracle Machine Learningは、PythonとAutoMLをサポートし、Oracle Autonomous AI Databaseに緊密に統合された強力な機械学習機能を提供します。オープン・ソースとスケーラブルなデータベース内アルゴリズムを使用して、データの準備と移動を削減するモデルをサポートします。AutoMLは、自動アルゴリズム選択、適応型データ・サンプリング、自動機能選択および自動モデル・チューニングを使用して、データ・サイエンティストが会社の機械学習イニシアチブの価値実現までの時間を短縮できるよう支援します。Oracle Autonomous AI Lakehouseで利用可能なOracle Machine Learningサービスを使用すると、モデルを管理できるだけでなく、それらのモデルをRESTエンドポイントとしてデプロイして、社内のリアルタイム予測を民主化することで、ビジネスは、事後ではなく、関連するイベントに発生に応じて対応できます。

AIサービス

Oracle Cloud Infrastructure AI Servicesサービスは、テキスト分析から予測メンテナンスまでの幅広いユース・ケースをサポートするために使用できる、すぐに使えるAIサービスのセットを提供します。これらのサービスには、APIを使用してデータ・パイプライン、分析およびアプリケーションに統合できる、事前に構築されたきめ細かなチューニング・モデルがあります。

Oracle Cloud Infrastructure Anomaly Detectionには、ビジネス・データの望ましくないイベントや観測結果をリアルタイムで特定するための豊富なツール・セットが提供されているため、ビジネスの中断を回避するための措置をとることができます。

Oracle Cloud Infrastructure Languageは、高度なテキスト分析を大規模に実行します。事前トレーニング済みおよびカスタム・モデルにより、開発者はデータ・サイエンスの専門知識がなくても、非構造化テキストを処理し、インサイトを抽出できます。事前トレーニング済モデルでは、センチメント分析、キー・フレーズ抽出、テキスト分類および名前付きエンティティ認識がサポートされています。ドメイン固有のデータ・セットを使用して、名前付きエンティティ認識およびテキスト分類のカスタム・モデルをトレーニングすることもできます。翻訳サービスでは、21の異なる言語でテキストを翻訳できます。

Oracle Cloud Infrastructure Speechでは、人間の音声を含むメディア・ファイルを非常に正確なテキスト・トランスクリプションに簡単に変換できるため、話し言葉の力を活用できます。OCI音声を使用すると、カスタマ・サービス・コールの文字化とサブタイトルの自動生成、メディア・アセットのメタデータの生成を行って、すべてを検索可能なアーカイブを作成できます。

Oracle Cloud Infrastructure Visionは、イメージの分類、検出と顔、テキストの抽出、表の認識などのイメージ認識とドキュメント分析タスクを実行します。事前トレーニング済モデルを活用するか、業界および顧客固有のシナリオ用にカスタム・ビジョン・モデルを簡単に作成できます。OCI Visionは、すべての一般的なコンピュータ・ビジョン・タスクに役立つ、フルマネージドのマルチテナント・ネイティブ・クラウド・サービスです。

Oracle Cloud Infrastructure Document Understandingでは、テキストの抽出や表の認識などのドキュメント分析タスクが実行されます。OCI Document Understandingサービスは、すべての一般的なドキュメント分析タスクに役立つ、完全に管理されたマルチテナントのネイティブ・クラウド・サービスです。

データ・エンリッチメント

データ・エンリッチメントは、機械学習モデルのトレーニングに使用されるデータを改善して、より正確で優れた予測結果を達成できます。

Oracle Cloud Infrastructure Data Labelingでは、AI/MLモデルの構築を目的として、データ・セットの作成と参照、データ・レコード(テキストまたはイメージ)の表示、ラベルの適用を行うことができます。このサービスは、ラベル付けプロセスを支援するために設計された対話型ユーザーインタフェースも提供します。レコードにラベルを付けると、データ・セットをライン区切りのJSONとしてエクスポートして、AI/MLモデル開発で使用できます。

API

APIレイヤーを使用すると、データ・サイエンスおよびOracle Machine Learningから派生したインテリジェンスを、アプリケーション、ビジネス・プロセス、およびそれらの操作と機能に影響を与え、改善するものに注入できます。APIレイヤーは、Oracle Machine Learning RESTエンドポイントにデータ・サイエンスでデプロイされたモデルを安全に使用し、ランタイム環境の可用性を確保するためにシステムを管理する機能を提供します。また、必要に応じて関数を利用して追加のロジックを実行することもできます。

Oracle Cloud Infrastructure API Gatewayでは、ネットワーク内からアクセス可能なプライベート・エンドポイントとともに、インターネット・トラフィックを受け入れる場合にパブリックIPアドレスを使用して公開できるAPIを公開できます。エンドポイントは、API検証、リクエストとレスポンスの変換、CORS、認証と認可、およびリクエスト制限をサポートします。APIの可観測性により、使用状況を監視し、SLAを保証できます。使用プランを使用して、APIにアクセスするAPIコンシューマおよびAPIクライアントを監視および管理したり、APIを使用して消費されるデータ使用状況を追跡するために、様々な顧客に対して異なるアクセス層を設定したりすることもできます。使用プランは、データの収益化をサポートする重要な機能です。

Oracle Cloud Infrastructure Functionsは、フルマネージドのマルチテナントで、拡張性に優れたオンデマンドのFunctions-as-a-Serviceプラットフォームです。エンタープライズグレードのOracle Cloud Infrastructure上に構築されており、Fn Projectオープン・ソース・エンジンによって強化されています。

Oracle REST Data Services (ORDS)は、SQLとデータベースのスキルを持つ開発者がOracle Database用のREST APIを開発できるようにするJavaアプリケーションです。アプリケーション開発者は、クライアント・ドライバをインストールおよび保守せずに、任意の言語環境からこれらのAPIを使用できます。これは、最も広く使用されているAPIテクノロジであるRESTを使用して他の外部サービスにアクセスする場合と同じ方法です。ORDSは、Oracle Autonomous AI Lakehouseのフルマネージド機能としてデプロイされ、APIを使用してデータ・コンシューマにレイクハウス情報を公開するために使用できます。

データ・ガバナンス

Oracle Cloud Infrastructure Data Catalogでは、メタデータなどの技術アセットが存在する場所を可視化し、その技術メタデータにマップされたビジネス用語集を保守する機能が提供されます。Oracle Cloud Infrastructure Data Catalogは、Oracle Autonomous AI Lakehouse Warehouseへのメタデータを提供して、データ・ウェアハウスでの外部表の作成を容易にすることもできます。

データ・セキュリティ

レイクハウス・データを最大限に活用するには、データ・セキュリティが不可欠です。多層防御機能とRBAC機能を備えたゼロトラスト・セキュリティ・モデルを活用し、最も厳しい規制へのコンプライアンスを確保することで、データ・セキュリティは予防的、検出的、および是正的なセキュリティ制御を提供し、データの流出や漏えいを防止します。

Oracle Data Safeは、データ・セキュリティに焦点を当てた完全に統合されたOracle Cloudサービスです。Oracle Autonomous AI LakehouseなどのOracle Cloudデータベースの機密データと規制データを保護するための完全で統合された機能セットを提供します。セキュリティ評価、ユーザー評価、データ検出、データ・マスキングおよびアクティビティ監査などの機能があります。

Oracle Cloud Infrastructure Auditでは、Oracle Cloud Infrastructure (OCI)リソースおよびテナンシに関連するアクティビティを可視化できます。監査ログ・イベントは、セキュリティ監査に使用して、OCIリソースの使用状況や変更点を追跡し、標準および規制へのコンプライアンスを保証するために使用できます。

Oracle Cloud Infrastructure Loggingは、監査ログを含むテナンシ内のすべてのログに対応して、スケーラビリティの高いフルマネージド形式の単一のインタフェースを提供します。OCIロギングを使用して、すべてのOCIリソースのログにアクセスし、それらを有効に、管理および検索できるようにします。

Oracle Cloud Infrastructure Vaultは、暗号化キーおよびシークレットを格納および管理する暗号化管理サービスで、リソースに安全にアクセスします。お客様が管理するキーをOracle Autonomous AI Lakehouseとデータレイク暗号化に使用して、休憩時にデータ保護を強化できるようにします。これにより、シークレットはサービスとユーザー資格証明を安全に格納して、セキュリティ・ポスチャを改善し、資格証明が漏洩して不適切に使用されないようにすることができます。

物理アーキテクチャ

このデータ・プラットフォームの物理アーキテクチャでは、次のものがサポートされます。
  • Oracle Autonomous AI Lakehouseは、Oracle管理の異種接続機能を使用して、フェデレーテッド・データ・ソースからデータを取得します。
  • Oracle Autonomous AI Lakehouseは、構成され、着信SSL/TLS接続を許可するパブリック・インターネットからアクセス可能なターゲット・データベースを使用するため、Oracle管理の異機種間接続でデータを安全に接続および問合せできます
  • Oracle Autonomous AI Lakehouse、データ共有を使用してDatabricksからデータを読み取る
  • Databricksのデータ共有は、パブリック・インターネットを使用してアクセスできますが、Databricksが提供する資格証明ファイルを使用して保護されます。
  • AWS S3、Azure Blob、Google Cloud Storageのデータは、外部表を使用してフェデレートおよびオンデマンドで読み取るか、ユースケースや要件に応じてOracle Autonomous AI Lakehouseにコピーされます。
  • 非フェデレーテッド・データ・ソースからのデータは、マイクロ・バッチと、フェデレーテッドではないリレーショナル・データ・ソースおよび非リレーショナル・データ・ソースのファイルを使用することで、セキュアに取り込まれます。
  • Oracle Cloud Infrastructure Data IntegrationOracle Cloud Infrastructure Data Flowの組合せを使用してデータが処理されます
  • データはOracle Autonomous AI LakehouseOracle Cloud Infrastructure Object Storageに格納され、品質と価値に基づいて編成されています。
  • Oracle Autonomous AI Lakehouseは、ウェアハウス、レイク、フェデレーテッド・データを消費者に安全に提供します。
  • Oracle Analytics Cloudは、ビジュアライゼーションを使用してデータをビジネス・ユーザーに提供します
  • Oracle Analytics Cloudは、Oracle Cloud Infrastructure Web Application Firewall (WAF)によって保護されているOracle Cloud Infrastructure Load Balancerを使用して公開され、インターネットを使用してアクセスを提供します
  • Oracle Cloud Infrastructure Data Scienceは、機械学習(ML)モデルの構築、トレーニング、デプロイに使用されます
  • Oracle Cloud Infrastructure API Gatewayを利用して、データ・サイエンスMLモデル・デプロイメントを管理します
  • Oracle Cloud Infrastructure Data Catalogは、Oracle Autonomous AI Lakehouseおよびオブジェクト・ストレージからメタデータを収集します
  • Oracle Cloud Infrastructure Bastionは、管理者がプライベート・クラウド・リソースを管理するために使用されます

次の図は、アーキテクチャを示しています:



データ・プラットフォーム・フェデレーション物理-oracle-1.zip#GUID-3A90BC57-5F07-494F-B23D-7E50E7D1ED7A

物理アーキテクチャの設計:

  • ハブ用に1つ、ワークロード自体用に別の2つのVCNsを活用
  • オンプレミス接続では、冗長性を確保するためにOracle Cloud Infrastructure FastConnectOracle Cloud Infrastructure Site-to-Site VPNの両方を利用します
  • オンプレミスおよびインターネットからのすべての受信トラフィックは、最初にハブVCNにルーティングされ、次にワークロードVCNにルーティングされます
  • 輸送中および休止中のすべてのデータが安全
  • サービスはプライベート・エンドポイントとともにデプロイされ、セキュリティ体制を強化します
  • VCNは、セキュリティ状態を高めるために複数のプライベート・サブネットに分離されています
  • メダリオン・アーキテクチャを活用して、レイク・データをオブジェクト・ストレージ内の複数のバケットに分離
  • フェデレーテッド・データ・ソースおよびクラウド・ストアには、パブリック接続およびワークロードVCNにアタッチされたNATゲートウェイを使用してアクセスします

簡略化のために、このデプロイメントに示されていない潜在的な設計の改善には、次のものがあります。

  • Oracle Database Gatewayを使用した顧客管理の異機種間接続を活用し、プライベート接続を使用してフェデレーテッド・データ・ソースに接続します
  • CIS準拠のランディング・ゾーンの活用
  • ネットワーク・ファイアウォールを利用して、すべてのトラフィックを検査し、ポリシーを適用することでセキュリティ状態全体を改善します

レコメンデーション

ビジネス分析および機械学習に異機種間データ・ソースからのデータを使用する開始点として、次の推奨事項を使用します。

実際の要件は、ここで説明するアーキテクチャとは異なる場合があります。

Oracle Autonomous AI Lakehouse

このアーキテクチャでは、共有インフラストラクチャ上でOracle Autonomous AI Lakehouseを使用します。

  • フェデレーテッド・データにアクセスする際のパフォーマンスを向上させるには、マテリアライズド・ビューの使用を検討してください。
  • フェデレーテッド・データの停止を回避するために必要な頻度でマテリアライズド・ビューをリフレッシュすることを検討してください。
  • フェデレーテッド・ソースからのデータベース・リンクを使用してデータを問い合せるビューを作成し、それらのビューをOracle Cloud Infrastructure Data Catalogで収集およびカタログ化してデータ・ガバナンスを強化することを検討してください。
  • セキュリティ状態を高めるために、フェデレーテッド・データ・ソース資格証明をOracle Cloud Infrastructure Vaultのシークレットに格納することを検討してください。
  • データ・セキュリティを強化するためにフェデレーテッド・データを表すビューで、リダクション(動的データ・マスキング)などのAutonomous AI Databaseのセキュリティ機能を使用することを検討してください。
  • データ共有を使用して、Delta Sharingオープン・プロトコルと互換性のある異機種間データ・ソースからフェデレーテッド・データを消費することを検討してください。
  • データ共有を使用して、Delta Sharingオープン・プロトコルと互換性のあるコンシューマにキュレートされたデータを共有することを検討してください。
  • Oracle Database Gatewayとの顧客管理の異機種間接続を使用して、セキュリティの向上、レイテンシの低下またはその両方を必要とするプライベート接続でフェデレーテッド・データ・ソースに接続することを検討してください。

Oracle Analytics Cloud

このアーキテクチャでは、Oracle Analytics Cloud (OAC)を利用して拡張分析をエンド・ユーザーに提供します。

  • OACの豊富なデータ・ソースを使用して、Oracle Autonomous AI Lakehouseで使用されるフェデレーテッド・データ・ソースを補完することを検討してください。
  • パフォーマンスの向上、キャッシング、サービング・エンジンへのオフロードの処理、分析セマンティック・レイヤーの簡素化のために、Oracle Autonomous AI LakehouseのOACに必要なデータ・ソースのフェデレーションを検討してください。

このアーキテクチャは、アーキテクチャに適用可能な推奨事項を含むデータ・レイクハウスのリファレンス・アーキテクチャに依存していることに注意してください。Lakehouseのリファレンス・アーキテクチャとリソースへのリンクについては、「詳細」の項を参照してください。

考慮事項

分析のためにデータをフェデレートする場合は、次の実装オプションを考慮してください。

ガイダンス 推奨 その他のオプション 理由
Data Refinery

Oracle Cloud Infrastructure Data Integration

  • Oracle Data Integrator
  • Oracle Autonomous Databaseのデータ変換

Oracle Cloud Infrastructure Data Integrationは、スケーラブルでコスト効率に優れた、クラウドネイティブのサーバーレスでフルマネージドのETLプラットフォームを提供します。

データ永続性
  • Oracle Autonomous AI Lakehouse
  • Oracle Cloud Infrastructure Object Storage
Oracle Exadata Database Service

Oracle Autonomous AI Lakehouseは、弾力的にスケーリングされる使いやすい完全な自律型データベースであり、高速な問合せパフォーマンスを実現します。データベース管理は不要です。また、オブジェクト・ストレージの外部表またはハイブリッド・パーティション表からデータに直接アクセスできます。

Oracle Cloud Infrastructure Object Storageは、無制限のデータをRAW形式で格納します。

データ・プロセス
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure Data Flow
サード・パーティ・ツール

Oracle Cloud Infrastructure Data Integrationは、スケーラブルでコスト効率に優れた、サーバーレスでフルマネージドのクラウドネイティブETLプラットフォームを提供します。

Oracle Cloud Infrastructure Data Flowは、非常に柔軟な従量制モデルを使用してデータを大規模に処理するサーバーレスSpark環境を提供します。

アクセスと解釈
  • Oracle Analytics Cloud
  • Oracle Cloud Infrastructure Data Science
  • Oracle Machine Learning
  • Oracle Cloud Infrastructure AIサービス
サード・パーティ・ツール

Oracle Analytics Cloudは、Oracle Autonomous AI Lakehouseの厳選されたデータと完全に管理され、緊密に統合されています。

データ・サイエンスは、Oracle Cloud Infrastructureで機械学習(ML)モデルを作成、トレーニングおよび管理するためのフルマネージドでセルフサービス・プラットフォームです、データ・サイエンス・サービスは、AutoMLやモデル・デプロイメント機能などのインフラストラクチャおよびデータ・サイエンス・ツールを提供します。

Oracle Machine Learningは、Oracle Autonomous AI Lakehouseで利用可能なデータ・サイエンスのためのフルマネージドのセルフ・サービス・プラットフォームです。ウェアハウスの処理能力を活用して、ウェアハウス外にデータを移動することなく、大規模なMLモデルの構築、トレーニング、テストおよびデプロイを行います。

Oracle Cloud Infrastructure AIサービスは、潜在的な異常の推論やセンチメントの検出などのタスクを実行するために特別に構築およびトレーニングされた事前構築済モデルを提供する一連のサービスです。

確認

  • Author: José Cruz
  • Contributors: Robert Lies