データ・プラットフォーム- データ・フェデレーション

データレイクハウス・アーキテクチャは、イベント・データを効果的に収集および分析し、デバイスからのデータをリアルタイムでストリーミングし、それを幅広いエンタープライズ・データ・リソースと関連付けて、データ投資を活用し、必要なインサイトを獲得するのに役立ちます。

しかし、データレイクハウスのデータを、異種データ・ソースに存在するデータ、あるいは他のクラウドやオンプレミス・システムにデプロイされているデータとどのように相関させ、データを複製する必要はありませんか。

その答えは、データ・レイクハウス・データと、物理的な場所に関係なく、サードパーティのクラウド・ストアからのフェデレーテッド・データ、およびクラウドとオンプレミスのデータベースからのデータを組み合わせたデータ・フェデレーション・アプローチを活用することです。

このリファレンス・アーキテクチャは、テクノロジ・ソリューションをビジネス・コンテキスト全体に配置します。



データ・フェデレーションは、単一の問合せをソース・データ・ストアに出荷される副問合せに変換するフェデレーテッド問合せエンジンを使用して、異なるデータ・ストアに格納されているデータの統合、統合およびガバナンスを可能にする手法です。結果はマージされ、次に示すようにユーザーまたはアプリケーションに表示されます。



data-platform-federation-overview:oracle.zip

多くの場合、データ・フェデレーションはデータ仮想化と交換されます。データ仮想化は、データを複製することなく、複数のソースからのデータの統合ビューを作成し、リアルタイムで新しいデータを提供します。

このリファレンス・アーキテクチャでは、次に説明する機能がフェデレーションと仮想化の両方に対応していても、データ・フェデレーションという用語が使用されます。

データ・フェデレーションを使用すると、分析エンジンやデータ・サイエンス・エンジンなどのコンシューマのデータ・アクセスが簡略化され、それらを複数のデータ・ソースに接続するのではなく、フェデレーテッド・サービング・エンジンに接続することで、フェデレーテッド・データの再利用性、ガバナンスおよびセキュリティが向上します。

分析エンジンは従来、フェデレーテッド・サービング・エンジンの補完として使用できるデータ・フェデレーション機能を提供しています。通常、フェデレーテッド・データ・サービング・エンジンには、パフォーマンスを向上させ、それらの分析エンジンに暗黙的にメリットをもたらすスケーラビリティに対処するためのより多くの機能があります。

このドキュメントでは、Oracle Cloud Infrastructure内のデータ・フェデレーションの1つの潜在的なソリューションについて説明しますが、シナリオごとに異なるテクノロジを使用する代替方法もあります。

機能アーキテクチャ

このアーキテクチャでは、データレイクハウスを使用して、形状やフォームに関係なくデータを格納および操作します。このアーキテクチャの中核は、Oracle Autonomous Data Warehouseにデプロイされたデータ・ウェアハウスです。

さらに、アーキテクチャは統合クエリ・エンジンを使用して、選択したソースからのキュレートされたデータをレイクハウスのデータとフェデレートします。フェデレーテッド・データは、データ・ストアに応じて、外部表、データベース・リンクおよびデータ共有などのメカニズムを使用して取得されます。

レイクハウス・データと既存のデータ・ストアを組み合せたフェデレーション・アーキテクチャでは、次のことができます。

  • 格納場所に関係なくすべてのデータを結合
  • 他のクラウドおよびオンプレミスに格納されたデータを連携するマルチクラウドおよびハイブリッド・クラウド・データ・プラットフォームをサポート
  • さまざまなエンジンからデータを取得して問い合わせるデータ消費者のエクスペリエンスを簡素化
  • フェデレーテッド・クエリー・エンジンで単一のデータ・セキュリティ・モデルを適用できるため、セキュリティを強化
  • レイクハウスに格納され、問合せエンジンとフェデレートされたエンティティのメタデータを統合するデータ・カタログを使用して、ガバナンスを強化します。
  • データ・マテリアライズと自律型データベース・キャッシングを活用してパフォーマンスを向上
  • Expose unified and curated data to different consumers by using analytics dashboards, SQL interfaces, API endpoints and data sharing
  • マルチモデル・データベースをフェデレーテッド・クエリー・エンジンとして活用

次の図は、機能アーキテクチャを示しています。シンプルさのために、レイクハウスのすべての機能が示されているわけではありません。



data-platform-federation-functional-oracle.zip

このアーキテクチャは、主にバッチ処理を使用するフェデレーテッド・データ・プラットフォームを示していますが、データレイクハウスのリアルタイム機能で拡張してストリーミング・データを処理できます。

ストリーミング・データ処理では、多くの場合、データ・パイプライン内のコンテキスト・データを消費する必要があります。コンテキスト・データは異なるデータ・ソースに格納される場合がありますが、データ・パイプラインに対するすべてのコンテキスト・データを提供するデータ・フェデレーション・エンジンによって、それらのパイプラインが簡素化されます。

このアーキテクチャは、次の論理的な区分に重点を置いています。

取込み、変換

アーキテクチャの各データ・レイヤーで使用するデータを取り込んで絞り込みます。

フェデレーテッド・データは、クラウド・ストレージ、データベース、データ共有からオンデマンドで消費されます。データはソース・データ・ストアですでにキュレートされているため、このレイヤーでは変換されません。

永続化、キュレート、作成

データのアクセスとナビゲーションが容易になり、現在のビジネス・ビューが表示されます。For relational technologies, data may be logically or physically structured in simple relational, longitudinal, dimensional or OLAP forms.非リレーショナル・データの場合、このレイヤーには、分析プロセスからの出力または特定の分析タスク用に最適化されたデータの1つ以上のデータ・プールが含まれます。

このレイヤーには、データウェアハウス、データレイク、およびフェデレーテッド・データ・ソースに存在するデータを統合し、提供するフェデレーテッド・サービング・エンジンが含まれています。オンデマンドでフェデレーテッド・データを問い合せ、フェデレーテッド・データを実体化して問合せパフォーマンスを向上させることができます。

The federating engine offers the ability to serve data by using SQL, REST APIs, or data sharing which increases interoperability while simplifying connectivity, as data consumers connect to a single serving engine rather than to several data stores.

分析、学習、予測

コンシューマのデータの論理的なビジネス・ビューを抽象化します。この抽象化により、開発へのアジャイルなアプローチ、ターゲット・アーキテクチャへの移行、および複数のフェデレーテッド・ソースからの単一のレポート・レイヤーのプロビジョニングが容易になります。

このレイヤーは、サービング・エンジンを利用してフェデレーテッド・データを取得します。フェデレーテッド・データは、このレイヤーで使用可能なデータ・コネクタでさらに拡張でき、ビジュアライゼーションまたはデータ・サイエンス・サービスによって提供されます。

フェデレーテッド・クエリー・エンジンを使用すると、基礎となるデータ・ストアからデータ・コンシューマ・アクセスを抽象化できるため、データが一度フェデレートされ、多くのデータ・コンシューマが消費されるため、生産性が向上します。This also makes the system more interoperable as any consumer that can interoperate with SQL, REST APIs or data sharing can use and join lakehouse and federated data.

このアーキテクチャには、次の機能コンポーネントがあります。

バッチ取込み

バッチ取り込みは、リアルタイムで取り込むことができないデータや、リアルタイム取り込みに適応するにはコストがかかりすぎるデータに役立ちます。また、データを信頼性の高い信頼できる情報に変換し、定期的な消費のためにキュレーションおよび永続化することも重要です。

バッチ取り込みは、フェデレーション・エンジンがネイティブ・アクセスを持たないデータを取り込むことができるため、またはレイクハウス・データ・モデルに準拠するようにデータを変換する必要がある特定のユースケースのために、データ・フェデレーション・エンジンを補完します。

柔軟性と効果的なデータ統合および変換ワークフローを実現するために、次のサービスを一緒または独立して使用できます。

  • Oracle Cloud Infrastructure Data Integrationは、様々なデータ・ソースからAutonomous Data WarehouseOracle Cloud Infrastructure Object StorageなどのターゲットOracle Cloud Infrastructureサービスにデータを抽出、ロード、変換、クレンジングおよび再構築する、フルマネージドのサーバーレス・クラウドネイティブ・サービスです。ETL (extract transform load) leverages fully-managed scale-out processing on Spark, and ELT (extract load transform) leverages full SQL push-down capabilities of the Autonomous Data Warehouse in order to minimize data movement and to improve the time to value for newly ingested data.ユーザーは、直感的でコードレスなユーザー・インタフェースを使用してデータ統合プロセスを設計し、統合フローを最適化して最も効率的なエンジンとオーケストレーションを生成し、実行環境を自動的に割り当ててスケーリングします。Oracle Cloud Infrastructure Data Integrationは、インタラクティブな探索およびデータ準備を提供し、データ・エンジニアがスキーマ変更を処理するルールを定義することでスキーマ・ドリフトから保護するのに役立ちます。

  • Oracle Data Integrator provides comprehensive data integration from high-volume and high-performance batch loads, to event-driven, trickle-feed integration processes, to SOA-enabled data services.宣言的な設計アプローチにより、より迅速でシンプルな開発とメンテナンスが保証され、データ変換および検証プロセスで可能な最高レベルのパフォーマンスを保証する、ロード変換(ELT)を抽出する独自のアプローチが提供されます。Oracle data transforms use a web interface to simplify the configuration and execution of ELT and to help users build and schedule data and work flows using a declarative design approach.

  • Oracle Data Transforms enable ELT for selected supported technologies, simplifying the configuration and execution of data pipelines by using a web user interface that allows users to declaratively build and schedule data flows and workflows. Oracle Data Transforms is available as a fully-managed environment within Oracle Autonomous Data Warehouse to load and transform data from several data sources into an ADW instance.

ユース・ケースに応じて、これらのコンポーネントを個別または一緒に使用して、柔軟性とパフォーマンスの高いデータ統合および変換を実現できます。

バッチ処理

バッチ処理は、データレイクハウスに保存されている大規模なデータセットを変換します。Batch processing leverages Oracle Cloud Infrastructure native services that seamlessly integrate with Oracle Cloud Infrastructure Object Storage and allows you to create curated data for use cases such as data aggregation and enrichment, data warehouse ingestion, and machine learning and AI data use at scale.

前述のOracle Cloud Infrastructure Data Integrationは、様々なデータ・ソースからOracle Autonomous Data WarehouseOracle Cloud Infrastructure Object Storageなどのターゲット・Oracle Cloud Infrastructureサービスにデータを抽出、ロード、変換、クレンジングおよび再構築する、完全に管理されたサーバーレスのクラウドネイティブ・サービスです。

Oracle Cloud Infrastructure Data Flowは、インフラストラクチャのデプロイや管理を必要とせずにApache Sparkアプリケーションを実行できる、完全に管理されたビッグ・データ・サービスです。It lets you deliver big data and AI applications faster, because you can focus on your applications without having to manage operations.データ・フロー・アプリケーションは、Sparkアプリケーションとその依存関係、デフォルト・パラメータおよびデフォルトの実行時リソース仕様で構成される再利用可能なテンプレートです。

サービング

Oracle Autonomous Data Warehouseは、データ・ウェアハウス・ワークロード用に最適化された、自己稼働、自己保護および自己修復のデータベース・サービスです。ハードウェアの構成や管理、ソフトウェアのインストールを行う必要はありません。Oracle Cloud Infrastructureは、データベースの作成に加え、データベースのバックアップ、パッチ適用、アップグレードおよびチューニングも処理します。

After provisioning, you can scale the number of CPU cores or the storage capacity of the database at any time without impacting availability or performance.

ADW can also virtualize data that resides in object storage as external and hybrid partitioned tables so that you can join and consume data derived from other sources with the warehouse data.また、履歴データをウェアハウスからオブジェクト・ストレージに移動し、ハイブリッド・パーティション表を使用してシームレスに消費することもできます。

ADW can use previously harvested metadata stored in the Oracle Cloud Infrastructure Data Catalog to create external tables, and can automatically synchronize metadata updates in the Oracle Cloud Infrastructure Data Catalog with the external tables definition to maintain consistency, simplify management, and reduce effort.

Autonomous Database機能であるアナリティック・ビューは、既存のデータベース表およびビューに格納されているデータの分析問合せをすばやく効率的に作成する方法を提供します。分析ビューは、ディメンション・モデルを使用してデータを編成します。They allow you to easily add aggregations and calculations to data sets and to present data in views that can be queried with relatively simple SQL.This feature allows you to semantically model a star or snowflake schema directly in ADW, using data stored internally and externally, and allows consumption of the model by using SQL and any SQL compliant data consumer.

ADW provides the ability to federate and query data stored on third-party cloud stores (namely AWS S3, Azure Blob and GCP CGS), on third-party cloud databases (namely AWS Redshift, Azure Synapse Analytics, Google BigQuery and Snowflake), third-party databases (namely IBM DB2, MongoDB, PostrgreSQL, Hive) and even SaaS applications.

In a single query, ADW can query and join data from cloud stores, cloud databases and other popular databases, simplifying data access to the serving engine consumers, as they are abstracted from the complexity of querying separately, several query engines, to obtain a unified result.また、このデータを、Delta Sharingオープン・プロトコルに準拠したプロデューサが提供するデータ共有から取得したデータと組み合せることもできます。

クラウド・ストレージ

Oracle Cloud Infrastructure Object Storageは、信頼性とコスト効率の高いデータ耐久性を実現するインターネット規模の高パフォーマンス・ストレージ・プラットフォームです。Oracle Cloud Infrastructure Object Storageでは、分析データを含む任意のコンテンツ・タイプの非構造化データを無制限に格納できます。インターネットから直接またはクラウド・プラットフォーム内から、安全かつセキュアにデータを格納または取得できます。複数の管理インタフェースを使用すると、パフォーマンスやサービスの信頼性が低下することなく、小規模から簡単に開始してシームレスに拡張できます。

Oracle Cloud Infrastructure Object Storageは、使用頻度の低いデータを格納し、Oracle Autonomous Data Warehouseのハイブリッド表を使用して最新のデータとシームレスに結合することで、データ・ウェアハウスのコールド・ストレージ・レイヤーとしても使用できます。

ビジュアル化/学習

Oracle Analytics Cloudは、スケーラブルでセキュアなパブリック・クラウド・サービスです。ユーザー、ワーク・グループおよびエンタープライズのコラボレーション・アナリティクスを調査および実行する完全な機能セットを提供します。シチズン・データ・サイエンティスト、高度なビジネス・アナリスト・トレーニング、機械学習(ML)モデルの実行をサポートしています。Machine learning models can be executed on the analytics service or directly on Oracle Autonomous Data Warehouse as OML-embedded models for large-scale batch predictions that leverage the processing power, scalability, and elasticity of the warehouse and OCI AI services, such as Oracle Cloud Infrastructure Vision.

Oracle Analytics Cloudでは、迅速な設定、簡単なスケーリングとパッチ適用、自動ライフサイクル管理など、柔軟なサービス管理機能も利用できます。

学習と予測

Oracle Cloud Infrastructure Data Scienceは、データ・サイエンス・チームがOracle Cloud Infrastructureで機械学習(ML)モデルを作成、トレーニングおよび管理するためのインフラストラクチャ、オープン・ソース・テクノロジ、ライブラリ、パッケージおよびデータ・サイエンス・ツールを提供します。コラボレーションおよびプロジェクト駆動のワークスペースは、エンドツーエンドの一貫性のあるユーザー・エクスペリエンスを提供し、予測モデルのライフサイクルをサポートします。データ・サイエンスにより、データ・サイエンティストと機械学習エンジニアは、Anacondaリポジトリから直接パッケージをダウンロードしてインストールできるため、機械学習ライブラリの厳選されたデータ・サイエンス・エコシステムを使用してプロジェクトのイノベーションが可能になります。

データ・サイエンス・ジョブ機能により、データ・サイエンティストはフル・マネージドのインフラストラクチャで繰返し可能な機械学習タスクを定義して実行できます。

The Data Science Model Deployment feature allows data scientists to deploy trained models as fully-managed HTTP endpoints that can provide predictions in real time, infusing intelligence into processes and applications, and allowing the business to react to relevant events as they occur.

Oracle Machine Learningは、Oracle Autonomous Databaseに緊密に統合された強力な機械学習機能を提供し、PythonおよびAutoMLをサポートします。オープン・ソースおよびスケーラブルなデータベース内アルゴリズムを使用したモデルをサポートし、データの準備と移動を削減します。AutoMLを使用すると、データ・サイエンティストは、自動アルゴリズム選択、適応型データ・サンプリング、自動機能選択および自動モデル・チューニングを使用して、会社の機械学習イニシアチブの価値実現までの時間を短縮できます。With Oracle Machine Learning services available in Oracle Autonomous Data Warehouse, you can not only manage models but you can also deploy those models as REST endpoints in order to democratize real-time predictions within the company allowing business to react to relevant events as they occur, rather than after the fact.

AI services

Oracle Cloud Infrastructure AI Services services provide a set of ready-to-consume AI services that can be used to support a range of use cases from text analysis to predictive maintenance. These services have prebuilt, finely tuned models that you can integrate into data pipelines, analytics, and applications by using APIs.

Oracle Cloud Infrastructure Anomaly Detectionは、ビジネス・データの望ましくないイベントや観測をリアルタイムで特定するためのツール・セットを提供し、業務の混乱を回避するためのアクションを実行できるようにします。

Oracle Cloud Infrastructure AI Languageは、高度なテキスト分析を大規模に実行します。事前トレーニング済みのカスタムモデルにより、開発者はデータサイエンスの専門知識がなくても、非構造化テキストを処理し、インサイトを抽出できます。事前トレーニング済モデルは、センチメント分析、キー・フレーズ抽出、テキスト分類および名前付きエンティティ認識をサポートします。ドメイン固有のデータ・セットを使用して、名前付きエンティティ認識およびテキスト分類のカスタム・モデルをトレーニングすることもできます。翻訳サービスを使用すると、21の異なる言語間でテキストを翻訳できます。

Oracle Cloud Infrastructure Speechは、人間のスピーチを含むメディア・ファイルを非常に正確なテキスト・トランスクリプションに簡単に変換できるようにすることで、話し言葉の力を活用します。OCI Speechを使用すると、カスタマ・サービス・コールの文字化、サブタイトルの自動作成、メディア・アセットのメタデータの生成が行われ、完全に検索可能なアーカイブを作成できます。

Oracle Cloud Infrastructure Visionは、イメージの分類、検出とフェース、テキストの抽出、表の認識などのイメージ認識およびドキュメント分析タスクを実行します。事前トレーニング済モデルを活用することも、業界および顧客固有のシナリオ向けにカスタム・ビジョン・モデルを簡単に作成することもできます。Visionサービスは、すべての一般的なコンピュータ・ビジョン・タスクに役立つ、完全に管理されたマルチテナントのネイティブ・クラウド・サービスです。

Oracle Cloud Infrastructure Document Understandingは、テキストの抽出や表の認識などのドキュメント分析タスクを実行します。OCI Document Understandingサービスは、すべての一般的なドキュメント分析タスクに役立つ、完全に管理されたマルチテナントのネイティブ・クラウド・サービスです。

データ・エンリッチメント

データ・エンリッチメントは、機械学習モデルのトレーニングに使用されるデータを改善して、より適切で正確な予測結果を達成できます。

Oracle Cloud Infrastructure Data Labeling allows you to create and browse data sets, view data records (text or images), and apply labels for the purposes of building AI/ML models.このサービスは、ラベル付けプロセスを支援するように設計された対話型ユーザー・インタフェースも提供します。After records are labeled, the data set can be exported as line-delimited JSON for use in AI/ML model development.

API

The API layer allows you to infuse the intelligence derived from Data Science and Oracle Machine Learning into applications, business processes, and things to influence and improve their operation and function.The API layer provides secure consumption of the Data Science-deployed models to Oracle Machine Learning REST endpoints and the ability to govern the system to ensure the availability of run-time environments.関数を利用して、必要に応じて追加のロジックを実行することもできます。

Oracle Cloud Infrastructure API Gateway enables you to publish APIs with private endpoints that are accessible from within your network, and that you can expose with public IP addresses if you want them to accept internet traffic.The endpoints support API validation, request and response transformation, CORS, authentication and authorization, and request limiting.It allows API observability to monitor usage and guarantee SLAs.Usage plans can also be used to monitor and manage the API consumers and API clients that access APIs and to set up different access tiers for different customers in order to track data usage that is consumed by using APIs.使用プランは、データの収益化をサポートするための重要な機能です。

Oracle Cloud Infrastructure Functionsは、完全に管理された、マルチテナントでスケーラビリティが高いオンデマンドのFunctions-as-a-Serviceプラットフォームです。エンタープライズグレードのOracle Cloud Infrastructure上に構築されており、Fn Projectオープン・ソース・エンジンによって強化されています。

Oracle REST Data Services (ORDS) is a Java application that enables developers with SQL and database skills to develop REST APIs for Oracle Database. Any application developer can use these APIs from any language environment, without installing and maintaining client drivers, in the same way they that they access other external services using REST, the most widely used API technology. ORDS is deployed as a fully-managed feature in ADW and can be used to expose lakehouse information by using APIs to data consumers.

データ・ガバナンス

Oracle Cloud Infrastructure Data Catalogは、メタデータや各属性などの技術アセットが存在する場所を可視化し、その技術メタデータにマップされたビジネス用語集を保守する機能を提供します。Oracle Cloud Infrastructure Data Catalogは、データ・ウェアハウスでの外部表の作成を容易にするために、Oracle Autonomous Data Warehouse Warehouseにメタデータを提供することもできます。

データ・セキュリティ

レイクハウス・データを最大限に探索して使用するには、データ・セキュリティが重要です。Leveraging a zero-trust security model with defense-in-depth and RBAC capabilities, and ensuring compliance with the most stringent regulation, data security provides preventive, detective, and corrective security controls to ensure that data exfiltration and breaches are prevented.

Oracle Data Safeは、データ・セキュリティに焦点を当てた完全に統合されたOracle Cloudサービスです。これは、Oracle Autonomous Data WarehouseなどのOracle Cloudデータベース内の機密データおよび規制対象データを保護するための完全で統合された機能セットを提供します。セキュリティ評価、ユーザー評価、データ検出、データ・マスキングおよびアクティビティ監査などの機能があります。

Oracle Cloud Infrastructure Auditでは、Oracle Cloud Infrastructure (OCI)リソースおよびテナントに関連するアクティビティを把握できます。Audit log events can be used for security audits to track usage of and changes to OCI resources and to help ensure compliance with standards and regulations.

Oracle Cloud Infrastructure Loggingは、監査ログを含む、テナンシ内のすべてのログに対応する、拡張性が高く完全に管理された単一のインタフェースを提供します。Use OCI Logging to access logs from all OCI resources so that you can enable, manage, and search them.

Oracle Cloud Infrastructure Vaultは、暗号化キーおよびシークレットを格納および管理してリソースに安全にアクセスする暗号化管理サービスです。Oracle Autonomous Data Warehouseおよびデータレイク暗号化に顧客管理キーを使用できるようにし、保存データの保護を強化します。セキュリティ・ポスチャを改善し、資格証明が侵害されて不適切に使用されないようにするために、シークレットでサービスおよびユーザー資格証明を安全に格納できます。

物理アーキテクチャ

このデータ・プラットフォームの物理アーキテクチャでは、次のものがサポートされています。
  • Oracle Autonomous Data Warehouse (ADW)は、Oracle管理の異機種間接続機能を使用して、フェデレーテッド・データ・ソースからデータを取得します
  • ADW uses target databases accessible from the public internet that are configured and allow incoming SSL/TLS connections, so that Oracle-Managed Heterogeneous Connectivity can connect and query data securely
  • ADW reads data from Databricks using data shares
  • データブリック・データ共有にはパブリック・インターネットを使用してアクセスできますが、Databricksが提供する資格証明ファイルを使用して保護されます。
  • Data from AWS S3, Azure Blob and Google Cloud Storage is either federated and read on demand using external tables or copied into ADW depending on the use case and requirements
  • 非フェデレーテッド・データ・ソースからのデータは、マイクロ・バッチと、フェデレーテッドされていないリレーショナル・データ・ソースおよび非リレーショナル・データ・ソースのファイルを使用して安全に収集されます。
  • データは、Oracle Cloud Infrastructure Data IntegrationOracle Cloud Infrastructure Data Flowの組合せを使用して処理されます
  • Data is stored in ADW and Oracle Cloud Infrastructure Object Storage and is organized according to its quality and value
  • ADW serves warehouse, lake and federated data securely to consumers
  • Oracle Analytics Cloudは、ビジュアライゼーションを使用してデータをビジネス・ユーザーに表示します
  • Oracle Analytics Cloudは、Oracle Cloud Infrastructure Web Application Firewall (WAF)によって保護されているOracle Cloud Infrastructure Load Balancingを使用してインターネットを使用してアクセスを提供することで公開されます
  • Oracle Cloud Infrastructure Data Scienceは、機械学習(ML)モデルの構築、トレーニング、導入に使用されます。
  • Oracle Cloud Infrastructure API Gateway is leveraged to govern the Data Science ML model deployments
  • Oracle Cloud Infrastructure Data Catalog harvests metadata from ADW and object storage
  • Oracle Cloud Infrastructure Bastionは、管理者がプライベート・クラウド・リソースを管理するために使用されます

次のダイアグラムにアーキテクチャを示します。



data-platform-federation-physical-oracle.zip

物理アーキテクチャの設計:

  • Leverages 2 VCNs, one for hub and another for the workload itself
  • On premises connectivity leverages both Oracle Cloud Infrastructure FastConnect and site-to-site VPN for redundancy
  • All incoming traffic from on premises and from the internet is first routed into the hub VCN and then into the workload VCN
  • すべてのデータは転送中および保存中の安全です。
  • サービスはプライベート・エンドポイントとともにデプロイされ、セキュリティ体制が強化されます。
  • The VCN is segregated into several private subnets to increase the security posture
  • レイク・データは、メダリオン・アーキテクチャを活用して、オブジェクト・ストレージ内の複数のバケットに分離されます。
  • Federated data sources and cloud stores are accessed by using public connectivity and the NAT gateway attached to the workload VCN

簡略化のために、このデプロイメントには描かれていない潜在的な設計の改善点は次のとおりです。

  • Oracle Database Gatewayを使用した顧客管理の異機種間接続を活用し、プライベート接続を使用してフェデレーテッド・データ・ソースに接続します
  • Leveraging a full CIS-compliant landing zone
  • ネットワーク・ファイアウォールを活用して、すべてのトラフィックを検査し、ポリシーを適用することで、セキュリティ体制全体を改善

レコメンデーション

ビジネス分析と機械学習に異種データ・ソースからのデータを使用するための出発点として、次の推奨事項を使用します。

お客様の要件は、ここで説明するアーキテクチャと異なる場合があります。

Oracle Autonomous Data Warehouse

このアーキテクチャでは、共有インフラストラクチャでOracle Autonomous Data Warehouse (ADW)を使用します。

  • フェデレーテッド・データにアクセスする際は、マテリアライズド・ビューを使用してパフォーマンスを向上することを検討してください。
  • フェデレーテッド・データの停止を回避するために必要な頻度でマテリアライズド・ビューをリフレッシュすることを検討してください。
  • データ・ガバナンス向上のためにOracle Cloud Infrastructure Data Catalogでこれらのビューを収集およびカタログ化するために、フェデレーテッド・ソースのデータベース・リンクを使用してデータを問い合せるビューを作成することを検討してください。
  • セキュリティ状態を高めるために、フェデレーテッド・データ・ソース資格証明をOracle Cloud Infrastructure Vaultのシークレットに格納することを検討してください。
  • リダクション(動的データ・マスキング)などのAutonomous Databaseセキュリティ機能を、フェデレーテッド・データを表すビューで使用してデータ・セキュリティを向上することを検討してください。
  • データ共有を使用して、デルタ共有オープン・プロトコルと互換性のある異種データ・ソースからフェデレーテッド・データを消費することを検討してください。
  • データ共有を使用して、デルタ共有オープン・プロトコルと互換性のあるコンシューマにキュレートされたデータを共有することを検討してください。
  • セキュリティの強化、レイテンシの低減またはその両方が必要なプライベート接続でフェデレーテッド・データ・ソースに接続するには、Oracle Database Gatewayで顧客管理の異機種間接続を使用することを検討してください。

Oracle Analytics Cloud

このアーキテクチャでは、拡張分析をエンド・ユーザーに提供するためにOracle Analytics Cloud (OAC)を利用します。

  • Consider using OAC's ample range of data sources to complement the federated data sources used by ADW.
  • Consider federating data sources needed in OAC on ADW for increased performance, caching, processing offload to the serving engine, and simplification of the analytical semantic layer.

このアーキテクチャは、アーキテクチャに適用可能な推奨事項を含むデータ・レイクハウス・リファレンス・アーキテクチャに依存していることに注意してください。レイクハウス・リファレンス・アーキテクチャとリソースへのリンクについては、「詳細」の項を参照してください。

考慮事項

分析のためにデータをフェデレートする場合は、次の実装オプションを考慮してください。

ガイダンス 推奨 その他のオプション 理由
Data Refinery

Oracle Cloud Infrastructure Data Integration

  • Oracle Data Integrator
  • Oracle Autonomous Databaseのデータ変換

Oracle Cloud Infrastructure Data Integration provides a cloud native, serverless, fully-managed ETL platform that is scalable and cost efficient.

データ永続性
  • Oracle Autonomous Data Warehouse
  • Oracle Cloud Infrastructure Object Storage
Oracle Exadata Database Service

Oracle Autonomous Data Warehouseは、柔軟にスケーリングされ、迅速な問合せパフォーマンスを提供し、データベース管理を必要としない、使いやすい完全自律型データベースです。また、オブジェクト・ストレージの外部表またはハイブリッド・パーティション表からデータに直接アクセスできます。

Oracle Cloud Infrastructure Object Storageは、無制限のデータをRAW形式で格納します。

データ処理
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure Data Flow
サードパーティ・ツール

Oracle Cloud Infrastructure Data Integration provides a cloud native, serverless, fully-managed ETL platform that is scalable and cost effective.

Oracle Cloud Infrastructure Data Flowは、サーバーレスSpark環境を提供し、使用ごとの課金、きわめて柔軟なモデルでデータを大規模に処理します。

アクセス・通訳
  • Oracle Analytics Cloud
  • Oracle Cloud Infrastructure Data Science
  • Oracle Machine Learning
  • Oracle Cloud Infrastructure AI services
サードパーティ・ツール

Oracle Analytics Cloudは完全に管理され、Oracle Autonomous Data Warehouseのキュレートされたデータと緊密に統合されています。

データ・サイエンスは、データ・サイエンス・チームがOracle Cloud Infrastructureで機械学習(ML)モデルを作成、トレーニングおよび管理するための完全に管理されたセルフサービス・プラットフォームです。データ・サイエンス・サービスは、AutoMLやモデル・デプロイメント機能などのインフラストラクチャおよびデータ・サイエンス・ツールを提供します。

Oracle Machine Learning is a fully-managed, self service platform for data science available with Oracle Autonomous Data Warehouse that leverages the processing power of the warehouse to build, train, test, and deploy ML models at scale without the need to move the data outside of the warehouse.

Oracle Cloud Infrastructure AI services are a set of services that provide pre-built models specifically built and trained to perform tasks such as inferencing potential anomalies or detecting sentiment.

確認

  • Author: José Cruz
  • Contributors: Robert Lies