データ・プラットフォーム- データ・レイクハウス

イベント・データやストリーミング・データを、モノのインターネット(IoT)やソーシャル・メディア・ソースから効果的に収集および分析できますが、投資を活用して必要なインサイトを得るための幅広いエンタープライズ・データ・リソースとどのように関連付けますか。

データレイクとデータウェアハウスの機能を組み合わせたクラウドデータレイクハウスを活用して、ビジネス分析と機械学習のための幅広いエンタープライズおよびストリーミングデータを処理します。

このリファレンス・アーキテクチャは、戦略的な意図が測定可能な戦略的成果の創出を推進する、ビジネス・コンテキスト全体の中にテクノロジ・ソリューションを配置します。これらの結果は、新しい戦略的意図を生み出し、データ主導型の継続的なビジネス改善を効果的に実現します。



データレイクにより、企業はすべてのデータをコスト効率が高く柔軟な環境に格納しながら、必要な処理、永続性および分析サービスを提供し、新しいビジネス・インサイトを発見できます。データレイクでは、構造化データと非構造化データを格納およびキュレートし、複数のソースから大量の非常に多様なデータを編成する方法を提供します。

データ・ウェアハウスでは、データをウェアハウスにコミットする前に、データ変換およびクレンジングを実行します。データレイクを使用すると、データをすばやく取り込み、ユーザーがデータにアクセスするときにその場で準備できます。データレイクは、データへの即時アクセスと、ビジネスで何が起こっているかを理解するための柔軟な分析を必要とする運用レポートとビジネス監視をサポートします。

機能アーキテクチャ

データレイクとデータウェアハウスの機能を組み合わせて、幅広いエンタープライズ・データ・リソースからのストリーミングやその他のタイプのデータを処理する最新のデータレイクハウス・プラットフォームを提供することで、ビジネス分析、機械学習、データ・サービス、データ製品にデータを活用できます。

データレイクハウス・アーキテクチャは、データレイクとデータウェアハウスの両方の機能を組み合わせて、運用効率を高め、次のことを可能にする強化された機能を提供します。

  • データレイクとデータウェアハウス間でデータを複製する必要なく、シームレスなデータと情報の使用
  • 拡張されたマルチモデルおよびポリグロット・アーキテクチャでの多様なデータ型のサポート
  • リアルタイム、ストリーミング、バッチ、アプリケーション・プログラミング・インタフェース(API)、一括取り込みメカニズムを使用して、任意のコンシューマからシームレスなデータ取込みを実行できます
  • 人工知能(AI)、生成AI、機械学習(ML)サービスを使用したデータからの継続的なインテリジェンス抽出
  • API、ユーザー・インタフェース、ストリーミングおよび統合メカニズムを使用してデータ・コンシューマにインテリジェンスを提供し、提供する機能
  • ゼロトラスト・セキュリティ・モデルを活用したガバナンスとファイングレイン・データ・セキュリティ
  • ストレージ・リソースとコンピュート・リソースを完全に切り離し、いつでも必要なリソースのみを使用する機能
  • オープン・ソース・エンジンを含む複数のコンピュート・エンジンを活用して、異なるユース・ケースに対して同じデータを処理し、最大限のデータの再利用、流動性、使用を実現する機能
  • 異なるオープン・ファイルとテーブル形式を使用してデータをデータレイクに格納する機能
  • Oracleが管理するOracle Cloud Infrastructure (OCI)ネイティブ・サービスを活用し、運用オーバーヘッドを削減する機能
  • 実際の需要に合わせてクラウド・リソース・インフラストラクチャを調整する自動スケーリングにより、クラウドの経済性を向上
  • サービスの使用がユースケース主導になるようにモジュール化
  • オープン・スタンダードに準拠したシステムまたはクラウドとの相互運用性
  • ストリーミング、分析、データ・サイエンス、機械学習など、多様なユース・ケースのサポート
  • 一元化されたレイクハウスから分散化されたデータ・メッシュまで、さまざまなアーキテクチャ・アプローチをサポート

次の図は、機能アーキテクチャを示しています。



レイクハウス機能-oracle.zip

アーキテクチャは、次の論理区分に重点を置いています。

  • 接続、取込み、変換

    アーキテクチャの各データ・レイヤーで使用するために、データ・ソースに接続し、データを取り込み、絞り込みます。

  • 永続化、キュレーション、作成

    データのアクセスおよびナビゲーションを容易にし、現在のビジネス・ビューを表示します。リレーショナル・テクノロジの場合、データは、単純なリレーショナル、縦方向、ディメンションまたはOLAP形式で論理的または物理的に構造化できます。非リレーショナル・データの場合、このレイヤーには、分析プロセスからの出力、または特定の分析タスク用に最適化されたデータのいずれか1つ以上のデータ・プールが含まれます。

  • 分析、学習、予測

    コンシューマのデータの論理的なビジネス・ビューを抽象化します。この抽象化により、開発へのアジャイルなアプローチ、ターゲット・アーキテクチャへの移行、および複数のフェデレーテッド・ソースからの単一のレポート・レイヤーのプロビジョニングが容易になります。

このアーキテクチャには、次の機能コンポーネントがあります。

  • バッチ取込み

    バッチ取り込みは、リアルタイムで取り込むことができないデータや、リアルタイム取り込みに適応するにはコストがかかりすぎるデータに役立ちます。また、データを信頼できる信頼できる情報に変換し、定期的な消費のためにキュレートして永続化することも重要です。柔軟性と効果的なデータ統合と変換のワークフローを実現するために、次のサービスを一緒に使用することも、独立して使用することもできます。

    • Oracle Cloud Infrastructure Data Integrationは、様々なデータ・ソースからAutonomous Data WarehouseOracle Cloud Infrastructure Object Storageなどのターゲット・Oracle Cloud Infrastructureサービスにデータを抽出、ロード、変換、クレンジングおよび再シェイプする、フルマネージドのサーバーレスなクラウドネイティブ・サービスです。ユーザーは、直感的でコードレスなユーザー・インタフェースを使用してデータ統合プロセスを設計し、統合フローを最適化して最も効率的なエンジンとオーケストレーションを生成し、実行環境を自動的に割り当て、スケーリングします。

      ETL (変換ロードの抽出)では、Sparkでの完全管理型のスケールアウト処理が利用され、ELT (ロード変換の抽出)では、データの移動を最小限に抑え、新しく取り込まれたデータの価値実現までの時間を短縮するために、Autonomous Data Warehouseの完全なSQLプッシュダウン機能を利用します。

      Oracle Cloud Infrastructure Data Integrationは、対話型の探索およびデータ準備を提供し、データ・エンジニアがスキーマの変更を処理するルールを定義することでスキーマ・ドリフトから保護するのに役立ちます。

    • Oracle Data Integratorは、高ボリュームおよび高パフォーマンスのバッチ・ロードからイベント駆動のトリクル・フィード統合プロセスへのSOA対応のデータ・サービスへの包括的なデータ統合を提供します。宣言的な設計アプローチにより、より迅速でシンプルな開発とメンテナンスが保証され、ロード変換(ELT)を抽出するための独自のアプローチが提供されるため、データ変換および検証プロセスに可能な最高レベルのパフォーマンスが保証されます。Oracleデータ変換では、Webインタフェースを使用してELTの構成と実行を簡素化し、宣言的な設計アプローチを使用してデータとワークフローを構築およびスケジュールするのに役立ちます。

    • Oracle Data Transformsは、選択したサポートされているテクノロジに対してELTを有効にし、ユーザーが宣言的にデータ・フローおよびワークフローを構築およびスケジュールできるWebユーザー・インタフェースを使用して、データ・パイプラインの構成と実行を簡素化します。Oracle Data Transformsは、Oracle Autonomous Data Warehouse (ADW)内のフルマネージド環境として、複数のデータ・ソースからADWインスタンスにデータをロードおよび変換できます。

    ユース・ケースに応じて、これらのコンポーネントを個別または一緒に使用して、柔軟性とパフォーマンスの高いデータ統合および変換を実現できます。

  • APIベースの取込み

    APIベースの取込みにより、アプリケーションおよびシステムはAPIまたはWebフックを使用してイベント・データをプッシュできます。

    • Oracle Integrationは、クラウドとオンプレミスのアプリケーションの統合、ビジネス・プロセスの自動化およびビジュアル・アプリケーションの開発を可能にする、フルマネージドの事前構成済環境です。SFTP準拠のファイル・サーバーを使用してファイルを格納および取得し、数百のアダプタおよびレシピのポートフォリオを使用してOracleおよびサードパーティ・アプリケーションに接続することで、B2B取引パートナとドキュメントを交換できます。

    • Oracle Cloud Infrastructure API Gatewayでは、ネットワーク内からアクセスでき、必要に応じてパブリック・インターネットに公開できるプライベート・エンドポイントを含むAPIを公開できます。エンドポイントは、API検証、リクエストとレスポンスの変換、CORS、認証と認可およびリクエスト制限をサポートします。

      OCI API Gatewayでは、APIの可観測性によって使用状況を監視し、SLAを保証できます。使用プランを使用して、APIコンシューマとクライアントを監視および管理したり、様々な顧客に対して異なるAPIアクセス層を設定することもできます。使用プランは、データの収益化をサポートする重要な機能です。

      使用計画は、APIコンシューマとクライアントを管理し、データ使用状況を追跡するための階層化された使用計画を作成することで、データの収益化をサポートします。

    • Oracle Cloud Infrastructure Functionsは、完全に管理された、マルチテナントのスケーラビリティが高いオンデマンドのFunctions-as-a-Service (FaaS)プラットフォームです。これは、Fn Projectのオープン・ソース・エンジンによって機能します。ファンクションを使用すると、コードをデプロイし、直接コールするか、イベントに応答してトリガーできます。Oracle Functionsは、Oracle Cloud Infrastructure RegistryでホストされているDockerコンテナを使用します。

    • Oracle REST Data Services (ORDS)は、SQLおよびデータベースのスキルを持つ開発者がOracle DatabaseのREST APIを開発できるようにするJavaアプリケーションです。アプリケーション開発者は、クライアント・ドライバのインストールやメンテナンスを行うことなく、最も広く使用されているAPIテクノロジであるRESTを使用して他の外部サービスにアクセスする場合と同じ方法で、任意の言語環境からこれらのAPIを使用できます。

      ORDSは、Oracle Autonomous Data Warehouseのフルマネージド機能としてデプロイされ、APIを使用してデータ・コンシューマにレイクハウス情報を公開するために使用できます。

  • リアルタイムの取込み

    Oracle Cloud Infrastructure GoldenGateは、オンプレミスまたは任意のクラウドに存在するソースからのデータ取込みを可能にするフルマネージド・サービスです。GoldenGate CDCテクノロジを活用して、Oracle Autonomous Data WarehouseOracle Cloud Infrastructure Object StorageまたはOracle Cloud Infrastructure Streamingへの非侵入的で効率的なデータ取得および配信をリアルタイムおよび大規模に実現し、関連情報を消費者ができるだけ迅速に利用できるようにします。

  • 一括転送

    一括転送では、様々な方法を使用して大量のデータをバッチで移動できます。大規模なデータ・レイクハウスの場合は、Oracle Cloud Infrastructure FastConnectおよびData Transferサービスをお薦めします。

    • Oracle Cloud Infrastructure FastConnectは、データ・センターとOracle Cloud Infrastructureの間に専用のプライベート接続を簡単に作成する方法を提供します。FastConnectは、インターネットベースの接続と比較して、高帯域幅オプションとより信頼性の高いネットワーキング・エクスペリエンスを提供します。

    • Oracle Cloud Infrastructure (OCI)コマンドライン・インタフェース(CLI)では、Oracle Cloud Infrastructure FastConnectプライベート回線を利用して、オンプレミスからOCIへのデータの転送を実行および自動化できます。OCI SDKを使用すると、オンプレミスまたは他のクラウドからOracle Cloud Infrastructure Object Storageにデータおよびファイルをコピーまたは同期するコードを記述でき、Python、Java、Goなどの様々なプログラミング言語を使用して名前を付けることができます。REST APIを使用すると、Object Storage Service APIを使用してデータをオブジェクト・ストレージに移動するなど、OCIサービスとインタフェースして制御できます。
    • Oracle Cloud Infrastructure Data Transferは、ペタバイト規模のデータセットをデータ・センターからOracle Cloud Infrastructure Object StorageまたはArchive Storageに安全に移動できるオフライン・データ移行サービスです。パブリック・インターネットを使用したクラウドへのデータの移動は、高いネットワーク・コスト、信頼性のないネットワーク接続、長い転送時間およびセキュリティ上の懸念により必ずしも現実的ではありません。Data Transferサービスは、これらの課題を克服し、クラウドへのデータの移行に要する時間を大幅に短縮できます。Data Transferは、ディスクまたはアプライアンスのいずれかを介して使用できます。1つのデータを選択するのは、主にデータの量に依存し、Data Transfer Applianceはアプライアンスごとにより大きなデータ・セットをサポートします。
  • ストリーミング取り込み

    ストリーミング取り込みは、幅広いデータ・プロデューサ・セットから大規模なデータセットをリアルタイムで取り込むことができるOCIネイティブ・サービスを使用することでサポートされます。ストリーミング取り込みは、データレイクハウスの中心にあるオブジェクト・ストレージのデータを保持および同期します。データをオブジェクト・ストレージに同期すると、キュレートおよびさらに変換して貴重なインサイトを抽出できる履歴データを保持できます。

    • Oracle Cloud Infrastructure Streamingは、リアルタイムで消費および処理できる継続的な大容量データ・ストリームを収集するための、スケーラブルで耐久性の高いフルマネージド・ストレージ・ソリューションを提供します。ストリーミングは、メッセージング、大容量アプリケーション・ログ、運用テレメトリ、Webクリック・ストリーム・データ、またはデータが継続的かつ連続的に生成および処理されるその他のパブリッシュ/サブスクライブ・メッセージング・モデルのユースケースに使用できます。データはOracle Cloud Infrastructure Object Storageに同期され、キュレートしてさらに変換して貴重なインサイトを抽出できます。

    • Oracle Cloud Infrastructure Queueは、システムを分離し、非同期操作を有効にするのに役立つフルマネージド・サーバーレス・サービスです。キューは、損失または重複なしで個別に処理されたメッセージを必要とする大量のトランザクション・データを処理します。

    • Oracle Cloud Infrastructure Service Connector Hubは、クラウド・メッセージ・バス・プラットフォームです。このプラットフォームでは、Oracle Cloud Infrastructureのサービス間のデータ移動の説明、実行およびモニターを1つの画面で確認できます。この特定のリファレンス・アーキテクチャでは、Oracle Cloud Infrastructure StreamingまたはOCI QueueからOracle Cloud Infrastructure Object Storageにデータを移動して、RAWおよび準備済データをデータ・レイクハウスの永続性レイヤーに永続化するために使用されます。

  • ストリーミング処理

    ストリーミング処理では、ストリーミング・データが強化され、イベント・パターンが検出され、データ・レイクハウスに保持される別のストリーム・セットが作成されます。

    • Oracle Cloud Infrastructure GoldenGate Stream Analyticsは、高度な相関パターン、データ・エンリッチメントおよび機械学習を使用して、大規模なリアルタイム情報を処理および分析します。ユーザーはライブ・チャート、マップ、ビジュアライゼーションを介してリアルタイム・データを探索でき、ハンド・コーディングなしでストリーミング・パイプラインをグラフィカルに構築できます。これらのパイプラインは、完全管理型のスケーラブルなサービスで実行され、最新の企業の重要なリアルタイム・ユース・ケースに対応します。

    • Oracle Cloud Infrastructure Data Flowは、インフラストラクチャをデプロイまたは管理することなくApache SparkおよびSpark Streamingアプリケーションを実行できる完全管理型のビッグ・データ・サービスです。運用を管理しなくてもアプリケーションに集中できるため、ビッグ・データとAIアプリケーションをより迅速に提供できます。データ・フロー・アプリケーションは、Sparkアプリケーションとその依存関係、デフォルト・パラメータおよびデフォルトの実行時リソース仕様で構成される再利用可能なテンプレートです。

  • オープン・ソース・エコシステム

    オープン・ソース・エコシステムを使用できます。

    • Hadoop、Spark、Flink、Trinoなどの一般的なオープン・ソース・エンジンを活用したバッチおよびストリーム処理用
    • Oracle Cloud Infrastructure Streamingをプロデューサとしてもコンシューマとしても使用
    • データを永続化し、データを消費できるOracle Cloud Infrastructure Object Storageを使用

    Oracle Cloud Infrastructure Object Storageをデータ・レイクとして使用すると、異なるOracle Cloud Infrastructureサービス間で共有するデータ・セットを異なるタイミングで保持できます。

    ビッグ・データ・サービスでは、他のテクノロジ間で完全に構成された、セキュアで高可用性の専用Hadoopクラスタ、SparkクラスタまたはFlinkクラスタがオンデマンドでプロビジョニングされます。Oracle Cloud Infrastructureの一連のコンピュート・シェイプを使用して、ビッグ・データと分析のワークロードに合うようにクラスタをスケーリングします。このコンピュート・シェイプは、小規模なテストや開発のクラスタから大規模な本番のクラスタまで、あらゆるものをサポートします。メトリックに基づくかスケジュールどおりかに関係なく、自動スケーリング構成を利用して、ビジネス需要に迅速に対応し、コストを最適化します。クラスタ・プロファイルを活用して、特定のワークロードまたはテクノロジに最適なクラスタを作成します。
  • バッチ処理

    バッチ処理は、データレイクハウスに格納されている大規模なデータセットを変換します。バッチ処理では、Oracle Cloud Infrastructure Object Storageとシームレスに統合されるOracle Cloud Infrastructureネイティブ・サービスを利用し、データの集計とエンリッチメント、データ・ウェアハウスの取込み、機械学習とAIデータの使用などのユースケース向けにキュレートされたデータを作成できます。

    • 前述のOracle Cloud Infrastructure Data Integrationは、フルマネージドのサーバーレス・クラウドネイティブ・サービスであり、様々なデータ・ソースからAutonomous Data WarehouseOracle Cloud Infrastructure Object StorageなどのターゲットOracle Cloud Infrastructureサービスにデータを抽出、ロード、変換、クレンジングおよび再シェイプします。

    • Oracle Cloud Infrastructure Data Flowは、インフラストラクチャをデプロイまたは管理することなくApache SparkおよびSpark Streamingアプリケーションを実行できる完全管理型のビッグ・データ・サービスです。運用を管理しなくてもアプリケーションに集中できるため、ビッグ・データとAIアプリケーションをより迅速に提供できます。データ・フロー・アプリケーションは、Sparkアプリケーションとその依存関係、デフォルト・パラメータおよびデフォルトの実行時リソース仕様で構成される再利用可能なテンプレートです。

    • Oracle Data Transformsは、選択したサポートされているテクノロジの抽出ロード変換(ELT)を可能にし、ユーザーが宣言的にデータ・フローおよびワークフローを構築およびスケジュールできるWebユーザー・インタフェースを使用して、データ・パイプラインの構成と実行を簡素化します。Oracle Data Transformsは、Oracle Autonomous Data Warehouse (ADW)内のフルマネージド環境として、複数のデータ・ソースからADWインスタンスにデータをロードおよび変換できます。

      ユース・ケースに応じて、これらのコンポーネントを個別または一緒に使用して、柔軟性とパフォーマンスの高いデータ処理を実現できます。

  • サービング

    Oracle Autonomous Data Warehouseは、データ・ウェアハウス・ワークロード用に最適化された、自動運転、自動保護および自動修復のデータベース・サービスです。ハードウェアの構成や管理、ソフトウェアのインストールを行う必要はありません。Oracle Cloud Infrastructureは、データベースの作成、バックアップ、パッチ適用、アップグレードおよびチューニングを処理します。

    プロビジョニング後はいつでも、可用性とパフォーマンスに影響を与えることなく、CPUコア数またはデータベースのストレージ容量をスケーリングできます。

    また、Oracle Autonomous Data Warehouseでは、オブジェクト・ストレージに存在するデータを外部およびハイブリッド・パーティション表として仮想化できるため、他のソースから導出されたデータをウェアハウス・データと結合して消費できます。また、履歴データをウェアハウスからオブジェクト・ストレージに移動し、ハイブリッド・パーティション表を使用してシームレスに消費することもできます。

    Oracle Autonomous Data Warehouseでは、データ・カタログに格納されている以前に収集されたメタデータを使用して外部表を作成できます。また、データ・カタログのメタデータ更新を外部表定義と自動的に同期して、一貫性を維持し、管理を簡素化し、労力を削減できます。

    ベクトルは、リレーショナル、JSON、空間、グラフなど、複数のデータ型をサポートするマルチモデル・データベースであるため、Autonomous Databaseでサポートされています。ベクトル・データ型を使用すると、ベクトル埋込みのロードと格納、および取得拡張生成(RAG)アプリケーションに使用できるベクトル索引の作成を、すべて単一のクラウドAutonomous Data Warehouseインスタンスで使用できます。このマルチモデル機能により、単一のクエリで結合できるすべてのデータ型を使用した分析が可能になるため、データ型ごとに特殊なサイロ化されたデータベースを使用する複雑さとリスクが軽減され、セキュリティ、信頼性、スケーラビリティが向上し、すべてのデータの分析が容易になります。

    Autonomous Database機能である「AI」を選択すると、LLMを使用して自然言語を使用してデータを問い合せて、ユーザーの入力テキストをOracle SQLに変換できます。「AI」を選択すると、自然言語プロンプトが処理され、プロンプトにメタデータが補足されてから、SQL問合せが生成および実行されます。

    Autonomous Database機能であるデータ共有を使用すると、Autonomous Databaseまたはデルタ共有準拠テクノロジを使用する他のパーティから、データおよびメタデータをセキュアに提供および消費できます。データ共有を使用すると、基礎となる共有表を抽象化するビューとして、共有プロバイダからのデータをシームレスに消費できます。また、受信者がライブ・データおよび最新データを消費できるようにするライブ共有は、プロバイダと受信者の両方がAutonomous Databaseを使用する場合に使用できます。

    Autonomous Database機能である分析ビューは、既存のデータベース表およびビューに格納されているデータの分析問合せをすばやく効率的に作成する方法を提供します。分析ビューは、ディメンション・モデルを使用してデータを編成します。これらを使用すると、集計および計算をデータ・セットに簡単に追加でき、比較的単純なSQLで問い合せることができるデータをビューに表示できます。この機能を使用すると、内部および外部に格納されているデータを使用して、ADWでスター・スキーマまたはスノーフレーク・スキーマをセマンティックに直接モデル化でき、SQLおよびSQL準拠のデータ・コンシューマを使用してモデルを使用できます。

    また、Autonomous DatabaseのコンポーネントであるAutonomous Data Lake Acceleratorは、オブジェクト・ストレージ・データをシームレスに消費し、処理を拡張して高速クエリを提供し、必要に応じてデータベース・コンピュート・インスタンスを自動スケーリングし、オブジェクト・ストレージ・クエリをデータベース・コンピュート・インスタンスから分離することで、データベース・ワークロードへの影響を減らすことができます。

  • クラウド・ストレージ

    Oracle Cloud Infrastructure Object Storageは、信頼性とコスト効率の高いデータ耐久性を実現する、インターネット規模の高パフォーマンス・ストレージ・プラットフォームです。Oracle Cloud Infrastructure Object Storageでは、分析データを含むすべてのコンテンツ・タイプの非構造化データを無制限に格納できます。インターネットから直接、またはクラウド・プラットフォーム内から、安全かつセキュアにデータを格納または取得できます。複数の管理インタフェースにより、パフォーマンスやサービスの信頼性を低下させることなく、小規模から始めてシームレスに拡張できます。

    Oracle Cloud Infrastructure Object Storageは、使用頻度が低いデータを格納し、Oracle Autonomous Data Warehouseのハイブリッド表を使用して最新データとシームレスに結合することで、データ・ウェアハウスのコールド・ストレージ・レイヤーとしても使用できます。

    オブジェクト・レベルのきめ細かいアクセス制御は、オブジェクトに対するIAMポリシーを使用して適用できるため、データレイクの直接アクセスのデータ・セキュリティが向上します。

  • 視覚化と学習

    Oracle Analytics Cloudはスケーラブルでセキュアなパブリック・クラウド・サービスであり、コラボラティブ・アナリティクスを探索および実行する完全な機能をユーザー、ワークグループおよびエンタープライズに提供します。市民データ・サイエンティスト、高度なビジネス・アナリストのトレーニング、機械学習(ML)モデルの実行をサポートします。機械学習モデルは、Oracle Cloud Infrastructure Visionなどの倉庫およびOCI AIサービスの処理能力、スケーラビリティおよび柔軟性を活用する大規模なバッチ予測のためのOML埋込みモデルとして、分析サービス上またはOracle Autonomous Data Warehouse上で直接実行できます。

    Oracle Analytics Cloudには、迅速なセットアップ、簡単なスケーリングとパッチ適用、自動ライフサイクル管理など、柔軟なサービス管理機能も用意されています。

  • 学習と予測

    • データ・サイエンスは、データ・サイエンス・チームがOracle Cloud Infrastructureで機械学習(ML)モデルを作成、トレーニングおよび管理するためのインフラストラクチャ、オープン・ソース・テクノロジ、ライブラリ、パッケージおよびデータ・サイエンス・ツールを提供します。コラボレーティブおよびプロジェクト駆動のワークスペースは、エンドツーエンドの一貫性のあるユーザー・エクスペリエンスを提供し、予測モデルのライフサイクルをサポートします。データ・サイエンスを使用すると、データ・サイエンティストや機械学習エンジニアはAnacondaリポジトリから直接パッケージを無料でダウンロードしてインストールできるため、機械学習ライブラリの厳選されたデータ・サイエンス・エコシステムを使用してプロジェクトを革新できます。

      データ・サイエンス・ジョブ機能により、データ・サイエンティストは、完全管理インフラストラクチャで繰返し可能な機械学習タスクを定義して実行できます。

      データ・サイエンス・モデル・デプロイメント機能を使用すると、データ・サイエンティストは、トレーニング済モデルを完全に管理されたHTTPエンドポイントとしてデプロイできます。このエンドポイントでは、リアルタイムで予測を提供し、インテリジェンスをプロセスおよびアプリケーションに注入し、関連するイベントが発生したときにビジネスが対応できるようにします。

    • Oracle Machine Learningは、PythonおよびAutoMLをサポートし、Autonomous Databaseに緊密に統合された強力な機械学習機能を提供します。オープン・ソースとスケーラブルなデータベース内アルゴリズムを使用してモデルをサポートし、データの準備と移動を減らします。AutoMLは、自動アルゴリズム選択、適応型データ・サンプリング、自動機能選択および自動モデル・チューニングを使用して、データ・サイエンティストが会社の機械学習イニシアチブの価値実現までの時間を短縮するのに役立ちます。Oracle Autonomous Data Warehouseで使用可能なOracle Machine Learningサービスでは、モデルを管理できるだけでなく、これらのモデルをRESTエンドポイントとしてデプロイして、企業内のリアルタイム予測を民主化することで、関連イベントに事後ではなく発生したときにビジネスが対応できるようにすることもできます。

  • AIおよび生成AIサービス

    Oracle Cloud Infrastructure AIサービスは、テキスト分析から予測メンテナンスまで、さまざまなユースケースをサポートするために使用できる、すぐに使用できる一連のAIサービスを提供します。これらのサービスには、APIを使用してデータ・パイプライン、分析およびアプリケーションに統合できる、事前構築済で細かく調整されたモデルがあります。

    • Oracle Cloud Infrastructure Languageは、高度なテキスト分析と翻訳を大規模に実行します。事前トレーニング済モデルとカスタム・モデルにより、開発者はデータ・サイエンスの専門知識がなくても、非構造化テキストを処理し、インサイトを抽出できます。センチメント分析、キー・フレーズ抽出、テキスト分類、名前付きエンティティ認識を実行し、テキスト内のPIIデータを検出します。ドメイン固有のタスクに合わせてモデルを調整し、さまざまな言語にテキストを簡単に翻訳します。Oracle Cloud Infrastructure Languageでは、大量のワークロードを効率的に処理するためのドキュメント変換および非同期ジョブもサポートされます。

    • Oracle Cloud Infrastructure Speechは、人間の音声を含むメディア・ファイルを非常に正確なテキスト・トランスクリプションに簡単に変換できるようにすることで、話し言葉の力を活用します。OCI Speechを使用すると、カスタマ・サービス・コールの文字化、サブタイトルの自動作成、メディア・アセットのメタデータの生成が行われ、完全に検索可能なアーカイブを作成できます。OCI Speechは、バッチおよびライブ・トランスクリプション・ジョブをサポートします。
    • OCI Visionは、イメージの分類、オブジェクトと顔の検出、テキストの抽出などのイメージ認識およびビデオ分析タスクを実行します。事前トレーニング済モデルを活用することも、業界および顧客固有のシナリオに対してカスタム・ビジョン・モデルを簡単に作成することもできます。OCI Visionは、完全に管理されたマルチテナントのネイティブ・クラウド・サービスであり、一般的なすべてのコンピュータ・ビジョン・タスクを支援します。

    • Oracle Cloud Infrastructure Document Understandingは、テキスト、キー値、表の抽出など、ドキュメント分類およびドキュメント分析タスクを実行します。OCI Document Understandingサービスは、一般的なすべてのドキュメント分析タスクを支援する、フルマネージドのマルチテナント・ネイティブ・クラウド・サービスです。
    • Oracle Cloud Infrastructure Generative AIは、チャット、テキスト生成、要約、テキスト埋め込みの作成など、幅広いユースケースをカバーする、最先端のカスタマイズ可能な大規模言語モデル(LLM)のセットを提供するフルマネージドです。プレイグラウンドを使用して、使いやすい事前トレーニング済モデルを試すか、専用AIクラスタ上の独自のデータに基づいて独自のファインチューニング済カスタム・モデルを作成およびホストします。
  • データ・エンリッチメント

    データ・エンリッチメントは、機械学習モデルのトレーニングに使用されるデータを改善して、より適切で正確な予測結果を達成できます。

    Oracle Cloud Infrastructure Data Labelingでは、AI/MLモデルの構築を目的として、データ・セットの作成と参照、データ・レコード(テキストまたはイメージ)の表示およびラベルの適用を行うことができます。このサービスには、ラベル付けプロセスに役立つように設計された対話型ユーザーインタフェースも用意されています。レコードにラベルを付けた後、データ・セットは、AI/MLモデル開発で使用するために行区切りのJSONとしてエクスポートできます。
  • 検索

    検索機能は補完的な機能として使用され、事前に索引付けされた運用分析データを必要とするエンド・ユーザーにデータを公開して、低レイテンシで提供できます。

    Oracle Cloud Infrastructure Search with OpenSearchは、分散型でフルマネージド型のメンテナンスフリーの全文検索エンジンです。OpenSearchを使用すると、高速なレスポンス時間で大量のデータをすばやく格納、検索および分析できます。このサービスは、オープン・ソースのOpenSearch APIおよびOpenSearchダッシュボード・データ・ビジュアライゼーションをサポートしています。
  • ストリーミング・アナリティクス

    ストリーミング分析は、データレイクハウスに保存されているキュレートされたマスターデータで状況に即したストリームデータをリアルタイムで分析し、関心のあるパターンを検出して、ユーザー、アプリケーション、および物事に役立てることができるダッシュボードを提供します。

    Oracle Cloud Infrastructure GoldenGate Stream Analyticsは、高度な相関パターン、データ・エンリッチメントおよび機械学習を使用して、大規模なリアルタイム情報を処理および分析します。ユーザーは、ライブ・チャート、マップ、ビジュアライゼーションを使用してリアルタイム・データを探索し、ハンド・コーディングなしでストリーミング・パイプラインをグラフィカルに構築できます。これらのパイプラインは、完全管理型のスケーラブルなサービスで実行され、最新の企業の重要なリアルタイム・ユース・ケースに対応します。

  • ETL/ライトバックの戻し処理

    リバースETL(ライトバックと呼ばれることもあります)は、運用システムやデバイスへのデータのアクティブ化を可能にし、データから導出されたインテリジェンスを、ビジネス・プロセスをサポートするために使用されるアプリケーションおよびデバイスに直接注入できるようにします。

    データは、ほぼリアルタイムで分離された大量の消費者が情報を同時に取得することをサポートするストリームおよびキューを介して、いくつかのメカニズムを使用してコンシューマに提供されます。回復性とスケーラビリティを向上させるために、アプリケーションまたはデータ統合を介して、事前組込みアダプタを介してデータをプッシュするか、サーバーレス関数を介して、ほぼすべてのアプリケーションまたはデバイスのエンドポイントを呼び出します。

    • Oracle Cloud Infrastructure Streamingサービスは、完全に管理されたスケーラブルで耐久性の高いストレージ・ソリューションを提供し、連続した大量のデータ・ストリームを収集してリアルタイムで消費および処理できます。ストリーミングは、メッセージング、大容量アプリケーション・ログ、運用テレメトリ、Webクリック・ストリーム・データ、またはデータが継続的かつ連続的に生成および処理されるその他のパブリッシュ/サブスクライブ・メッセージング・モデルのユースケースに使用できます。

    • Oracle Cloud Infrastructure Queueは、システムを切断し、非同期操作を有効にするのに役立つ完全な管理対象サーバーレス・サービスです。キューは、損失または重複なしで個別に処理されたメッセージを必要とする大量のトランザクション・データを処理します。

    • Oracle Integration Cloudは、クラウドとオンプレミスのアプリケーションの統合、ビジネス・プロセスの自動化、ビジュアル・アプリケーションの開発、SFTP準拠のファイル・サーバーを使用したファイルの格納と取得、およびOracleおよびサードパーティ・アプリケーションとの接続のための数百のアダプタとレシピのポートフォリオを使用したB2B取引パートナとのビジネス・ドキュメントの交換を可能にする、完全管理型の事前構成済環境です。

    • Oracle Data Transformsは、選択したサポートされているテクノロジに対してELTを有効にし、ユーザーが宣言的にデータ・フローおよびワークフローを構築およびスケジュールできるWebユーザー・インタフェースを使用して、データ・パイプラインの構成と実行を簡素化します。Oracle Data Transformsは、Oracle Autonomous Data Warehouse (ADW)内の完全管理環境として、複数のデータ・ソースからADWインスタンスへのデータのロードおよび変換に使用できます。

    • Oracle Cloud Infrastructure Functionsは、完全に管理された、マルチテナントのスケーラビリティが高いオンデマンドのFunction as a Serviceプラットフォームです。エンタープライズグレードのOracle Cloud Infrastructure上に構築されており、Fn Projectオープン・ソース・エンジンによって強化されています。

  • API

    APIレイヤーを使用すると、データ・サイエンスおよびOracle Machine Learningから導出されたインテリジェンスを、アプリケーション、ビジネス・プロセスおよび操作と機能に影響を与え、向上させるものに注入できます。APIレイヤーは、データ・サイエンスがデプロイしたモデルをOracle Machine Learning RESTエンドポイントに安全に使用し、システムを管理してランタイム環境の可用性を確保する機能を提供します。また、関数を利用して、必要に応じて追加のロジックを実行することもできます。

    • Oracle Cloud Infrastructure APIゲートウェイでは、ネットワーク内からアクセスできるプライベート・エンドポイントとともに、インターネット・トラフィックを受け入れる場合にパブリックIPアドレスで公開できるAPIを公開できます。エンドポイントは、API検証、リクエストとレスポンスの変換、CORS、認証と認可およびリクエスト制限をサポートします。APIの可観測性により、使用状況を監視し、SLAを保証できます。使用プランは、APIにアクセスするAPIコンシューマおよびAPIクライアントを監視および管理し、APIを使用して消費されるデータ使用状況を追跡するために、様々な顧客に対して異なるアクセス層を設定するためにも使用できます。使用プランは、データの収益化をサポートする重要な機能です。

    • Oracle Cloud Infrastructure Functionsは、完全に管理された、マルチテナントのスケーラビリティが高いオンデマンドのFunction-as-a-Serviceプラットフォームです。エンタープライズグレードのOracle Cloud Infrastructure上に構築されており、Fn Projectオープン・ソース・エンジンによって強化されています。

    • Oracle REST Data Services (ORDS)は、SQLおよびデータベースのスキルを持つ開発者がOracle DatabaseのREST APIを開発できるようにするJavaアプリケーションです。すべてのアプリケーション開発者は、クライアント・ドライバのインストールやメンテナンスを行うことなく、最も広く使用されているAPIテクノロジであるRESTを使用して他の外部サービスにアクセスする場合と同じ方法で、任意の言語環境からこれらのAPIを使用できます。ORDSは、ADWで完全に管理された機能としてデプロイされ、APIを使用してデータ・コンシューマにレイクハウス情報を公開するために使用できます。

  • データ・ガバナンス

    Oracle Cloud Infrastructure Data Catalogは、メタデータやそれぞれの属性などの技術アセットが存在する場所を可視化し、その技術メタデータにマップされたビジネス用語集を維持する機能を提供します。データ・カタログは、データ・ウェアハウスでの外部表の作成を容易にするために、Oracle Autonomous Data Warehouseのメタデータを提供することもできます。

  • データ・セキュリティ

    データ・セキュリティは、レイクハウス・データを最大限に調査して使用するために重要です。ゼロトラスト・セキュリティ・モデルと多層防御およびRBAC機能を活用し、最も厳しい規制へのコンプライアンスを確保することで、データ・セキュリティは、データの漏洩や漏洩を防止するための予防、検出および修正のセキュリティ制御を提供します。

    • Oracle Data Safeは、データ・セキュリティに焦点を当てた完全統合型のOracle Cloudサービスです。これは、Oracle Cloudデータベース(Oracle Autonomous Data Warehouseなど)の機密データおよび規制対象データを保護するための完全で統合された機能セットを提供します。セキュリティ評価、ユーザー評価、データ検出、データ・マスキングおよびアクティビティ監査などの機能があります。

    • Oracle Cloud Infrastructure Auditでは、Oracle Cloud Infrastructure (OCI)リソースおよびテナンシに関連するアクティビティを把握できます。監査ログ・イベントをセキュリティ監査に使用して、OCIリソースの使用状況や変更点を追跡したり、標準および規制へのコンプライアンスを保証できます。

    • Oracle Cloud Infrastructure Loggingは、監査ログを含む、テナンシ内のすべてのログのための高度にスケーラブルでフル管理の単一のインタフェースを提供します。OCIロギングを使用して、すべてのOCIリソースのログにアクセスし、それらを有効に、管理および検索できるようにします。

    • Oracle Cloud Infrastructure Vaultは、暗号化キーとシークレットを格納して管理し、リソースに安全にアクセスできる暗号化管理サービスです。保存データの保護を強化するために、顧客管理キーをOracle Autonomous Data Warehouseおよびデータレイク暗号化に使用できます。セキュリティ・ポスチャを改善し、資格証明が危険にさらされて不適切に使用されないようにするために、シークレットがサービスとユーザー資格証明を安全に格納できるようにします。

物理アーキテクチャ

このデータ・レイクハウスの物理アーキテクチャでは、次のものがサポートされています。

  • データは、マイクロ・バッチ、ストリーミング、API、およびリレーショナル・データ・ソースと非リレーショナル・データ・ソースからのファイルを使用して安全に取り込まれます。
  • データは、Oracle Cloud Infrastructure Data IntegrationOracle Cloud Infrastructure Data Flowの組合せを使用して処理されます
  • データはOracle Autonomous Data WarehouseおよびOracle Cloud Infrastructure Object Storageに格納され、品質と価値に従って編成されます
  • Oracle Autonomous Data Warehouseは、倉庫およびレイクのデータ・サービスを消費者に安全に提供
  • Oracle Analytics Cloudは、ビジュアライゼーションを使用してデータをビジネス・ユーザーに表示します
  • Oracle Analytics Cloudは、Oracle Cloud Infrastructure Web Application Firewall (WAF)によって保護されているOracle Cloud Infrastructure Load Balancingを使用して公開され、インターネットを使用してアクセスを提供します。
  • Oracle Cloud Infrastructure Data Scienceは、機械学習(ML)モデルの構築、トレーニング、導入に使用されます。
  • Oracle Cloud Infrastructure API Gatewayは、データ・サイエンスMLモデル・デプロイメントを管理するために利用されます
  • Oracle Cloud Infrastructure Data Catalogは、Oracle Autonomous Data Warehouseおよびオブジェクト・ストレージからメタデータを収集します
  • Oracle Data Safeは、データに対するリスクの評価、セキュリティ制御の実装と監視、ユーザー・セキュリティの評価、ユーザー・アクティビティのモニター、およびデータ・セキュリティ・コンプライアンス要件への対処を行います
  • Oracle Cloud Infrastructure Bastionは、管理者がプライベート・クラウド・リソースを管理するために使用されます

次の図は、このリファレンス・アーキテクチャを示しています。



レイクハウス・アーキテクチャ-oracle.zip

物理アーキテクチャの設計:

  • 2つのSCN(ハブ用とワークロード自体用)を利用します。
  • オンプレミスの接続では、Oracle Cloud Infrastructure FastConnectとサイト間VPNの両方を活用して冗長性を確保しています
  • オンプレミスおよびインターネットからのすべての受信トラフィックは、最初にハブVCNにルーティングされ、次にワークロードVCNにルーティングされます
  • すべてのデータは転送中および保存中に保護されます。
  • サービスはプライベート・エンドポイントとともにデプロイされ、セキュリティ状態が向上します。
  • VCNは、セキュリティ・ポスチャを高めるために複数のプライベート・サブネットに分離されています
  • レイク・データは、Medallionアーキテクチャを活用してオブジェクト・ストレージの複数のバケットに分離されます。

シンプルさのために、このデプロイメントでは説明されていない潜在的な設計の改善には、次のものがあります。

  • 完全なCIS準拠ランディング・ゾーンの活用
  • ネットワーク・ファイアウォールを活用して、すべてのトラフィックを検査し、ポリシーを適用することでセキュリティ体制全体を改善

レコメンデーション

ストリーミング・データを処理するための出発点として、ビジネス分析と機械学習のための幅広いエンタープライズ・データ・リソースとして、次の推奨事項を使用します。

お客様の要件は、ここで説明するアーキテクチャとは異なる場合があります。

  • Oracle Autonomous Data Warehouse

    このアーキテクチャは、共有インフラストラクチャ上でOracle Autonomous Data Warehouseを使用します。

    • 自動スケーリングを有効にして、データベース・ワークロードの処理能力を最大3倍にします。
    • パブリック・クラウドで実行されているプライベート・データベース・クラウド環境内のセルフサービス・データベース機能が必要な場合は、専用インフラストラクチャでOracle Autonomous Data Warehouseを使用することを検討してください。
    • Autonomous Data Warehouseのハイブリッド・パーティション表機能を使用して、データのパーティションをOracle Cloud Infrastructure Object Storageに移動し、ユーザーとアプリケーションに透過的に提供することを検討してください。この機能は、頻繁に使用されず、Autonomous Data Warehouseに格納されているデータと同じパフォーマンスを必要としないデータに使用することをお薦めします。
    • 外部表機能を使用して、Autonomous Data Warehouseにレプリケートしなくても、Oracle Cloud Infrastructure Object Storageに格納されているデータをリアルタイムで使用することを検討してください。この機能は、フォーマット(parquet、avro、orc、json、csvなど)に関係なく、Autonomous Data Warehouseの外部でキュレートされたデータ・セットを透過的かつシームレスに結合し、Autonomous Data Warehouseに存在するデータと結合します。
    • リアルタイム分析および混合ワークロードのパフォーマンスを大幅に向上させるために、データベース・インメモリー機能を使用することを検討してください。レイクハウス・データを、低レイテンシで提供する必要があり、ADW内部表、ハイブリッド・パーティション表または外部表に存在するメモリーにロードします。
    • オブジェクト・ストレージ・データを消費する際にAutonomous Data Lake Acceleratorを使用することを検討し、データ・ウェアハウスとデータ・レイク間でデータを消費および結合するユーザーに、改善された高速なエクスペリエンスを提供してください。
    • ベクトル埋込みをリレーショナル・データやJSONデータなどの他のデータ型とともにAutonomous Data Warehouseに格納して、すべてのデータに対するデータ・エンジニアリングと分析を簡素化し、すべてのデータを使用してRAGエージェントを効率的にアースすることを検討してください。
    • Select AIをアクセラレータとして使用して、データ・エンジニアリング、ビジネス・インテリジェンス、アプリケーション開発、またはSQLの作成が必要なタスクで使用できるシンプルで複雑なSQLを作成することを検討してください。
    • アプリケーション層をさらに簡素化するために、ローコード・アプリケーションでSelect AIを使用することを検討してください。
    • 分析ビューを使用して、DWスターまたはスノーフレークの基礎となるスキーマをADWで直接セマンティックにモデル化することを検討してください。これにより、詳細なデータが事前に集計する必要なく自動的に集計されます。セマンティック・モデルは、SQLをOracle Analytics Cloudを含むSQL準拠のクライアントと一貫して使用し、事実とKPIを保証します。クライアントに関係なく一貫して提供され、ADWまたはObject Storageに格納されているかどうかに関係なく、セマンティック・モデルですべてのデータを使用できます。これにより、この機能は、ファクトとディメンションがDWとレイクの両方を横断できるレイクハウス・アーキテクチャに最適なセマンティック・モデリング・レイヤーになります。
    • 会社または規制ポリシーのためにADW暗号化キーを完全に制御する必要がある場合は、Vaultサービスを利用して顧客管理キーを使用することを検討してください。
    • ADWでDatabase Vaultを使用して、権限のない特権ユーザーが機密データにアクセスできないようにし、データ漏洩やデータ漏洩を防止することを検討してください。
    • Autonomous Data Guardを使用して、同じリージョンまたは別のリージョンのスタンバイ・インスタンスでレプリケートされたデータを設定および保持して、ビジネス継続性計画をサポートすることを検討してください。
    • データ・リダクションで動的データ・マスキングを使用して、ユーザーのロールに応じてマスキングされたデータを提供するため、データの複製や静的マスキングを必要とせずに適切なデータ・アクセスを保証することを検討してください。
    • ADWクローンを使用して、他の一時環境または非一時環境を迅速に作成することを検討してください。ターゲット環境に最新のデータが必要な場合は、リフレッシュ可能クローンを使用します。Oracle Data Safeを使用して、セキュリティを強化するためにクローン内の機密データを静的にマスクします。
    • データ共有を、他のAutonomous DatabaseインスタンスまたはDelta Sharing準拠テクノロジのいずれかで、セキュアで簡単なデータ消費および提供方法として使用することを検討してください。
    • Autonomous Databaseインスタンス間のライブ・データ共有を使用して、データをリアルタイムで消費および提供することを検討してください。
    • バージョン管理されたデータ共有を使用して、コンシューマとデータを共有することを検討してください。これにより、データはプロバイダではなくコンシューマによって処理されるため、データの問合せコストが回避されます。
    • コンシューマがDelta Sharingをサポートしていないユース・ケースで非機密データを共有できるようにするには、ADWでの読取り専用で時間制限のあるデータ・アクセスに事前認証済リクエストURLを使用することを検討してください。
  • オブジェクト・ストレージ/データ・レイク

    このアーキテクチャでは、非常にスケーラブルで耐久性の高いクラウド・ストレージであるOracle Cloud Infrastructure Object Storageをレイク・ストレージとして使用します。

    • メダリオン・アーキテクチャ(ブロンズ、シルバー、ゴールド)またはその他のパーティショニング・ロジックを活用して、品質とエンリッチメントに基づいてデータを分離し、データを読み取る消費者にきめ細かいセキュリティを適用し、様々な層に異なるライフサイクル管理ポリシーを適用することで、レイクを様々なバケット・セットに編成することを検討してください。
    • レイク・データを大規模に保存するコストを最適化するために、さまざまなオブジェクト・ストレージ層とライフサイクル・ポリシーの使用を検討してください。
    • 会社または規制ポリシーのためにオブジェクト・ストレージ暗号化キーを完全に制御する必要がある場合は、Vaultサービスを利用して顧客管理キーを使用することを検討してください。
    • オブジェクト・ストレージ・レプリケーションを使用して、別のリージョンへのバケット・レプリケーションを設定することで、ビジネス継続性計画をサポートすることを検討してください。Object Storageの耐久性は非常に高く、同じリージョン・バケット・レプリケーションでリカバリするために同じオブジェクトの複数のコピーを単一リージョンに保持するため、必要ありません。
    • オブジェクト名またはパターンを使用してオブジェクトに対してOracle Cloud Infrastructure Identity and Access Management (IAM)ポリシーを使用し、データレイクの直接アクセスのデータ・セキュリティを強化することを検討してください。
    • Oracle Cloud Infrastructure Object Storageのプライベート・エンドポイントを使用して、データ・プラットフォームVCNからデータ・レイクへのセキュアでプライベートなアクセスを確保することを検討してください。
    • ネットワーク・ソースおよびIAMポリシーを使用して、データ・レイク・バケットおよびオブジェクトへのアクセスを許可されているIPアドレスを管理することを検討してください。
    • pythonベースのユーティリティであるOCIFSを使用して、Oracle Cloud Infrastructure Object Storageバケットをファイル・システムとしてマウントし、NFSでのみ動作し、ファイルをオブジェクト・ストレージにアップロードする必要があるアプリケーションのサポートを有効にすることを検討してください。
  • Oracle Machine LearningおよびOracle Cloud Infrastructure Data Science

    このアーキテクチャでは、Oracle Machine LearningOracle Cloud Infrastructure Data Scienceを活用して、人とアプリケーションにリアルタイムで予測を実行し、提供します。

    • OCI Data ScienceまたはOracle Machine LearningでAutoMLを使用して、MLモデル開発を高速化することを検討してください。
    • 相互運用性のためにOpen Neural Networks Exchange (ONNX)を使用することを検討してください。ONNXサード・パーティ・モデルは、OMLにデプロイしてRESTエンドポイントまたはOCIデータ・サイエンスに公開し、HTTPエンドポイントとして公開できます。
    • リアルタイムのデータ・パイプラインでスコアリングと予測を実行して、リアルタイムのビジネス成果を推進できるタイムリーな予測を行う必要がある場合は、OCI Data ScienceでモデルをONNXとして保存し、OCI GoldenGate Stream Analyticsにインポートすることを検討してください。
    • OCI Data Science Conda環境を使用して、Jupyterノートブック・セッション内のPython依存関係の管理とパッケージ化を改善することを検討してください。OCI Data Science内のAnaconda厳選されたパッケージ・リポジトリを活用して、お気に入りのオープンソース・ツールを使用してモデルを構築、トレーニングおよびデプロイします。
    • Oracle Cloud Infrastructure Data Science AI Quick Actionsを使用して、OCI Data Scienceの基盤モデルをデプロイ、評価および微調整することを検討してください。モデル・エクスプローラで利用可能なキュレートされたオープン・ソースのLLMを操作するか、独自のモデルを持ち込みます。
    • Accelerated Data Science Pythonパッケージで使用可能なデータ・サイエンス・ローコードAI演算子を使用して、予測を迅速かつ効率的に実行したり、異常検出を行ったり、推奨機能を構築することを検討してください。
    • データ・サイエンス・ジュピター環境内でOCIデータ・フローを使用して、Sparkスケール・アウト処理を利用して探索的データ分析、データ・プロファイリングおよびデータ準備を大規模に実行することを検討してください。
    • データ・ラベリングを使用してイメージ、テキスト、ドキュメントなどのデータにラベルを付け、それを使用してOCI Data ScienceまたはOCI AI Services上に構築されたMLモデルをトレーニングし、予測の精度を向上させることを検討してください。
    • リアルタイム予測がパートナおよび外部エンティティによって消費されている場合、デプロイ済モデルの使用を保護および制御するためにAPIゲートウェイをデプロイすることを検討してください。
  • Oracle Cloud Infrastructure Data Integration

    このアーキテクチャでは、Oracle Cloud Infrastructure Data Integrationを使用して、宣言型、コードなし、ローコードのETLおよびデータ・パイプライン開発をサポートします。

    • Oracle Cloud Infrastructure Data Integrationを利用して、Oracle Cloud Infrastructure Data Flowアプリケーションの実行を調整およびスケジュールし、宣言ETLとカスタムSparkコード・ロジックを混在させて照合できます。Oracle Cloud Infrastructure Data Integration内の関数を使用して、データ・パイプラインの機能をさらに拡張します。
    • ADWをターゲットとする変換にSQLプッシュダウンを使用して、ETLと比較して効率的でパフォーマンスが高く安全なELTアプローチを使用することを検討してください。
    • データ・ソースのスキーマ変更を維持する、より回復力があり、将来を見据えたデータ・パイプラインを確保するために、OCIデータ統合がデータ・ソースのスキーマ・ドリフトを処理できるようにすることを検討してください。
  • Oracle Cloud Infrastructure Data Flow

    このアーキテクチャでは、Oracle Cloud Infrastructure Data Flowを使用して、永続的なクラスタを持ち、管理することなく、大規模なSparkおよびSparkストリーミング処理をサポートします。

    • Oracle Cloud Infrastructure Data CatalogOracle Cloud Infrastructure Data FlowのHiveメタストアとして使用して、Oracle Cloud Infrastructure Object Storageなどの非構造化データ・アセットおよび半構造化データ・アセット内のオブジェクトのスキーマ定義を安全に格納および取得することを検討してください。
    • レイク・データにACIDトランザクションとストリーミングおよびバッチ処理の統合が必要な場合は、OCIデータ・フローでDelta Lakeを使用することを検討してください。
  • ビッグ・データ・サービス

    このアーキテクチャでは、Oracle Cloud Infrastructure ビッグ・データ・サービスを活用して、バッチおよびストリーミング・データを処理できるSpark、Hadoop、Trino、Flinkなど、様々なオープン・ソース・テクノロジの高可用性でスケーラブルなクラスタをデプロイします。ビッグ・データ・サービスは、HDFSにデータを永続化し、Oracle Cloud Infrastructure Object Storageからデータを永続化および読み取り、データ・セットをOracle Cloud Infrastructure Data FlowOracle Autonomous Data Warehouseなどの他のOracle Cloud Infrastructureサービスと交換できます。

    • 自動スケーリングを使用して、メトリックまたはスケジュールに基づいてワーカー・ノードを水平または垂直に自動的にスケーリングし、リソースの需要に基づいてコストを継続的に最適化することを検討します。
    • オブジェクト・ストレージのOCI HDFSコネクタを使用して、オブジェクト・ストレージとの間でデータの読取りおよび書込みを行うことを検討してください。これにより、他のOCIサービスと共有されているデータをレプリケートおよび複製する必要なく生成/使用するためのメカニズムが提供されます。
    • レイク・データにACIDトランザクションとストリーミングおよびバッチ処理の統合が必要な場合は、OCI BDSでDelta Lakeを使用することを検討してください。
    • 他のオープン・ソース・ソフトウェアを使用する必要がある場合は、Oracle Cloud Infrastructure Registry、コンテナ・インスタンスまたはOracle Cloud Infrastructure Kubernetes Engineを使用して、コンテナ化可能なオープン・ソース・ソフトウェアをデプロイすることを検討してください。
  • Oracle Cloud Infrastructureストリーミング

    このアーキテクチャでは、Oracle Cloud Infrastructure Streamingを利用して、ソースからストリーミング・データを消費し、コンシューマにストリーミング・データを提供します。

    Oracle Cloud Infrastructure Service Connector Hubを活用して、Oracle Cloud Infrastructure Streamingからデータを移動し、Oracle Cloud Infrastructure Object Storageに保持して、さらに履歴データ分析をサポートすることを検討してください。

  • Oracle Analytics Cloud

    このアーキテクチャでは、Oracle Analytics Cloud (OAC)を活用して、拡張分析をエンド・ユーザーに提供します。

    OCI AIサービス(言語およびVisionモデル)およびOML(任意のモデル)との事前構築済の統合OACを活用して、エンド・ユーザーが消費するデータ・フローおよびビジュアライゼーションにインテリジェンスを組み込み、AIおよびMLの消費を民主化することを検討してください。

  • Oracle Cloud Infrastructure AIサービス

    このアーキテクチャでは、デプロイされたユース・ケースに応じて、Oracle Cloud Infrastructure AIサービスを活用できます。

    データ・ラベリングを使用して、Vision、Document Understanding、LanguageなどのAIサービスのより正確な予測を調整および取得するために使用されるトレーニング・データにラベルを付けることを検討してください。

  • Oracle Cloud Infrastructure Generative AIサービス

    このアーキテクチャでは、デプロイされたユース・ケースに応じて、Oracle Cloud Infrastructure Generative AIサービスを活用できます。

    • 事前トレーニング済LLMを使用してテキスト生成、会話、データ抽出、要約、分類、スタイル転送またはセマンティック類似性に対処し、生成AIをパイプラインおよびプロセスに迅速に埋め込むオンデマンド・プレイグラウンドおよびAPIの使用を検討してください。
    • 専用AIクラスタを使用して、基盤のLLMをデータに効率的に適応させ、微調整し、完全な分離とデータ・セキュリティを確保することを検討してください。
    • コスト効率のために、組織全体のさまざまなチーム内で専用AIクラスタをホストすることを検討してください。単一のクラスタを使用して複数のカスタム・モデルをホストでき、そのすべてを独立したエンドポイントで処理でき、専用のIAMポリシーで保護できます。
  • APIゲートウェイ

    このアーキテクチャでは、API Gatewayを利用して、データ・サービスとリアルタイム推論をデータ・コンシューマに安全に公開します。

    • Oracle Cloud Infrastructure Functionsを使用して、最終的にデータ処理およびアクセスおよび解釈レイヤーの範囲外の特定のAPI処理をサポートするために必要なランタイム・ロジックを追加することを検討してください。
    • 使用プランを使用して、APIへのサブスクライバ・アクセスの管理、API消費の監視と管理、様々なコンシューマに対する様々なアクセス層の設定、および外部請求システムに提供できる使用メトリックの追跡によるデータ収益化のサポートを行うことを検討してください。
  • Oracle Cloud Infrastructure Data Catalog

    プラットフォームに格納およびフローするデータの完全で包括的なエンドツーエンドのビューを得るには、データ永続性レイヤーをサポートするデータ・ストアだけでなく、ソース・データ・ストアも収集することを検討してください。収集されたこの技術メタデータをビジネス用語集にマップし、カスタム・プロパティでエンリッチすることで、ビジネス概念をマップし、セキュリティおよびアクセス定義を文書化および管理できます。

    • Oracle Cloud Infrastructure Object Storageに格納されているデータを仮想化するOracle Autonomous Data Warehouse外部表の作成を容易にするには、Oracle Cloud Infrastructure Data Catalogによって以前に収集されたメタデータを活用します。これにより、外部表の作成が簡素化され、データ・ストア間でメタデータの一貫性が確保され、ヒューマン・エラーの影響を受けにくくなります。
    • Oracle Cloud Infrastructure Data IntegrationおよびOracle Cloud Infrastructure Data Flowの系統追跡を使用して、データの取り込み、変換および格納方法を表示することを検討してください。対象範囲を拡大するには、APIベースの取込みを使用して、OpenLineageオープン・フレームワークを活用し、あらゆるソースおよびシステムの系統を追跡します。
  • Oracle Cloud Infrastructure Data Transferサービス

    パブリック・インターネット接続を使用したデータのアップロードができないときは、Oracle Cloud Infrastructure Data Transferサービスを使用します。パブリック・インターネットでのデータのアップロードに1-2週間以上かかる場合は、Data Transferの使用を検討することをお薦めします。

  • データ・セーフおよび監査

    監査機能やアラート機能を活用してセキュリティ体制を強化することで、データ漏洩を防止し、データ漏洩があった場合にフォレンジック分析を実行できます。

    • Oracle Data Safeを使用してデータ・ウェアハウスのアクティビティを監査することを検討し、Oracle Cloud Infrastructure Auditを使用してレイク・データへのトラフィックを監査することを検討してください。
    • Oracle Data Safeを使用してADW上の機密データを検出し、非本番環境のADWクローンを作成するときに静的にマスクすることを検討して、セキュリティ・リスクを回避します。
    • Oracle Data Safe SQL FirewallをADWとともに使用して、データ・セキュリティ状態を高め、SQLインジェクション攻撃や侵害されたアカウントなどのリスクから保護することを検討してください。
  • デプロイと自動化

    この物理アーキテクチャは、Infrastructure as Code(IaC)自動化を使用してデプロイされ、データ・レイクハウスをデプロイするリソースを作成します。

    Oracle Cloud Infrastructure Resource Managerでは、デプロイ可能なクラウド・リソースのTerraformスタックの作成、インフラストラクチャ構成の共有と管理、および複数のチームとプラットフォームにわたる状態ファイルの共有が可能です。Oracle Cloud Infrastructure Resource Managerを使用して、非本番環境作成用のデプロイメント・スタックを作成し、追加のサービスを必要とする新しいチームをオンボーディングし、組織のセキュリティおよびガバナンスで定義されたポリシーに準拠する一貫したIAMポリシーとセキュリティ・ガードレールを標準化および埋め込むことを検討してください。

  • ビジネス継続性

    このアーキテクチャでは、単一リージョンでのデプロイメントについて説明し、ディザスタ・リカバリをサポートし、ビジネス継続性計画を実現するために2つのリージョンを拡張できます。

  • Oracle Cloud Infrastructure Full Stack Disaster Recovery Serviceは、災害復旧のオーケストレーションおよび管理サービスであり、インフラストラクチャー、ミドルウェア、データベース、アプリケーションなど、アプリケーション・スタックのすべてのレイヤーに包括的なディザスタ・リカバリ機能を提供します。

    フル・スタック・ディザスタ・リカバリを使用して、データ・レイクハウスのスイッチオーバーおよびフェイルオーバー計画を設定し、ディザスタ・リカバリ・タスクを自動化し、スタンバイ・リージョンへの計画的または計画外の遷移が発生した場合に手動ステップを削減することを検討してください。

  • コスト最適化

    Oracle Cloud Infrastructureのコストと使用状況の追跡、およびコスト最適化機能を使用して、財務業務を継続的にサポートすることを検討してください。

    • コストおよび使用状況レポートを使用して、クラウド・リソースの使用状況およびそれぞれのコストを取得および追跡することを検討してください。サードパーティの財務業務ソリューションと統合するために作成された業界標準のFOCUS CSVコスト・レポートを活用します。
    • コスト分析を使用して、さまざまなチーム、プロジェクト、および環境によって発生したコストを追跡することを検討してください。
    • コスト・トラッキング・タグを使用して、特定のチーム、プロジェクトまたは環境のクラウド・リソースにタグ付けすることを検討してください。
    • 予算を使用して支出のソフト制限を設定し、プロジェクト、チームまたは全体的な支出の予算をいつ超過するかを知らせるアラートを設定することを検討してください。
  • 相互運用性

    このアーキテクチャでは、幅広い業界標準を活用して、あらゆる組織の幅広いIT異種環境と相互運用できるため、あらゆるアプリケーション、システム、または個人に対してあらゆるデータを利用し、提供することができます。

    アーキテクチャでは、ParquetやAvroなどのオープン・ファイル形式がサポートされるため、各ユース・ケースに適した形式でデータを格納できます。また、IcebergやDelta Lakeなどのオープン・テーブル・フォーマットもサポートし、Oracleテクノロジと他のサード・パーティ・テクノロジ間の相互運用性を確保しています。
    • Oracle Autonomous Data Warehouse Icebergのサポートを使用して、データレイクに保持されているIcebergテーブルを読み取り、消費者に提供することを検討してください。Icebergテーブルは、外部テーブルとして提供することも、ADWにロードすることもできます。
    • データ・フローのデルタ・レイク・ユニバーサル・フォーマット・サポートを使用して、データ・レイクでデータを読取り、処理および永続化することを検討してください。Delt@ Lakeを使用して、IcebergやHudiなどの他のオープン・テーブル・フォーマットのメタデータを生成すると、異なる処理エンジンで同じデータを読み取ることができます。
  • 組織的アプローチ

    このアーキテクチャは柔軟性があり、一元化されたアプローチから完全に分散化されたアプローチまで、さまざまなタイプの組織的アプローチをサポートできるため、データから価値を引き出す組織で採用および使用することができます。

    このアーキテクチャでは、OCI Identity and Access Management (IAM)による認証および認可の広範囲にわたるきめ細かな制御を利用します。

    IAMを使用して、レイクハウスを使用してさまざまな事業部門とチームを分離し、データ製品作成の所有権を分散させ、組織が分散型組織アプローチを採用する場合は、データドメインの分離を実施することを検討してください。

    OCIには、TerraformやAnsibleなどのフレームワークを活用して、アーキテクチャの導入を成功させるためのキー機能として自動化とInfrastructure as Codeがあります。

    組織が分散型アプローチを採用し、そのアプローチの下でデータ・ドメインを実装している場合は、事前構築済のterraformテンプレートとOCI Resource Managerを活用して、データ・ドメインをデータ・プラットフォームに迅速かつ一貫してオンボードすることを検討してください。

考慮事項

分析および機械学習用にアプリケーション・データを収集、処理およびキュレートする場合は、次の実装オプションを考慮してください。

ガイダンス 推奨 その他のオプション 理由
Data Refinery
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure GoldenGate
  • Oracle Data Integrator
  • Oracle Autonomous Databaseのデータ変換

Oracle Cloud Infrastructure Data Integrationは、スケーラブルでコスト効率に優れた、クラウドネイティブのサーバーレスなフルマネージドETLプラットフォームを提供します。

Oracle Cloud Infrastructure GoldenGateは、スケーラブルでコスト効率が高く、ハイブリッド環境にデプロイできる、サーバーレスで完全に管理された非侵入型のデータ・レプリケーション・プラットフォームを提供します。

データ永続性
  • Oracle Autonomous Data Warehouse
  • Oracle Cloud Infrastructure Object Storage
Oracle Exadata Database Service

Oracle Autonomous Data Warehouseは、柔軟にスケーリングされ、迅速な問合せパフォーマンスを提供し、データベース管理を必要としない、使いやすい完全自律型データベースです。また、オブジェクト・ストレージの外部またはハイブリッド・パーティション表からデータに直接アクセスすることもできます。

Oracle Cloud Infrastructure Object Storageは、無制限のデータをRAW形式で格納します。

データ処理
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure Data Flow
  • Oracle Cloud Infrastructure ビッグ・データ・サービス
第三者ツール

Oracle Cloud Infrastructure Data Integrationは、スケーラブルでコスト効率に優れた、クラウドネイティブのサーバーレスなフルマネージドETLプラットフォームを提供します。

Oracle Cloud Infrastructure Data Flowは、従量課金で非常に柔軟なモデルを使用してデータを大規模に処理するサーバーレスSpark環境を提供します。

Oracle Cloud Infrastructure Big Data Serviceは、エンドツーエンドのセキュリティ、高いパフォーマンス、管理やアップグレードのしやすさを備えたエンタープライズグレードのHadoop-as-a-Serviceを提供します。

アクセス&通訳
  • Oracle Analytics Cloud
  • Oracle Cloud Infrastructure Data Science
  • Oracle Machine Learning
  • Oracle Cloud Infrastructure AIサービス
サードパーティ・ツール

Oracle Analytics Cloudはフルマネージドで、Oracle Autonomous Data Warehouseのキュレートされたデータと緊密に統合されています。

データ・サイエンスは、データ・サイエンス・チームがOracle Cloud Infrastructureで機械学習(ML)モデルを作成、トレーニングおよび管理するための、完全に管理されたセルフサービス・プラットフォームです。データ・サイエンス・サービスは、AutoMLなどのインフラストラクチャおよびデータ・サイエンス・ツールとモデル・デプロイメント機能を提供します。

Oracle Machine Learningは、Oracle Autonomous Data Warehouseで利用可能なデータ・サイエンス用の完全に管理されたセルフ・サービス・プラットフォームです。ウェアハウスの処理能力を活用して、ウェアハウス外でデータを移動することなく、大規模なMLモデルの構築、トレーニング、テストおよびデプロイを行うことができます。

Oracle Cloud Infrastructure AIサービスは、潜在的な異常の推測やセンチメントの検出などのタスクを実行するために特別に構築およびトレーニングされた事前構築済モデルを提供する一連のサービスです。

デプロイ

このリファレンス・アーキテクチャのTerraformコードは、GitHubにあります。コードを1回のクリックでOracle Cloud Infrastructure Resource Managerにプルし、スタックを作成してデプロイできます。または、GitHubからコンピュータにコードをダウンロードし、コードをカスタマイズして、Terraform CLIを使用してアーキテクチャをデプロイすることもできます。
  • Oracle Cloud Infrastructure Resource Managerを使用してデプロイします:
    1. をクリックしますOracle Cloudへのデプロイ

      まだサインインしていない場合は、テナンシおよびユーザー資格証明を入力します。

    2. 利用規定を確認して受諾します。
    3. スタックをデプロイするリージョンを選択します。
    4. 画面に表示されるプロンプトと手順に従ってスタックを作成します。
    5. スタックの作成後、「Terraformアクション」をクリックし、「プラン」を選択します。
    6. ジョブが完了するまで待機し、計画をレビューします。

      変更を行うには、「スタックの詳細」ページに戻り、「スタックの編集」をクリックして、必要な変更を行います。次に、「プラン」アクションを再実行します。

    7. これ以上の変更が必要ない場合は、「スタックの詳細」ページに戻り、「Terraformアクション」をクリックして、「適用」を選択します。
  • Terraform CLIを使用してデプロイします。
    1. GitHubに移動します。
    2. リポジトリをローカル・コンピュータにクローニングまたはダウンロードします。
    3. READMEドキュメントの手順に従います。

確認

  • Author: José Cruz
  • Contributors: Larry Fumagalli, Ionel Panaitescu, Mike Blackmore, Robert Lies

変更ログ

このログには、重要な変更が一覧表示されます。