データ・プラットフォーム- データレイクハウス

イベント・データやストリーミング・データをインターネット(IoT)やソーシャル・メディア・ソースから効果的に収集および分析できますが、投資を活用して必要なインサイトを得るには、それを幅広いエンタープライズ・データ・リソースとどのように関連付ける必要がありますか。

データレイクとデータウェアハウスの機能を組み合わせたクラウド・データレイクハウスを活用して、ビジネス分析と機械学習のための幅広いエンタープライズおよびストリーミング・データを処理します。

このリファレンス・アーキテクチャは、テクノロジ・ソリューションをビジネス・コンテキスト全体に配置し、戦略的インテントが測定可能な戦略的成果の創出を促進します。これらの結果は、新しい戦略的インテントを生成し、データ主導型の継続的なビジネス改善を効果的に提供します。



データレイクにより、企業はすべてのデータをコスト効率が高く柔軟な環境に格納しながら、新しいビジネス・インサイトを発見するために必要な処理、永続性および分析サービスを提供できます。データレイクでは、構造化データと非構造化データを格納およびキュレーションし、複数のソースから多種多様な大量のデータを整理する方法を提供します。

データ・ウェアハウスでは、データをウェアハウスにコミットする前に、データ変換およびクレンジングを実行します。データレイクを使用すると、データをすばやく取り込んで、人々がデータにアクセスするときにその場で準備できます。データレイクでは、データへの即時アクセスと柔軟な分析を必要とする運用レポートとビジネス監視をサポートし、ビジネスで起こっていることを把握します。

機能アーキテクチャ

データレイクとデータウェアハウスの機能を組み合わせて、幅広いエンタープライズ・データ・リソースからストリーミングやその他のタイプのデータを処理する最新のデータレイクハウス・プラットフォームを提供することで、ビジネス分析、機械学習、データサービス、データ製品にデータを活用できます。

データレイクハウス・アーキテクチャは、データレイクとデータウェアハウスの両方の機能を組み合わせて、運用効率を高め、次のことを可能にする拡張機能を提供します。

  • シームレスなデータと情報の使用により、データレイクとデータウェアハウス間でデータをレプリケートする必要がなくなります。
  • 拡張されたマルチモデルおよび多言語アーキテクチャでの多様なデータ型のサポート
  • リアルタイム、ストリーミング、バッチ、アプリケーション・プログラミング・インタフェース(API)、バルク取り込みメカニズムを使用して、任意のコンシューマからシームレスなデータ取り込みを実行できます
  • 人工知能(AI)、生成AI、機械学習(ML)サービスを使用したデータからの継続的なインテリジェンス抽出
  • API、ユーザー・インタフェース、ストリーミングおよび統合メカニズムを使用して、任意のデータ・コンシューマにインテリジェンスを浸透させ、提供する機能
  • ゼロトラスト・セキュリティ・モデルを活用したガバナンスとファイングレイン・データ・セキュリティ
  • ストレージとコンピュート・リソースを完全に切り離し、任意の時点で必要なリソースのみを使用する機能
  • オープン・ソース・エンジンを含む複数のコンピュート・エンジンを活用して、異なるユース・ケースで同じデータを処理し、最大限のデータ再利用、流動性、使用を実現する機能
  • 異なるオープン・ファイルおよびテーブル・フォーマットを使用してデータをデータレイクに格納する機能
  • Oracleによって管理され、運用オーバーヘッドを削減するOracle Cloud Infrastructure (OCI)ネイティブ・サービスを活用する機能
  • 実際の需要に合わせてクラウド・リソース・インフラストラクチャを調整する自動スケーリングにより、クラウドの経済性を向上
  • サービスの使用をユースケース主導にするためのモジュール性
  • オープン・スタンダードに準拠したシステムまたはクラウドとの相互運用性
  • ストリーミング、アナリティクス、データ・サイエンスおよび機械学習などの多様なユース・ケースのサポート
  • 一元化されたレイクハウスから分散型データメッシュまで、さまざまなアーキテクチャ・アプローチをサポート

次の図は、機能アーキテクチャを示しています。



レイクハウス機能oracle-1.zip#GUID-43E61AD0-9E20-4DC0-BFB2-EFF8365A6694

アーキテクチャは、次の論理的な区分に重点を置いています。

  • 接続、取込み、変換

    アーキテクチャ内の各データ・レイヤーで使用するために、データ・ソースに接続し、データを取り込み、改良します。

  • 永続化、キュレーション、作成

    データのアクセスとナビゲーションを容易にし、現在のビジネス・ビューを表示します。リレーショナル・テクノロジの場合、データは論理的または物理的に単純なリレーショナル・フォーム、縦方向フォーム、ディメンション・フォームまたはOLAPフォームで構造化できます。非リレーショナル・データの場合、このレイヤーには1つ以上のデータ・プール(分析プロセスからの出力、または特定の分析タスク用に最適化されたデータ)が含まれます。

  • 分析、学習、予測

    コンシューマのデータの論理ビジネス・ビューを抽象化します。この抽象化により、開発へのアジャイルなアプローチ、ターゲット・アーキテクチャへの移行、および複数のフェデレーテッド・ソースからの単一のレポート・レイヤーのプロビジョニングが容易になります。

アーキテクチャには次の機能コンポーネントがあります。

  • バッチ取込み

    バッチ取り込みは、リアルタイムで取り込めないデータや、リアルタイム取り込みに適応するにはコストがかかりすぎるデータに役立ちます。また、データを、定期的な消費のためにキュレートおよび永続化できる信頼性の高い情報に変換することも重要です。次のサービスを一緒に使用することも、独立して使用することもでき、非常に柔軟で効果的なデータ統合および変換ワークフローを実現できます。

    • Oracle Cloud Infrastructure Data Integrationは、データ・パイプラインを設計および実行するためのフルマネージドのサーバーレス・サービスです。これにより、Autonomous AI LakehouseOCI Object StorageなどのOCIターゲットにデータをシームレスに抽出、変換、ロードできます。ユーザーは、実行環境を自動スケーリングするコードレスで直感的なインタフェースを介して統合フローを構築できます。Sparkベースの処理でのETLと、パフォーマンスと効率性を実現するためのSQLプッシュダウンを使用したELTの両方をサポートします。また、このサービスは、データ準備のためのツールを提供し、ルールベースの処理によってスキーマ・ドリフトから保護します。

    • Oracle Data Integratorは、大容量および高パフォーマンスのバッチ・ロードから、イベント駆動のトリクルフィード統合プロセス、SOA対応データ・サービスへの包括的なデータ統合を提供します。宣言的な設計アプローチにより、より迅速でシンプルな開発とメンテナンスが保証され、データ変換および検証プロセスで可能な最高レベルのパフォーマンスを保証するのに役立つ、ロード変換(ELT)を抽出するための独自のアプローチが提供されます。Oracleデータ変換では、Webインタフェースを使用してELTの構成と実行を簡素化し、宣言的な設計アプローチを使用してデータおよびワークフローを構築およびスケジュールできます。

    • Oracle Data Transformsを使用すると、選択したサポートされているテクノロジのELTが可能になり、ユーザーがデータ・フローおよびワークフローを宣言的に構築およびスケジュールできるWebユーザー・インタフェースを使用して、データ・パイプラインの構成および実行が簡素化されます。Oracle Data Transformsは、Oracle Autonomous AI Lakehouse内のフルマネージド環境として使用でき、複数のデータ・ソースからOracle Autonomous AI Lakehouseインスタンスにデータをロードおよび変換できます。

    ユースケースに応じて、これらのコンポーネントを個別にまたは一緒に使用して、非常に柔軟で高パフォーマンスなデータ統合および変換を実現できます。

  • APIベースの取込み

    APIベースの取込みにより、アプリケーションおよびシステムはAPIまたはWebフックを使用してイベント・データをプッシュできます。

    • Oracle Integrationは、クラウドとオンプレミスのアプリケーションを統合し、ビジネス・プロセスを自動化し、ビジュアル・アプリケーションを開発できる、完全に管理された事前構成済の環境です。SFTP準拠のファイル・サーバーを使用してファイルを格納および取得し、何百ものアダプタおよびレシピのポートフォリオを使用してOracleおよびサード・パーティ・アプリケーションに接続することで、ビジネス間取引パートナとドキュメントを交換できます。

    • Oracle Cloud Infrastructure API Gatewayでは、ネットワーク内からアクセス可能なプライベート・エンドポイントを使用してAPIを公開でき、必要に応じてパブリック・インターネットに公開できます。エンドポイントは、API検証、リクエストとレスポンスの変換、CORS、認証と認可、およびリクエスト制限をサポートします。

      OCI APIゲートウェイを使用すると、APIの可観測性を使用して使用状況を監視し、SLAを保証できます。使用プランを使用して、APIコンシューマとクライアントを監視および管理したり、顧客ごとに異なるAPIアクセス層を設定したりすることもできます。使用プランは、データの収益化をサポートする重要な機能です。

      使用プランでは、APIコンシューマとクライアントを管理し、そのデータ使用状況を追跡するための階層化された使用プランを作成することで、データの収益化がサポートされます。

    • Oracle Cloud Infrastructure Functionsは、フルマネージドのマルチテナントでスケーラビリティの高いオンデマンドのFunctions-as-a-Service (FaaS)プラットフォームです。Fn Projectのオープン・ソース・エンジンによって機能します。OCI関数を使用すると、コードをデプロイし、直接コールするか、イベントに応答してトリガーすることができます。OCI Functionsでは、Oracle Cloud Infrastructure RegistryでホストされているDockerコンテナを使用します。

    • Oracle REST Data Services (ORDS)は、SQLおよびデータベース・スキルを持つ開発者がOracle DatabaseのREST APIを開発できるようにするJavaアプリケーションです。アプリケーション開発者は、最も広く使用されているAPIテクノロジであるRESTを使用して他の外部サービスにアクセスする場合と同じ方法でクライアント・ドライバをインストールおよび保守することなく、任意の言語環境からこれらのAPIを使用できます。

      ORDSは、Oracle Autonomous AI Lakehouseのフルマネージド機能としてデプロイされ、APIを使用してデータ・コンシューマにレイクハウス情報を公開するために使用できます。

  • リアルタイム取込み

    Oracle Cloud Infrastructure GoldenGateは、オンプレミスまたは任意のクラウドに存在するソースからのデータ取込みを可能にするフルマネージド・サービスです。GoldenGate CDCテクノロジを活用して、Oracle Autonomous AI LakehouseOracle Cloud Infrastructure Object StorageまたはOracle Cloud Infrastructure Streamingへの非侵入的で効率的なデータの取得と配信をリアルタイムかつ大規模に行い、関連情報をできるだけ迅速に消費者に提供します。

  • 一括転送

    一括転送では、様々な方法を使用して大量のデータを移動できます。大規模なデータ・レイクハウスでは、Oracle Cloud Infrastructure FastConnectおよびデータ転送サービスを推奨します。

    • Oracle Cloud Infrastructure FastConnectは、データ・センターとOCIの間に専用のプライベート接続を作成します。FastConnectは、高帯域幅のオプションに加え、インターネットベースの接続に比べて、信頼性の高いネットワーキング・エクスペリエンスを提供します。

    • Oracle Cloud Infrastructure (OCI)コマンドライン・インタフェース(CLI)では、Oracle Cloud Infrastructure FastConnectプライベート回線を利用して、オンプレミスからOCIへのデータ転送を実行および自動化できます。OCI SDKを使用すると、オンプレミスまたは他のクラウドからOracle Cloud Infrastructure Object Storageにデータおよびファイルをコピーまたは同期するコードを記述でき、Python、Java、Goなどの様々なプログラミング言語を活用して、いくつかの名前を挙げることができます。REST APIにより、Object Storage Service APIを使用したオブジェクト・ストレージへのデータの移動など、OCIサービスとインタフェースして制御できます。
    • Oracle Cloud Infrastructure Data Transferは、ペタバイト規模のデータセットをデータ・センターからOracle Cloud Infrastructure Object StorageまたはArchive Storageに安全に移動できるオフライン・データ移行サービスです。パブリック・インターネットを使用したクラウドへのデータの移動は、高いネットワーク・コスト、信頼性のないネットワーク接続、長い転送時間およびセキュリティ上の懸念により必ずしも現実的ではありません。Data Transferサービスは、これらの課題を克服し、クラウドへのデータの移行に要する時間を大幅に短縮できます。データ転送は、ディスクまたはアプライアンスのいずれかを介して利用できます。一方をもう一方に選択するかどうかは、データ量によって大きく異なり、Data Transfer Applianceでは各アプライアンスのより大きなデータ・セットがサポートされます。
  • ストリーミング取込み

    ストリーミング取り込みは、幅広いデータ・プロデューサから大規模なデータ・セットをリアルタイムに取り込むことができるOCIネイティブ・サービスを使用することでサポートされます。ストリーミング取り込みは、データレイクハウスの中心にあるオブジェクト・ストレージ内のデータを永続化および同期します。データをオブジェクト・ストレージに同期することで、履歴データを保持し、キュレーションしてさらに変換することで貴重なインサイトを抽出できます。

    • Oracle Cloud Infrastructureストリーミングは、リアルタイムで使用および処理できる継続的な大容量データ・ストリームを取り込むための完全管理型のスケーラブルな耐久性のあるストレージ・ソリューションを提供します。ストリーミングは、メッセージング、大容量アプリケーション・ログ、運用テレメトリ、Webクリックストリーム・データ、またはデータが継続的かつ連続的に生成および処理されるその他のパブリッシュ/サブスクライブ・メッセージング・モデルのユースケースに使用できます。データはOracle Cloud Infrastructure Object Storageと同期され、キュレーションおよびさらに変換して貴重なインサイトを抽出できます。

    • Oracle Cloud Infrastructure Queueは、システムを切り離して非同期操作を有効にするのに役立つフルマネージド・サーバーレス・サービスですか。キューは、損失または重複なしで個別に処理されたメッセージを必要とする大量のトランザクション・データを処理します。

    • Oracle Cloud Infrastructure Service Connector Hubは、Oracle Cloud Infrastructureのサービス間におけるデータ移動の説明、実行およびモニターを一元的に把握できるクラウド・メッセージ・バス・プラットフォームです。この特定のリファレンス・アーキテクチャでは、Oracle Cloud Infrastructure StreamingまたはOCI QueueからOracle Cloud Infrastructure Object Storageにデータを移動して、生のデータをデータ・レイクハウスの永続性レイヤーに永続化するために使用されます。

  • ストリーミング処理

    ストリーミング処理は、ストリーミング・データをエンリッチし、イベント・パターンを検出し、データレイクハウスに保持される別のストリーム・セットを作成します。

    • Oracle Cloud Infrastructure GoldenGate Stream Analyticsは、高度な相関パターン、データ・エンリッチメントおよび機械学習を使用して、大規模なリアルタイム情報を処理および分析する、完全に管理されたスケーラブルなサービスです。ユーザーは、ライブ・チャート、マップおよびビジュアライゼーションを使用してリアルタイム・データを探索できます。ユーザーは、グラフィカル・ツールを使用して、手作業でコーディングすることなくストリーミング・パイプラインを構築できます。

    • Oracle Cloud Infrastructure Data Flowは、フルマネージドのビッグ・データ・サービスであり、インフラストラクチャをデプロイまたは管理することなく、Apache SparkおよびSpark Streamingアプリケーションを実行できます。これにより、運用を管理することなくアプリケーションに集中できるため、ビッグ・データとAIアプリケーションをより迅速に提供できます。データ・フロー・アプリケーションは再利用可能なテンプレートで、Sparkアプリケーションとその依存関係、デフォルト・パラメータおよびデフォルトの実行時リソース仕様で構成されます。

  • オープン・ソース・エコシステム

    オープン・ソース・エコシステムを使用できます。

    • Hadoop、Spark、Flink、Trinoなどの一般的なオープン・ソース・エンジンを活用したバッチ処理およびストリーム処理の場合
    • プロデューサとしてもコンシューマとしてもOracle Cloud Infrastructure Streamingを使用
    • データを永続化し、データを消費できるOracle Cloud Infrastructure Object Storageを使用

    Oracle Cloud Infrastructure Object Storageをデータ・レイクとして使用すると、異なるOracle Cloud Infrastructureサービス間で共有するデータ・セットを異なる時間に永続化できます。

    ビッグ・データ・サービスは、他のテクノロジ間で完全に構成され、安全で可用性の高い専用のHadoop、SparkまたはFlinkクラスタをオンデマンドでプロビジョニングします。小規模なテストおよび開発クラスタから大規模な本番クラスタまでのすべてをサポートする様々なOracle Cloud Infrastructureコンピュート・シェイプを使用して、ビッグ・データおよびアナリティクスのワークロードに合うようにクラスタを拡張します。メトリックに基づくかスケジュールに基づくかに関係なく自動スケーリング構成を利用することで、ビジネスの需要に迅速に対応し、コストを最適化します。クラスタ・プロファイルを利用して、特定のワークロードまたはテクノロジに最適なクラスタを作成します。
  • バッチの処理

    バッチ処理は、データレイクハウスに保存されている大規模なデータセットを変換します。バッチ処理では、Oracle Cloud Infrastructure Object Storageとシームレスに統合されたOracle Cloud Infrastructureネイティブ・サービスを利用し、データの集計とエンリッチメント、データ・ウェアハウスの取込み、機械学習とAIデータの大規模使用などのユースケース向けにキュレートされたデータを作成できます。

    • 前述のOracle Cloud Infrastructure Data Integrationは、フルマネージドのサーバーレス・クラウドネイティブ・サービスであり、様々なデータ・ソースからAutonomous AI LakehouseOracle Cloud Infrastructure Object StorageなどのターゲットのOracle Cloud Infrastructureサービスにデータを抽出、ロード、変換、クレンジングおよび再シェイプします。

    • Oracle Cloud Infrastructure Data Flowは、フルマネージドのビッグ・データ・サービスであり、インフラストラクチャをデプロイまたは管理することなく、Apache SparkおよびSpark Streamingアプリケーションを実行できます。これにより、運用を管理することなくアプリケーションに集中できるため、ビッグ・データとAIアプリケーションをより迅速に提供できます。データ・フロー・アプリケーションは再利用可能なテンプレートで、Sparkアプリケーションとその依存関係、デフォルト・パラメータおよびデフォルトの実行時リソース仕様で構成されます。

    • Oracle Data Transformsを使用すると、選択したサポートされているテクノロジの抽出- ロード- 変換(ELT)が可能になり、ユーザーがデータ・フローおよびワークフローを宣言的に構築およびスケジュールできるWebユーザー・インタフェースを使用して、データ・パイプラインの構成および実行が簡素化されます。Oracle Data Transformsは、Oracle Autonomous AI Lakehouse内のフルマネージド環境として使用でき、複数のデータ・ソースからOracle Autonomous AI Lakehouseインスタンスにデータをロードおよび変換できます。

      ユース・ケースに応じて、これらのコンポーネントを個別にまたは一緒に使用して、非常に柔軟で高パフォーマンスなデータ処理を実現できます。

  • サービング

    Oracle Autonomous AI Lakehouseは、データ・ウェアハウスのワークロード向けに最適化された、自動運転、自己保護、自己修復が可能なデータベース・サービスです。ハードウェアを構成または管理したり、ソフトウェアをインストールする必要はありません。OCIは、データベースの作成、バックアップ、パッチ適用、アップグレードおよびチューニングを処理します。

    プロビジョニング後は、可用性またはパフォーマンスに影響を与えることなく、いつでもCPUコア数またはデータベースのストレージ容量をスケーリングできます。

    また、Oracle Autonomous AI Lakehouseは、オブジェクト・ストレージに存在するデータを外部およびハイブリッド・パーティション表として仮想化できるため、他のソースから導出されたデータをウェアハウス・データと結合して消費できます。また、履歴データをウェアハウスからオブジェクト・ストレージに移動し、ハイブリッド・パーティション表を使用してシームレスに消費することもできます。

    Oracle Autonomous AI Lakehouseは、データ・カタログに格納された以前に収集されたメタデータを使用して外部表を作成し、データ・カタログのメタデータ更新を外部表定義と自動的に同期して、一貫性を維持し、管理を簡素化し、労力を削減できます。

    ベクトルは、複数のデータ型(リレーショナル、JSON、空間、グラフ)をサポートするマルチモデル・データベースであるため、Autonomous Databaseでサポートされています。ベクトル・データ型を使用すると、ベクトル埋込みのロードと格納、および取得拡張生成(RAG)アプリケーションに使用できるベクトル索引の作成を、すべて単一のクラウドAutonomous AI Lakehouseインスタンスで実行できます。このマルチモデル機能により、単一のクエリで結合できるすべてのデータ型を使用した分析が可能になるため、すべてのデータを分析するセキュリティ、信頼性、スケーラビリティ、容易性を確保しながら、データ型ごとにサイロ化された特殊なデータベースを持つという複雑さとリスクが軽減されます。

    Autonomous AI Database機能であるSelect AIでは、LLMを使用してユーザーの入力テキストをOracle SQLに変換し、自然言語を使用してデータをクエリできます。Select AIは、自然言語プロンプトを処理し、プロンプトにメタデータのメタデータを補足してから、SQL問合せを生成して実行します。

    Autonomous AI Database機能であるデータ共有により、Autonomous AI Databaseまたはデルタ共有準拠テクノロジを使用する他のパーティから、データとメタデータを安全に提供および消費できます。データ共有により、基礎となる共有表を抽象化するビューとして、共有プロバイダからのデータを簡単にシームレスに消費できます。また、受信者がライブおよびフレッシュ・データを消費できるようにするライブ・シェアは、プロバイダと受信者の両方がAutonomous AI Databaseを使用する場合に使用できます。

    Autonomous AI Database機能であるアナリティック・ビューでは、既存のデータベース表およびビューに格納されているデータの分析問合せを迅速に効率的に作成する方法が提供されます。アナリティック・ビューは、ディメンション・モデルを使用してデータを編成します。これらを使用すると、集計および計算をデータ・セットに簡単に追加でき、比較的単純なSQLで問い合せることができるデータをビューに表示できます。この機能により、内部および外部に格納されたデータを使用して、Oracle Autonomous AI Lakehouseでスター・スキーマまたはスノーフレーク・スキーマをセマンティックにモデル化し、SQLおよびSQL準拠のデータ・コンシューマを使用してモデルを消費できます。

    さらに、Autonomous AI DatabaseのコンポーネントであるAutonomous Data Lake Acceleratorは、オブジェクト・ストレージ・データをシームレスに消費し、処理を拡張して高速なクエリを提供し、必要に応じてデータベース・コンピュート・インスタンスを自動スケーリングし、データベース・コンピュート・インスタンスからオブジェクト・ストレージ・クエリを分離することで、データベース・ワークロードへの影響を軽減できます。

  • クラウド・ストレージ

    Oracle Cloud Infrastructure Object Storageは、信頼性とコスト効率の高いデータ耐久性を実現する、インターネット規模の高パフォーマンス・ストレージ・プラットフォーム です。Oracle Cloud Infrastructure Object Storageでは、分析データを含むあらゆるコンテンツ・タイプの非構造化データを無制限に格納できます。インターネットから直接、またはクラウド・プラットフォームの内から、安全かつセキュアにデータを格納または取得できます。複数の管理インタフェースを使用すると、パフォーマンスまたはサービスの信頼性が低下することなく、小規模から簡単に開始し、シームレスにスケーリングできます。

    Oracle Cloud Infrastructure Object Storageは、使用頻度の低いデータを格納し、Oracle Autonomous AI Lakehouseのハイブリッド表を使用して最新のデータとシームレスに結合することで、データ・ウェアハウスのコールド・ストレージ・レイヤーとしても使用できます。

    オブジェクトに対してIAMポリシーを使用することで、オブジェクト・レベルのきめ細かいアクセス制御を適用し、データ・レイク直接アクセスのデータ・セキュリティを強化できます。

  • 視覚化と学習

    Oracle Analytics Cloudは、スケーラブルでセキュアなパブリック・クラウド・サービスであり、ユーザー、ワークグループおよびエンタープライズに対して共同分析を調査および実行するための完全な機能セットを提供します。シチズン・データ・サイエンティスト、高度なビジネス・アナリスト・トレーニング、機械学習(ML)モデルの実行をサポートします。機械学習モデルは、分析サービス上で直接実行することも、Oracle Autonomous AI Lakehouse上でOML組み込みモデルとして直接実行することもできます。これは、倉庫やOCI AIサービス(Oracle Cloud Infrastructure Visionなど)の処理能力、スケーラビリティ、弾力性を活用する大規模なバッチ予測を実現します。

    Oracle Analytics Cloudでは、迅速なセットアップ、容易なスケーリングとパッチ適用、および自動ライフサイクル管理など、柔軟なサービス管理の機能もご利用いただけます

  • 学習と予測

    • データ・サイエンスは、データ・サイエンス・チームがOracle Cloud Infrastructureで機械学習(ML)モデルを構築、トレーニングおよび管理するためのインフラストラクチャ、オープン・ソース・テクノロジ、ライブラリ、パッケージおよびデータ・サイエンス・ツールを提供します。コラボレーティブ・ワークスペースおよびプロジェクト駆動ワークスペースは、エンドツーエンドの一貫性のあるユーザー・エクスペリエンスを提供し、予測モデルのライフサイクルをサポートします。

      データ・サイエンス・ジョブ機能により、データ・サイエンティストはフルマネージドのインフラストラクチャで繰返し可能な機械学習タスクを定義して実行できます。

      データ・サイエンス・モデル・デプロイメント機能を使用すると、データ・サイエンティストは、トレーニング済モデルをフルマネージドのHTTPエンドポイントとしてデプロイできます。これにより、リアルタイムで予測を提供し、プロセスやアプリケーションにインテリジェンスを注入し、ビジネスが関連するイベントに発生に応じて対応できるようになります。

    • Oracle Machine Learningは、PythonとAutoMLをサポートし、Autonomous AI Databaseに緊密に統合された強力な機械学習機能を提供します。オープン・ソースとスケーラブルなデータベース内アルゴリズムを使用して、データの準備と移動を削減するモデルをサポートします。AutoMLは、自動アルゴリズム選択、適応型データ・サンプリング、自動機能選択および自動モデル・チューニングを使用して、データ・サイエンティストが会社の機械学習イニシアチブの価値実現までの時間を短縮できるよう支援します。Oracle Autonomous AI Lakehouseで利用可能なOracle Machine Learningサービスを使用すると、モデルを管理できるだけでなく、それらのモデルをRESTエンドポイントとしてデプロイして、社内のリアルタイム予測を民主化することで、ビジネスは、事後ではなく、関連するイベントに発生に応じて対応できます。

  • AIおよび生成AIサービス

    Oracle Cloud Infrastructure AIサービスは、テキスト分析から予測メンテナンスまで、さまざまなユース・ケースをサポートするために使用できる、すぐに使える一連のAIサービスを提供します。これらのサービスには、APIを使用してデータ・パイプライン、分析およびアプリケーションに統合できる、事前に構築されたきめ細かなチューニング・モデルがあります。

    • Oracle Cloud Infrastructure Languageは、高度なテキスト分析と翻訳を大規模に実行します。事前トレーニング済みおよびカスタム・モデルにより、開発者はデータ・サイエンスの専門知識がなくても、非構造化テキストを処理し、インサイトを抽出できます。センチメント分析、キー・フレーズ抽出、テキスト分類、名前付きエンティティ認識を実行し、PIIデータをテキストで検出します。ドメイン固有のタスク用にモデルを調整し、様々な言語間で簡単にテキストを翻訳できます。Oracle Cloud Infrastructure Languageでは、大量のワークロードを効率的に処理するためのドキュメント変換および非同期ジョブもサポートされています。

    • Oracle Cloud Infrastructure Speechでは、人間の音声を含むメディア・ファイルを非常に正確なテキスト・トランスクリプションに簡単に変換できるため、話し言葉の力を活用できます。OCI音声を使用すると、カスタマ・サービス・コールの文字化とサブタイトルの自動生成、メディア・アセットのメタデータの生成を行って、すべてを検索可能なアーカイブを作成できます。OCI Speechは、バッチおよびライブ・トランスクリプト・ジョブをサポートします。
    • Oracle Cloud Infrastructure Visionは、ディープ・ラーニングに基づいて画像分析を大規模に実行するためのAIサービスです。OCI Visionは、イメージの分類、オブジェクトや顔の検出、テキストの抽出などのイメージ認識およびビデオ分析タスクを実行します。事前トレーニング済モデルを活用するか、業界固有および顧客固有のシナリオ用にカスタム・ビジョン・モデルを簡単に作成できます。OCI Visionは、すべての一般的なコンピュータ・ビジョン・タスクに役立つ、フルマネージドのマルチテナント・ネイティブ・クラウド・サービスです。すぐに利用できる事前構築済みモデルにより、開発者は機械学習(ML)の専門知識がなくても、画像認識とテキスト認識を簡単にアプリケーションに組み込むことができます。

    • Oracle Cloud Infrastructure Document Understandingでは、テキスト、キー値、表の抽出などのドキュメント分類およびドキュメント分析タスクが実行されます。OCI Document Understandingは、すべての一般的なドキュメント分析タスクに役立つ、完全に管理されたマルチテナントのネイティブ・クラウド・サービスです。
    • Oracle Cloud Infrastructure Generative AIは、チャット、テキスト生成、要約、テキスト埋込みの作成など、最先端のカスタマイズ可能な大規模言語モデル(LLM)のセットを提供するフルマネージド・サービスですプレイグラウンドを使用して、すぐに使用できる事前トレーニング済モデルを試すか、専用AIクラスタ上独自のデータに基づいて独自のファインチューン済カスタム・モデルを作成してホストしてください。
  • データ・エンリッチメント

    データ・エンリッチメントは、機械学習モデルのトレーニングに使用されるデータを改善して、より正確で優れた予測結果を達成できます。

    Oracle Cloud Infrastructure Data Labelingでは、AI/MLモデルの構築を目的として、データ・セットの作成と参照、データ・レコード(テキストまたはイメージ)の表示、ラベルの適用を行うことができます。このサービスは、ラベル付けプロセスを支援するために設計された対話型ユーザーインタフェースも提供します。レコードにラベルを付けると、AI/MLモデル開発で使用するために、データ・セットを行区切りのJSONとしてエクスポートできます。
  • 検索

    検索機能を補完関数として使用すると、索引付けが済んで低レイテンシで提供される運用分析データを必要とするエンド・ユーザーにデータを公開できます。

    Oracle Cloud Infrastructure Search with OpenSearchは、完全に管理された、メンテナンスフリーのフルテキスト検索エンジンです。OpenSearchを使用すると、応答時間を短縮して大量のデータをすばやく格納、検索および分析できます。このサービスは、オープン・ソースのOpenSearch APIおよびOpenSearch Dashboardsデータ・ビジュアライゼーションをサポートしています。
  • ストリーミング・アナリティクス

    ストリーミング分析は、データレイクハウスに保存されたキュレートされたマスターデータを使用して状況に即したストリームされたデータのリアルタイム分析を提供するダッシュボードを提供し、ユーザー、アプリケーション、および物にサービスを提供できる関心のあるパターンを検出します。

    Oracle Cloud Infrastructure GoldenGate Stream Analyticsは、高度な相関パターン、データ・エンリッチメントおよび機械学習を使用して、大規模なリアルタイム情報を処理および分析します。ユーザーは、ライブ・チャート、マップ、ビジュアライゼーションを通じてリアルタイム・データを探索し、手作業でコーディングすることなくストリーミング・パイプラインをグラフィカルに構築できます。これらのパイプラインは、完全に管理されたスケーラブルなサービスで実行され、最新の企業の重要なリアルタイム・ユース・ケースに対応します。

  • 逆ETL/ライトバック

    リバースETL(ライトバックとも呼ばれる)を使用すると、運用システムやデバイスへのデータのアクティブ化が可能になり、データから導出されたインテリジェンスを、ビジネス・プロセスをサポートするために使用されるアプリケーションおよびデバイスに直接注入できます。

    データは、複数のメカニズム(つまり、ほぼリアルタイムで分離された大量のコンシューマ・プルを同時にサポートするストリームおよびキューを使用)を使用してコンシューマに提供されます。ストリーミング分析システムは、回復性とスケーラビリティを高めるために、アプリケーションまたはデータ統合を使用して、事前構築済みのアダプタを使用してデータをプッシュするか、サーバーレス関数を使用してほぼすべてのアプリケーションまたはデバイスエンドポイントを呼び出します。

    • Oracle Cloud Infrastructureストリーミング・サービスは、リアルタイムで使用および処理できる継続的な大容量データ・ストリームを取り込むための完全管理型のスケーラブルな耐久性のあるストレージ・ソリューションを提供します。ストリーミングは、メッセージング、大容量アプリケーション・ログ、運用テレメトリ、Webクリックストリーム・データ、またはデータが継続的かつ連続的に生成および処理されるその他のパブリッシュ/サブスクライブ・メッセージング・モデルのユースケースに使用できます。

    • Oracle Cloud Infrastructure Queueは、システムを切り離して非同期操作を有効にするのに役立つフルマネージド・サーバーレス・サービス です。キューは、損失または重複なしで個別に処理されたメッセージを必要とする大量のトランザクション・データを処理します。

    • Oracle Integrationは、クラウド・アプリケーションとオンプレミス・アプリケーションの統合、ビジネス・プロセスの自動化、ビジュアル・アプリケーションの開発、SFTP準拠のファイル・サーバーを使用したファイルの格納と取得、および何百ものアダプタとレシピのポートフォリオを使用したB2B取引パートナとのビジネス・ドキュメントの交換を可能にし、Oracleおよびサードパーティ・アプリケーションに接続できる、完全に管理された事前構成済の環境です。

    • Oracle Data Transformsを使用すると、選択したサポートされているテクノロジのELTが可能になり、ユーザーがデータ・フローおよびワークフローを宣言的に構築およびスケジュールできるWebユーザー・インタフェースを使用して、データ・パイプラインの構成および実行が簡素化されます。Oracle Data Transformsは、Oracle Autonomous AI Lakehouse内のフルマネージド環境として使用でき、複数のデータ・ソースからOracle Autonomous AI Lakehouseインスタンスにデータをロードおよび変換できます。

    • Oracle Cloud Infrastructure Functionsは、フルマネージドのマルチテナントで、拡張性に優れたオンデマンドのFunctions-as-a-Serviceプラットフォームです。エンタープライズグレードのOracle Cloud Infrastructure上に構築されており、Fn Projectオープン・ソース・エンジンによって強化されています。

  • API

    APIレイヤーを使用すると、データ・サイエンスおよびOracle Machine Learningから派生したインテリジェンスを、アプリケーション、ビジネス・プロセス、およびそれらの操作と機能に影響を与え、改善するものに注入できます。APIレイヤーは、Oracle Machine Learning RESTエンドポイントにデータ・サイエンスでデプロイされたモデルを安全に使用し、システムを管理してランタイム環境の可用性を確保する機能を提供します。また、必要に応じて関数を利用して追加のロジックを実行することもできます。

    • Oracle Cloud Infrastructure APIゲートウェイでは、ネットワーク内からアクセス可能なプライベート・エンドポイントとともに、インターネット・トラフィックを受け入れる場合にパブリックIPアドレスを使用して公開できるAPIを公開できます。エンドポイントは、API検証、リクエストとレスポンスの変換、CORS、認証と認可、およびリクエスト制限をサポートします。APIの可観測性により、使用状況を監視し、SLAを保証できます。使用プランを使用して、APIにアクセスするAPIコンシューマおよびAPIクライアントを監視および管理したり、様々な顧客に対して異なるアクセス層を設定して、APIを使用して消費されるデータ使用状況を追跡することもできます。使用プランは、データの収益化をサポートする重要な機能です。

    • Oracle Cloud Infrastructure Functionsは、フルマネージドのマルチテナントで、拡張性に優れたオンデマンドのFunctions-as-a-Serviceプラットフォームです。エンタープライズグレードのOracle Cloud Infrastructure上に構築されており、Fn Projectオープン・ソース・エンジンによって強化されています。

    • Oracle REST Data Services (ORDS)は、SQLとデータベースのスキルを持つ開発者がOracle DatabaseのREST APIを開発できるようにするJavaアプリケーションです。アプリケーション開発者は、クライアント・ドライバをインストールおよび保守せずに、任意の言語環境からこれらのAPIを使用できます。これは、最も広く使用されているAPIテクノロジであるRESTを使用して他の外部サービスにアクセスする場合と同じ方法です。ORDSは、Oracle Autonomous AI Lakehouseのフルマネージド機能としてデプロイされ、APIを使用してデータ・コンシューマにレイクハウス情報を公開するために使用できます。

  • データ・ガバナンス

    Oracle Cloud Infrastructure Data Catalogでは、メタデータなどの技術アセットが存在する場所を可視化し、その技術メタデータにマップされたビジネス用語集を保守する機能が提供されます。データ・カタログは、Oracle Autonomous AI Lakehouseのメタデータを提供して、データ・ウェアハウスでの外部表の作成を容易にすることもできます。

  • データ・セキュリティ

    レイクハウス・データを最大限に活用するには、データ・セキュリティが不可欠です。多層防御機能とRBAC機能を備えたゼロトラスト・セキュリティ・モデルを活用し、最も厳しい規制へのコンプライアンスを確保することで、データ・セキュリティは予防的、検出的、および是正的なセキュリティ制御を提供し、データの流出や漏えいを防止します。

    • Oracle Data Safeは、データ・セキュリティに焦点を当てた完全に統合されたOracle Cloudサービスです。Oracle Autonomous AI LakehouseなどのOracle Cloudデータベースの機密データと規制データを保護するための完全で統合された機能セットを提供します。セキュリティ評価、ユーザー評価、データ検出、データ・マスキングおよびアクティビティ監査などの機能があります。

    • Oracle Cloud Infrastructure Auditでは、Oracle Cloud Infrastructure (OCI)リソースおよびテナンシに関連するアクティビティを可視化できます。監査ログ・イベントは、セキュリティ監査で使用でき、OCIリソースの使用状況および変更の追跡や、標準および規制へのコンプライアンスの確保に役立ちます。

    • Oracle Cloud Infrastructure Loggingは、監査ログを含む、テナンシ内のすべてのログに対応して、スケーラビリティの高いフルマネージド形式の単一のインタフェースを提供します。OCIロギングを使用して、すべてのOCIリソースのログにアクセスし、それらを有効に、管理および検索できるようにします。

    • Oracle Cloud Infrastructure Vaultは、暗号化キーおよびシークレットを格納および管理する暗号化管理サービスで、リソースに安全にアクセスします。お客様が管理するキーをOracle Autonomous AI Lakehouseとデータレイク暗号化に使用して、休憩時にデータ保護を強化できるようにします。シークレットがサービスおよびユーザー資格証明を安全に格納してセキュリティ・ポスチャを改善し、資格証明が損なわれて不適切に使用されないようにします。

物理アーキテクチャ

このデータレイクハウスの物理アーキテクチャでは、次のものがサポートされています。

  • マイクロ・バッチ、ストリーミング、API、リレーショナル・データ・ソースおよび非リレーショナル・データ・ソースのファイルを使用することで、データを安全に取り込むことができます
  • Oracle Cloud Infrastructure Data IntegrationOracle Cloud Infrastructure Data Flowの組合せを使用してデータが処理されます
  • データはOracle Autonomous AI LakehouseOracle Cloud Infrastructure Object Storageに格納され、品質と価値に基づいて編成されています。
  • Oracle Autonomous AI Lakehouseは、ウェアハウスおよびレイクのデータサービスを消費者に安全に提供します。
  • Oracle Analytics Cloudは、ビジュアライゼーションを使用してデータをビジネス・ユーザーに提供します
  • Oracle Analytics Cloudは、Oracle Cloud Infrastructure Web Application Firewall (WAF)によって保護されているOracle Cloud Infrastructure Load Balancerを使用して公開され、インターネットを使用してアクセスを提供します
  • Oracle Cloud Infrastructure Data Scienceは、機械学習(ML)モデルの構築、トレーニング、デプロイに使用されます
  • Oracle Cloud Infrastructure API Gatewayを利用して、データ・サイエンスMLモデル・デプロイメントを管理します
  • Oracle Cloud Infrastructure Data Catalogは、Oracle Autonomous AI Lakehouseおよびオブジェクト・ストレージからメタデータを収集します
  • Oracle Data Safeは、データに対するリスクの評価、セキュリティ制御の実装と監視、ユーザー・セキュリティの評価、ユーザー・アクティビティのモニター、データ・セキュリティ・コンプライアンス要件への対応を行います
  • Oracle Cloud Infrastructure Bastionは、管理者がプライベート・クラウド・リソースを管理するために使用されます

次の図は、このリファレンス・アーキテクチャを示しています。



lakehouse-architecture-oracle-1.zip#GUID-EE46F831-C10F-432F-A664-D78609670EB6

物理アーキテクチャの設計:

  • ハブ用に1つ、ワークロード自体用に別の2つのVCNsを活用
  • オンプレミス接続では、Oracle Cloud Infrastructure FastConnectとサイト間VPNの両方を活用して冗長性を確保します
  • オンプレミスおよびインターネットからのすべての受信トラフィックは、最初にハブVCNにルーティングされ、次にワークロードVCNにルーティングされます
  • 輸送中および休止中のすべてのデータが安全
  • サービスはプライベート・エンドポイントとともにデプロイされ、セキュリティ体制を強化します
  • VCNは、セキュリティ状態を高めるために複数のプライベート・サブネットに分離されています
  • メダリオン・アーキテクチャを活用して、レイク・データをオブジェクト・ストレージ内の複数のバケットに分離

簡略化のために、このデプロイメントに示されていない潜在的な設計の改善には、次のものがあります。

  • CIS準拠のランディング・ゾーンの活用
  • ネットワーク・ファイアウォールを利用して、すべてのトラフィックを検査し、ポリシーを適用することでセキュリティ状態全体を改善します

レコメンデーション

ビジネス分析および機械学習のためのストリーミング・データおよび幅広いエンタープライズ・データ・リソースを処理するための開始点として、次の推奨事項を使用します。

実際の要件は、ここで説明するアーキテクチャとは異なる場合があります。

  • Oracle Autonomous AI Lakehouse

    このアーキテクチャでは、共有インフラストラクチャ上でOracle Autonomous AI Lakehouseを使用します。

    • 自動スケーリングを有効にして、データベース・ワークロードの処理能力を最大3倍にします。
    • パブリック・クラウド上で実行されるプライベート・データベース・クラウド環境内のセルフサービス・データベース機能が必要な場合は、専用インフラストラクチャでOracle Autonomous AI Lakehouseを使用することを検討してください。
    • Autonomous AI Lakehouseのハイブリッド・パーティション表機能を使用して、データのパーティションをOracle Cloud Infrastructure Object Storageに移動し、それらをユーザーとアプリケーションに透過的に提供することを検討してください。この機能は、あまり消費されておらず、Autonomous AI Lakehouse内に格納されているデータと同じパフォーマンスを必要としないデータに使用することをお薦めします。
    • 外部表機能を使用して、Oracle Cloud Infrastructure Object Storageに格納されたデータをAutonomous AI Lakehouseにレプリケートしなくてもリアルタイムで消費することを検討してください。この機能により、Autonomous AI Lakehouseの外部でキュレーションされたデータセットが、フォーマット(parquet、avro、orc、json、csvなど)に関係なく、Autonomous AI Lakehouseに存在するデータと透過的かつシームレスに結合されます。
    • リアルタイム分析および混合ワークロードのパフォーマンスを大幅に向上させるには、データベースのインメモリー機能の使用を検討してください。低レイテンシで提供する必要があり、Autonomous AI Lakehouseの内部表、ハイブリッド・パーティション表または外部表に存在する、レイクハウスのデータをメモリにロードします。
    • オブジェクト・ストレージ・データを利用する際にAutonomous AI Lakehouse Acceleratorを使用することを検討し、データウェアハウスとデータレイクの間でデータを消費して結合するユーザーに、改善された迅速なエクスペリエンスを提供することを検討してください。
    • ベクトル埋込みをAutonomous AI Lakehouseにリレーショナル・データやJSONデータなどの他のデータ型とともに保存し、すべてのデータに対するデータ・エンジニアリングと分析を簡素化し、すべてのデータを使用してRAGエージェントを効率的にアースすることを検討してください。
    • Select AIをアクセラレータとして使用して、データ・エンジニアリング、ビジネス・インテリジェンス、アプリケーション開発、またはSQLの作成が必要なタスクで使用できるシンプルで複雑なSQLを作成することを検討してください。
    • ロー・コード・アプリケーションでSelect AIを使用して、アプリケーション・レイヤーをさらに簡素化することを検討してください。
    • 分析ビューを使用して、Autonomous AI Lakehouseで直接DWスターまたはスノーフレークの基礎となるスキーマをセマンティックにモデル化することを検討し、事前集計の必要なく粒度の高いデータが自動的に集計されるようにします。セマンティック・モデルは、SQLをOracle Analytics CloudなどのSQL準拠クライアントと一貫して使用することで消費され、ファクトおよびKPIが保証されますクライアントに関係なく一貫して提供され、データがAutonomous AI Lakehouseに保存されているか、OCI Object Storageに保存されているかに関係なく、すべてのデータをセマンティック・モデルで使用できるため、この機能は、ファクトとディメンションがDWとレイクの両方を横断できるレイクハウス・アーキテクチャに最適なセマンティック・モデリング・レイヤーとなります。
    • 会社または規制ポリシーのためにAutonomous AI Lakehouse暗号化キーを完全に制御する必要がある場合は、OCI Vaultを利用する顧客管理キーの使用を検討してください。
    • Autonomous AI LakehouseでDatabase Vaultを使用して、権限のない特権ユーザーが機密データにアクセスできないようにし、データの流出やデータ侵害を防止することを検討してください。
    • Oracle Autonomous Data Guardを使用して、同じリージョンまたは別のリージョンのスタンバイ・インスタンスでレプリケートされたデータを設定および保持することで、ビジネス継続性計画をサポートすることを検討してください。
    • データ・リダクションで動的データ・マスキングを使用して、ロールに応じてマスキングされたデータをユーザーに提供することを検討し、データ複製や静的マスキングを必要とせずに適切なデータ・アクセスを保証することを検討してください。
    • Autonomous AI Lakehouseクローンを使用して、他の一時環境または非一時環境を迅速に作成することを検討してください。ターゲット環境に最新のデータが必要な場合、リフレッシュ可能クローンを使用します。Oracle Data Safeを使用して、クローンの機密データを静的にマスクし、セキュリティを強化します。
    • データ共有を、他のAutonomous AI Databaseインスタンスまたはデルタ共有準拠テクノロジのいずれかで、セキュアで簡単なデータ消費および提供方法として使用することを検討してください。
    • Autonomous AI Databaseインスタンス間のライブ・データ共有を使用して、リアルタイムでデータを消費および提供することを検討してください。
    • バージョン管理されたデータ共有を使用して、コンシューマとデータを共有することを検討してください。これにより、データはプロバイダではなくコンシューマによって処理されるため、データの問合せのコストが回避されます。
    • Autonomous AI Lakehouseで読取り専用で期限付きのデータ・アクセスに事前認証済リクエストURLを使用して、コンシューマがDelta Sharingをサポートしていないユース・ケースの非機密データの共有を有効にすることを検討してください。
  • オブジェクト・ストレージ/データ・レイク

    このアーキテクチャでは、スケーラビリティと耐久性に優れたクラウド・ストレージであるOracle Cloud Infrastructure Object Storageをレイク・ストレージとして使用します。

    • メダリオン・アーキテクチャ(ブロンズ、シルバー、ゴールド)またはその他のパーティショニング・ロジックを利用して、様々なバケット・セットにレイクを編成し、データの品質とエンリッチメントに基づいてデータを分離し、データを読み取る消費者にきめ細かなセキュリティを適用し、様々な層に異なるライフサイクル管理ポリシーを適用することを検討してください。
    • 様々なオブジェクト・ストレージ層とライフサイクル・ポリシーを使用して、レイク・データを大規模に保存するコストを最適化することを検討してください。
    • 会社または規制ポリシーのためにOCIオブジェクト・ストレージ暗号化キーを完全に制御する必要がある場合は、Vaultサービスを利用する顧客管理キーの使用を検討してください。
    • 別のリージョンへのバケット・レプリケーションを設定することで、OCIオブジェクト・ストレージ・レプリケーションを使用してビジネス継続性計画をサポートすることを検討してください。OCIオブジェクト・ストレージは耐久性が高く、同じリージョン・バケット・レプリケーションでリカバリするために同じオブジェクトの複数のコピーを1つのリージョンに保持するため、必要ありません。
    • オブジェクト名またはパターンを使用してオブジェクトにOracle Cloud Infrastructure Identity and Access Management (IAM)ポリシーを使用し、データレイク直接アクセスのデータ・セキュリティを強化することを検討してください。
    • OCIオブジェクト・ストレージでプライベート・エンドポイントを使用して、データ・プラットフォームVCNからデータレイクへのセキュアでプライベートなアクセスを確保することを検討してください。
    • ネットワーク・ソースおよびIAMポリシーを使用してそれらを参照し、データ・レイク・バケットおよびオブジェクトへのアクセスを許可されているIPアドレスを管理することを検討してください。
    • pythonベースのユーティリティであるOCIFSを使用して、OCI Object Storageバケットをファイル・システムとしてマウントし、NFSでのみ動作し、ファイルをオブジェクト・ストレージにアップロードする必要があるアプリケーションのサポートを有効にすることを検討してください。
  • Oracle Machine LearningおよびOracle Cloud Infrastructure Data Science

    このアーキテクチャでは、Oracle Machine LearningOracle Cloud Infrastructure Data Scienceを活用して、予測をリアルタイムで実行し、個人およびアプリケーションに配信します。

    • MLモデルの開発を高速化するために、Oracle Cloud Infrastructure Data ScienceまたはOracle Machine LearningでAutoMLを使用することを検討してください。
    • 相互運用性のためにOpen Neural Networks Exchange (ONNX)を使用することを検討してください。ONNXサードパーティ・モデルは、OMLにデプロイしてRESTエンドポイントとして公開するか、データ・サイエンスに公開して、HTTPエンドポイントとして公開できます。
    • リアルタイム・データ・パイプラインでスコアリングと予測を実行し、リアルタイムのビジネス成果を推進できるよりタイムリな予測を行う必要がある場合は、データ・サイエンスでモデルをONNXとして保存し、OCI GoldenGate Stream Analyticsにインポートすることを検討してください。
    • データ・サイエンスConda環境を使用して、Jupyterノートブック・セッション内のPython依存関係をより適切に管理およびパッケージ化することを検討してください。
    • Oracle Cloud Infrastructure Data Science AIクイック・アクションを使用して、データ・サイエンスに基盤モデルをデプロイ、評価および微調整することを検討してください。モデル・エクスプローラで使用可能なキュレートされたオープン・ソースLLMを操作するか、独自のモデルを持ち込みます。
    • Accelerated Data Science Pythonパッケージで利用可能なデータ・サイエンスのローコードAIオペレータを使用して、予測を迅速かつ効率的に実行したり、異常検出を行ったり、推奨機能を作成したりすることを検討してください。
    • データ・サイエンスJupyter環境内でOracle Cloud Infrastructure Data Flowを使用して、Sparkスケール・アウト処理を利用して探索的データ分析、データ・プロファイリングおよびデータ準備を大規模に実行することを検討してください。
    • Oracle Cloud Infrastructure Data Labelingを使用して、イメージ、テキスト、ドキュメントなどのデータにラベルを付け、それを使用して、Data ScienceまたはOracle Cloud Infrastructure AI Services上に構築されたMLモデルをトレーニングし、予測の精度を向上させることを検討してください。
    • リアルタイム予測がパートナおよび外部エンティティによって使用されている場合は、OCI APIゲートウェイをデプロイして、デプロイされたモデルの消費を保護および管理することを検討してください。
  • Oracle Cloud Infrastructure Data Integration

    このアーキテクチャでは、Oracle Cloud Infrastructure Data Integrationを使用して、宣言的、ノーコードまたはローコードのETLおよびデータ・パイプライン開発をサポートします。

    • Oracle Cloud Infrastructure Data Integrationを活用して、Oracle Cloud Infrastructure Data Flowアプリケーションの実行を調整およびスケジュールし、宣言的ETLとカスタムSparkコード・ロジックを組み合せて照合できます。Oracle Cloud Infrastructure Data Integration内の関数を使用して、データ・パイプラインの機能をさらに拡張します。
    • ターゲットとしてAutonomous AI Lakehouseを持つ変換にSQLプッシュダウンを使用することを検討し、ETLと比較して効率的でパフォーマンスが高く安全なELTアプローチを使用することを検討してください。
    • OCI Data Integrationがデータ・ソース・スキーマ・ドリフトを処理できるようにすることを検討し、データ・ソース・スキーマの変更を維持する、より回復力があり、将来のプルーフ・データ・パイプラインを構築することを検討してください。
  • Oracle Cloud Infrastructure Data Flow

    このアーキテクチャでは、Oracle Cloud Infrastructure Data Flowを使用して、永続クラスタを保持および管理する必要なく、大規模なSparkおよびSparkストリーミング処理をサポートします。

    • Oracle Cloud Infrastructure Object Storageなどの非構造化データ・アセットおよび半構造化データ・アセットにオブジェクトのスキーマ定義を安全に格納および取得するために、Oracle Cloud Infrastructure Data FlowのHiveメタストアとしてOracle Cloud Infrastructure Data Catalogを使用することを検討してください。
    • レイク・データにACIDトランザクションとストリーミングおよびバッチ処理の統合が必要な場合は、データ・フローでDelta Lakeを使用することを検討してください。
  • ビッグ・データ・サービス

    このアーキテクチャでは、Oracle Cloud Infrastructureビッグ・データ・サービスを利用して、バッチおよびストリーミング・データを処理できるSpark、Hadoop、TrinoまたはFlinkなどの様々なオープン・ソース・テクノロジの高可用性でスケーラブルなクラスタをデプロイします。ビッグ・データ・サービスは、HDFS内のデータを永続化し、OCIオブジェクト・ストレージからデータを永続化および読取りし、データ・フローOracle Autonomous AI Lakehouseなどの他のOracle Cloud Infrastructureサービスとデータ・セットを交換できます。

    • 自動スケーリングを使用して、メトリックやスケジュールに基づいてワーカー・ノードを水平または垂直に自動的にスケーリングし、リソースの需要に基づいてコストを継続的に最適化することを検討してください。
    • OCI Object StorageのOCI HDFSコネクタを使用して、OCI Object Storageとの間でデータの読取りと書込みを行うことを検討してください。これにより、他のOCIサービスと共有するデータをレプリケートおよび複製する必要なく生成/消費するメカニズムが提供されます。
    • レイク・データにACIDトランザクションとストリーミングおよびバッチ処理の統合が必要な場合は、OCI BDSでデルタ・レイクを使用することを検討してください。
    • 他のオープン・ソース・ソフトウェアを使用する必要がある場合は、Oracle Cloud Infrastructure Registry、コンテナ・インスタンスまたはOracle Cloud Infrastructure Kubernetes Engineを使用して、コンテナ化可能なオープン・ソース・ソフトウェアをデプロイすることを検討してください。
  • Oracle Cloud Infrastructureのストリーミング

    このアーキテクチャは、Oracle Cloud Infrastructure Streamingを利用して、ソースからストリーミング・データを消費し、消費者にストリーミング・データを提供します。

    Oracle Cloud Infrastructure Service Connector Hubを活用して、OCIストリーミングからデータを移動し、OCIオブジェクト・ストレージに永続化して、さらに履歴データ分析をサポートすることを検討してください。

  • Oracle Analytics Cloud

    このアーキテクチャでは、Oracle Analytics Cloud (OAC)を利用して拡張分析をエンド・ユーザーに提供します。

    OACとOracle Cloud Infrastructure AI Services (言語およびビジョン・モデル)およびOML (任意のモデル)の事前構築済の統合を活用して、エンド・ユーザーが消費するデータ・フローおよびビジュアライゼーションにインテリジェンスを埋め込み、AIおよびML消費を民主化することを検討してください。

  • Oracle Cloud Infrastructure AI Services

    このアーキテクチャでは、デプロイされたユース・ケースに応じて、Oracle Cloud Infrastructure AI Servicesを利用できます。

    OCI Data Labelingを使用して、OCI VisionOCI Document Understanding、など、Oracle Cloud Infrastructure AI Servicesのより正確な予測を調整および取得するために使用されるトレーニング・データにラベルを付けることを検討してください。

  • Oracle Cloud Infrastructure Generative AIサービス

    このアーキテクチャでは、デプロイされたユースケースに応じて、Oracle Cloud Infrastructure Generative AIサービスを活用できます。

    • 事前トレーニング済LLMを使用するオンデマンド・プレイグラウンドおよびAPIを使用して、テキスト生成、会話、データ抽出、要約、分類、スタイル転送またはセマンティックの類似性に対処し、生成AIをパイプラインおよびプロセスにすばやく埋め込むことを検討してください。
    • 専用のAIクラスタを使用して、基本的なLLMをデータに効率的に適応させ、微調整し、完全な分離とデータ・セキュリティを確保することを検討してください。
    • コスト効率のために、組織全体の異なるチーム内でホスティング専用AIクラスタを共有することを検討してください。単一のクラスタを使用して複数のカスタム・モデルをホストでき、これらはすべて独立したエンドポイントで提供でき、専用のIAMポリシーで保護できます。
  • OCI APIゲートウェイ

    このアーキテクチャでは、OCI API Gatewayを活用して、データ・サービスとリアルタイム推論をデータ・コンシューマに安全に公開します。

    • Oracle Cloud Infrastructure Functionsを使用して、データ処理およびアクセスおよび解釈レイヤーの範囲外の特定のAPI処理をサポートするために必要なランタイム・ロジックを追加することを検討してください。
    • 使用プランを使用してAPIへのサブスクライバ・アクセスの管理、API消費の監視および管理、様々なコンシューマに対する様々なアクセス層の設定、および外部請求システムに提供できる使用状況メトリックの追跡によるデータ収益化のサポートを検討します。
  • Oracle Cloud Infrastructure Data Catalog

    プラットフォームに格納および流れるデータの完全で包括的なエンドツーエンド・ビューを取得するには、データ永続性レイヤーをサポートするデータ・ストアだけでなく、ソース・データ・ストアも収集することを検討してください。この収集された技術メタデータをビジネス用語集にマッピングし、カスタム・プロパティでエンリッチすると、ビジネス概念をマップし、セキュリティおよびアクセス定義を文書化および管理できます。

    • OCIオブジェクト・ストレージに格納されたデータを仮想化するOracle Autonomous AI Lakehouse外部表の作成を容易にするために、データ・カタログによって以前に収集されたメタデータを活用します。これにより、外部表の作成が簡素化され、データ・ストア間でメタデータの一貫性が確保され、ヒューマン・エラーの影響を受けにくくなります。
    • Oracle Cloud Infrastructure Data IntegrationおよびOracle Cloud Infrastructure Data Flowの系統トラッキングを使用して、データの取込み、変換および格納方法を可視化することを検討してください。カバレッジを増やすには、APIベースの取込みを使用してOpenLineageオープン・フレームワークを活用し、任意のソースおよびシステムの系統を追跡します。
  • Oracle Cloud Infrastructure Data Transferサービス

    パブリック・インターネット接続を使用してデータをアップロードすることが現実的でない場合は、Oracle Cloud Infrastructure Data Transferサービスを使用します。パブリック・インターネットでのデータのアップロードに1-2週間以上かかる場合は、Data Transferの使用を検討することをお勧めします。

  • Data Safeおよび監査

    監査機能とアラート機能を活用してセキュリティ体制を強化することで、データの流出を防止し、データ侵害が発生した場合にフォレンジック分析を実行できます。

    • Oracle Data Safeを使用してデータ・ウェアハウス内のアクティビティを監査することを検討し、Oracle Cloud Infrastructure Auditを使用してレイク・データへのトラフィックを監査することを検討してください。
    • Autonomous AI Lakehouseで機密データを検出するためにOracle Data Safeを使用することを検討し、非本番環境のAutonomous AI Lakehouseクローンを作成するときに静的にマスキングすることを検討して、セキュリティ・リスクを回避します。
    • Autonomous AI LakehouseOracle Data Safe SQL Firewallを使用して、データ・セキュリティ・ポスチャを高め、SQLインジェクション攻撃や侵害されたアカウントなどのリスクから保護することを検討してください。
  • デプロイメントと自動化

    この物理アーキテクチャは、Infrastructure as Code (IaC)自動化を使用してデプロイされ、データレイクハウスをデプロイするためのリソースを作成します。

    Oracle Cloud Infrastructure Resource Managerを使用すると、デプロイ可能なクラウド・リソースのTerraformスタックを作成し、インフラストラクチャ構成を共有および管理したり、複数のチームおよびプラットフォームにわたってファイルをステートできます。Oracle Cloud Infrastructure Resource Managerを使用して、非本番環境作成用のデプロイメント・スタックの作成、追加サービスが必要な新規チームのオンボーディング、組織のセキュリティおよびガバナンスで定義されたポリシーに準拠する一貫したIAMポリシーおよびセキュリティ・ガードレールを標準化および埋め込むことを検討してください。

  • ビジネス継続性

    このアーキテクチャは、単一のリージョンへのデプロイメントを記述し、ディザスタ・リカバリをサポートし、ビジネス継続性計画を実現するために2つのリージョンを拡張できます。

  • Oracle Cloud Infrastructure Full Stack Disaster Recoveryは、インフラストラクチャ、ミドルウェア、データベース、およびアプリケーションを含む、アプリケーション・スタックのすべてのレイヤーに対して包括的なディザスタ・リカバリ機能を提供するディザスタ・リカバリ・オーケストレーションおよび管理サービスです。

    OCI Full Stack Disaster Recoveryを使用して、データレイクハウスのスイッチオーバーおよびフェイルオーバー計画を設定し、ディザスタ・リカバリ・タスクを自動化し、スタンバイ・リージョンへの計画的または計画外の移行時に手動のステップを削減することを検討してください。

  • 原価最適化

    Oracle Cloud Infrastructureのコストおよび使用状況の追跡、およびコスト最適化機能を使用して、財務業務を継続的にサポートすることを検討してください。

    • コストおよび使用状況レポートを使用して、クラウド・リソースの使用量およびそれぞれのコストを取得および追跡することを検討してください。サードパーティの財務運用ソリューションと統合するために作成された業界標準のFOCUS CSVコスト・レポートを活用します。
    • コスト分析を使用して、様々なチーム、プロジェクトおよび環境で発生したコストを追跡することを検討してください。
    • コスト・トラッキング・タグを使用して、特定のチーム、プロジェクトまたは環境のクラウド・リソースにタグ付けすることを検討してください。
    • 予算を使用して支出にソフト制限を設定し、アラートを設定して、プロジェクト、チームまたは全体的な支出の予算をいつ超過するかを知らせることを検討してください。
  • 相互運用性

    このアーキテクチャは、業界標準を幅広く活用して、あらゆる組織の広範なIT異種環境と相互運用できるため、あらゆるアプリケーション、システム、または個人に対してあらゆるデータを消費し、サービスを提供できます。

    アーキテクチャでは、ParquetやAvroなどのオープン・ファイル形式がサポートされるため、データはユースケースごとにより適切な形式で格納できます。さらに、IcebergやDelta Lakeなどのオープン・テーブル・フォーマットをサポートし、Oracleテクノロジーと他のサード・パーティ・テクノロジー間の相互運用性を確保しています。
    • Oracle Autonomous AI Lakehouse Icebergのサポートを使用して、データレイクに保持されているIcebergテーブルを読み取り、消費者に提供することを検討してください。Icebergテーブルは、外部テーブルとして提供することも、Autonomous AI Lakehouseにロードすることもできます。
    • データ・フロー・デルタ・レイクUniversal Formatサポートを使用して、データ・レイク内のデータを読取り、処理および永続化することを検討してください。IcebergやHudiなどの他のオープンテーブルフォーマットのメタデータを生成する際にDelta Lakeを使用すると、異なる処理エンジンが同じデータを読み取ることができます。
  • 組織アプローチ

    このアーキテクチャは柔軟性があり、一元化されたアプローチから完全に分散化されたアプローチに至るまで、さまざまなタイプの組織アプローチをサポートできるため、データから価値を引き出す組織でも採用および使用できます。

    このアーキテクチャでは、OCI Identity and Access Management (IAM)を使用して、認証および認可のためのきめ細かい制御を広範囲に利用します。

    組織が分散型組織アプローチを採用する場合は、IAMを使用して、レイクハウスを使用してさまざまな事業部門とチームを分離し、データ製品作成の所有権を分散させ、データ・ドメインの分離を実施することを検討してください。

    OCIは、TerraformやAnsibleなどのフレームワークを活用して、アーキテクチャの導入を成功させるための鍵となる自動化とInfrastructure as Codeを備えています。

    組織が分散型アプローチを採用し、そのアプローチでデータ・ドメインを実装している場合は、事前構築済のTerraformテンプレートとOCI Resource Managerを活用して、データ・ドメインを迅速かつ一貫してデータ・プラットフォームに組み込むことを検討してください。

考慮事項

分析および機械学習のためにアプリケーション・データを収集、処理およびキュレートする場合は、次の実装オプションを考慮してください。

ガイダンス 推奨 その他のオプション 理由
Data Refinery
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure GoldenGate
  • Oracle Data Integrator
  • Oracle Autonomous Databaseのデータ変換

Oracle Cloud Infrastructure Data Integrationは、スケーラブルでコスト効率に優れた、クラウドネイティブのサーバーレスでフルマネージドのETLプラットフォームを提供します。

Oracle Cloud Infrastructure GoldenGateは、スケーラブルでコスト効率が高く、ハイブリッド環境にデプロイできる、フルマネージドの非侵入型クラウドネイティブなサーバーレス・データ・レプリケーション・プラットフォームを提供します。

データ永続性
  • Oracle Autonomous AI Lakehouse
  • Oracle Cloud Infrastructure Object Storage
Oracle Exadata Database Service

Oracle Autonomous AI Lakehouseは、簡単に使用できる、完全自律型のデータベースで、柔軟に拡張したり、高速な問合せパフォーマンスを実現したり、データベース管理を必要としません。また、オブジェクト・ストレージの外部表またはハイブリッド・パーティション表からデータに直接アクセスできます。

Oracle Cloud Infrastructure Object Storageは、無制限のデータをRAW形式で格納します。

データ・プロセス
  • Oracle Cloud Infrastructure Data Integration
  • Oracle Cloud Infrastructure Data Flow
  • Oracle Cloud Infrastructureビッグ・データ・サービス
サード・パーティ・ツール

Oracle Cloud Infrastructure Data Integrationは、スケーラブルでコスト効率に優れた、サーバーレスでフルマネージドのクラウドネイティブETLプラットフォームを提供します。

Oracle Cloud Infrastructure Data Flowは、非常に柔軟な従量制モデルを使用してデータを大規模に処理するサーバーレスSpark環境を提供します。

Oracle Cloud Infrastructure ビッグ・データ・サービスは、エンドツーエンドのセキュリティ、高いパフォーマンス、および管理と更新の容易さを備えたエンタープライズ・グレードのHadoop-as-a-Serviceを提供します。

アクセスと解釈
  • Oracle Analytics Cloud
  • Oracle Cloud Infrastructure Data Science
  • Oracle Machine Learning
  • Oracle Cloud Infrastructure AIサービス
サードパーティ・ツール

Oracle Analytics Cloudは、Oracle Autonomous AI Lakehouseの厳選されたデータと完全に管理され、緊密に統合されています。

Oracle Cloud Infrastructure Data Scienceは、Oracle Cloud Infrastructureで機械学習(ML)モデルを作成、トレーニングおよび管理するためのデータ・サイエンス・チーム用の完全に管理されたセルフサービス・プラットフォームです。データ・サイエンスデータ・サイエンスは、AutoMLやモデル・デプロイメント機能などのインフラストラクチャおよびデータ・サイエンス・ツールを提供します。

Oracle Machine Learningは、Oracle Autonomous AI Lakehouseで利用可能なデータ・サイエンスのためのフルマネージドのセルフ・サービス・プラットフォームです。ウェアハウスの処理能力を活用して、ウェアハウス外にデータを移動することなく、大規模なMLモデルの構築、トレーニング、テストおよびデプロイを行います。

Oracle Cloud Infrastructure AIサービスは、潜在的な異常の推論やセンチメントの検出などのタスクを実行するために特別に構築およびトレーニングされた事前構築済モデルを提供する一連のサービスです。

デプロイ

このリファレンス・アーキテクチャのTerraformコードは、GitHubで入手できます。コードを1回のクリックでOracle Cloud Infrastructure Resource Managerにプルし、スタックを作成してデプロイできます。または、GitHubからコンピュータにコードをダウンロードし、Terraform CLIを使用してコードをカスタマイズし、アーキテクチャをデプロイすることもできます。
  • Oracle Cloud Infrastructure Resource Managerを使用してデプロイします:
    1. をクリックしますOracle Cloudへのデプロイ

      まだサインインしていない場合は、テナンシおよびユーザー資格証明を入力します。

    2. 利用規定を確認して受諾します。
    3. スタックをデプロイする領域を選択します。
    4. 画面に表示されるプロンプトと手順に従って、スタックを作成します。
    5. スタックを作成した後、「Terraformアクション」をクリックし、「プラン」を選択します。
    6. ジョブが完了するまで待機し、プランをレビューします。

      変更を加えるには、スタックの詳細ページに戻り、「スタックの編集」をクリックして、必要な変更を行います。次に、「プラン」アクションを再度実行します。

    7. これ以上の変更が必要ない場合は、「スタック詳細」ページに戻り、「Terraformアクション」をクリックして「適用」を選択します。
  • Terraform CLIを使用してデプロイします:
    1. GitHubに移動します。
    2. リポジトリをクローニングするか、ローカル・コンピュータにダウンロードします。
    3. READMEドキュメントの指示に従ってください。

確認

  • Author: José Cruz
  • Contributors: Larry Fumagalli, Ionel Panaitescu, Mike Blackmore, Robert Lies

変更履歴

このログには、重要な変更がリストされます。