Autonomous Data Warehouseの機械学習プラットフォーム

急速に変化する情報ニーズに対応するために、組織は機械学習(ML)モデルを迅速にトレーニング、デプロイおよび管理するすべての機会を求めています。

Oracle Autonomous Data Warehouse (ADW)では、データのロードと準備、機械学習モデルのトレーニング、デプロイおよび管理に必要なすべてのツールが組み込まれています。これらのサービスはAutonomous Data Warehouseに含まれていますが、組織のニーズに合せて他のツールを柔軟に混合および照合することもできます。

このリファレンス・アーキテクチャでは、テクノロジ・ソリューションをビジネス・コンテキスト全体に配置します。

data-driven-business-context.pngの説明が続きます
図data-driven-business-context.pngの説明

組織がデータ・ウェアハウスまたはデータ・マートをクラウドの機械学習プラットフォームとともに実装する場合、エンドツーエンドのソリューションを実装するために、複数のサービスを連携させる必要があります。組織によっては、これは達成可能ですが、経験やリソースがない組織では、困難な作業になる可能性があります。

包括的な機械学習プラットフォームには、少なくとも次のものを含める必要があります。

  • 構造化データと非構造化データの両方への容易なアクセス
  • データ・エンジニアリング・パイプラインを構築および管理する機能
  • ビジネス目標に合わせてモデルを構築し、データを大規模にスコアリングする機能
  • 機械学習モデルを構築するためのコラボレーション・プラットフォーム
  • モデルを管理およびデプロイするための簡単なプロセス
  • AutoMLを使用して、機械学習モデルを構築できるユーザーのリーチを拡大し、データ・サイエンティストの作業を加速します。

Autonomous Data Warehouseに含まれるツールの機械学習プラットフォームは、ITリソースおよび可用性に大きく依存せずに機械学習の利点を提供する効果的な方法を部門および組織に提供します。また、製品の更新およびセキュリティ・パッチは、Autonomous Data Warehouseを介して自動的に処理されます。

アーキテクチャ

このアーキテクチャでは、Oracle Autonomous Data Warehouseに組み込まれているデータ・サイエンスおよび機械学習機能を使用して、ビジネス分析および機械学習のために幅広いエンタープライズ・データ・リソースのデータを分析します。

次の図は、ユースケースに応じてユーザーがフォローできる複数のパスを示しています。最も簡単なパス(実線)は、データ・エンジニアリング・タスクの実行、機械学習モデルの構築、およびAutonomous Data Warehouse (ADW)に埋め込まれたツールによるモデルの管理およびデプロイの簡単な方法を提供します。より高度なユース・ケース(破線)の場合は、ADWに含まれるサービスとシームレスに統合される他のOracle Cloud Infrastructure (OCI)サービスが含まれています(グレーの線で示されています)。

ml-adw-architecture.pngの説明が続きます
図ml-adw-architecture.pngの説明

ml-adw-architecture-oracle.zip

このアーキテクチャでは、次の論理区分に焦点を当てています。

  • 取込み、変換

    アーキテクチャの各データ・レイヤーで使用するデータを取り込み、絞り込みます。

  • 永続、キュレート、作成

    現在のビジネス・ビューを表示するデータへのアクセスおよびナビゲーションが容易になります。リレーショナル・テクノロジの場合、データは論理的または物理的に単純なリレーショナル形式、縦方向形式、ディメンション形式またはOLAP形式で構造化されます。非リレーショナル・データの場合、このレイヤーには、分析プロセスからの出力または特定の分析タスク用に最適化されたデータの1つ以上のデータ・プールが含まれます。

  • 分析、学習、予測

    コンシューマのデータの論理ビジネス・ビューを抽象化します。この抽象化により、開発への俊敏なアプローチ、ターゲット・アーキテクチャへの移行、および複数のフェデレーテッド・ソースからの単一のレポート・レイヤーのプロビジョニングが容易になります。

次の図は、セキュリティのベスト・プラクティスを使用した、Oracle Cloud Infrastructureで提供されるサービスへのアーキテクチャのマッピングを示しています。



oci-adb-oac-arch-gw-oracle.zip

アーキテクチャには、次のコンポーネントがあります。

  • データ統合

    Autonomous Data Warehouseには、多くの部門シナリオおよび特定の高度なユースケースでデータを取得、ロードおよび変換するために必要な組込みツールが付属しています。Autonomous Data Warehouseは、ローカルまたはオブジェクト・ストレージからデータをすばやくロードできるロード機能です。また、Autonomous Data Transformsも含まれているため、様々なソース・タイプのデータに接続し、ELTタイプの機能にアクセスできます。

    より高度なユースケースについては、Oracle Cloud Infrastructure Data Integrationがあります。Oracle Cloud Infrastructure Data Integrationは、完全に管理されたサーバーレスのネイティブ・クラウド・サービスであり、様々なソースからのデータの取込み、そのデータのクレンジング、変換および再整形、Oracle Cloud Infrastructure上のターゲット・データ・ソースへの効率的なロードなどの一般的な抽出、ロードおよび変換(ETL)タスクに役立ちます。

  • Autonomous Data Warehouse

    Oracle Autonomous Data Warehouseは、データ・ウェアハウスのワークロード用に最適化された自己駆動型の自己保護された自己修復データベース・サービスです。ハードウェアを構成または管理する必要も、ソフトウェアをインストールする必要もありません。Oracle Cloud Infrastructureは、データベースの作成と、データベースのバックアップ、パッチ適用、アップグレードおよびチューニングを処理します。

    Autonomous Data Warehouseでは、構造化、JSON、XML、グラフ、空間などの複数の形式にデータを柔軟にロードできます。このサービスにバンドルされているAutonomous Toolsでは、データを表に簡単にロードしてETL作業を軽くすることができます。

    Oracle Machine Learningは、Autonomous Data Warehouseのコアに組み込まれています。これにより、データベースのカーネルでデータベース内アルゴリズムを実行し、即時デプロイのための最上級のデータベース・オブジェクトを生成できます。

  • オブジェクト・ストレージ

    Oracle Cloud Infrastructure Object Storageは、信頼性が高くコスト効率の高いデータ耐久性を実現するインターネット規模の高性能なストレージ・プラットフォームです。Oracle Cloud Infrastructure Object Storageでは、分析データを含む、あらゆるコンテンツ・タイプの非構造化データを無制限に格納できます。インターネットから直接またはクラウド・プラットフォーム内部からデータを格納または取得できます。複数の管理インタフェースを使用すると、パフォーマンスやサービスの信頼性を低下させることなく、簡単に小規模で開始してシームレスに拡張できます。

  • 予測

    Oracle Machine Learning Servicesは、Oracle Machine Learning (OML)機能を拡張して、データベース内Oracle Machine Learningモデルとサード・パーティのOpen Neural Networks Exchange (ONNX)機械学習モデルの両方のモデル・デプロイメントおよびモデル・ライフサイクル管理をREST APIを介してサポートします。Oracle Machine Learning Servicesは、アプリケーションおよびダッシュボードのリアルタイムおよび小規模バッチ・スコアリングをサポートしています。

    Oracle Machine Learning ServicesのREST APIは、Autonomous Data Warehouseを介した認証をRESTエンドポイントに提供します。これらのエンドポイントを使用すると、機械学習モデルとそのメタデータを格納および管理できます。これらのエンドポイントでは、モデルのスコアリング・エンドポイントを作成することもできます。

    Oracle Machine Learning Servicesでは、Scikit - learnやTensorFlowなどのパッケージを使用して構築し、ONNX形式でエクスポートできるサード・パーティの分類または回帰モデルがサポートされています。Oracle Machine Learning Servicesでは、トピックの検出、キーワード、サマリー、センチメントおよび類似性のための統合された認識テキスト分析がサポートされています。Oracle Machine Learning Servicesは、サード・パーティのONNX形式のモデル・デプロイメントを介したイメージ分類もサポートし、イメージまたはエクステンサを使用したスコアリングもサポートしています。

    ユーザーは、シングルトン、小規模バッチおよび大規模バッチ・スコアリング用のSQL、RおよびPythonのデータベース内モデルを使用して、データベース内で直接予測することもできます。ユーザーは、OML4Py組込みPython実行を利用して、サードパーティ・パッケージから生成されたモデルを使用してユーザー定義のPython関数を起動し、PythonおよびRESTインタフェースから予測できます。

  • Learn

    Oracle Machine Learning Notebooksは、データ・サイエンティストとビジネスおよびデータ・アナリストがSQLおよびPythonインタプリタと連携しながら、Autonomous Data Warehouse (ADW)、Autonomous Transaction Processing (ATP)およびAutonomous JSON Database (AJD)を含むOracle Autonomous Databaseで機械学習を実行するためのコラボレーション・ユーザー・インタフェースを提供します。Oracle Machine Learning Notebooksを使用すると、幅広いデータ・サイエンス・チーム(データ・サイエンティスト、シチズン・データ・サイエンティスト、データ・アナリスト、データ・エンジニア、DBA)が連携してデータを視覚的に調査し、OML4SQLとOML4Pyを使用して分析手法を開発できます。The Notebooks interface provides access to Oracle's high-performance, parallel, and scalable in-database implementations of machine learning algorithms via Python, SQL, and PL/SQL.データベース内機能には、SQL Developer、オープン・ソース・ノートブック環境、サード・パーティIDEなどの外部インタフェースを介してAutonomous Databaseへの接続を介してアクセスすることもできます。

    OML4Pyは、自動化されたアルゴリズムおよび機能選択、および自動化されたモデルのチューニングおよび選択のための自動機械学習(AutoML)用のPython APIも提供します。

    Oracle Machine Learning AutoMLユーザー・インタフェース(OML AutoML UI)は、Oracle Machine Learningサービスへのデプロイが容易な自動機械学習を提供する、コーディング不要のユーザー・インタフェースです。広範なデータ・サイエンス・バックグラウンドを持たないビジネス・ユーザーは、OML AutoML UIを使用して機械学習モデルを作成およびデプロイしたり、対応するOML4Pyコードを含むOMLノートブックを生成してモデルを再構築し、データをプログラムでスコアリングできます。

    エキスパートのデータ・サイエンティストは、OML AutoML UIを生産性アクセラレータとして使用して、モデルの検索を高速化し、デプロイメントを容易にし、ノートブックの生成を開始できます。

  • 「アナリティクス」

    Oracle Analytics Cloudは、コラボレーティブな分析を検討および実行するための完全な機能をユーザー、ワークグループおよびエンタープライズに提供する、スケーラブルで安全なパブリック・クラウド・サービスです。

    Oracle Analytics CloudOracle Machine Learningと統合されており、Oracle Analytics Cloudのワークフローおよびダッシュボード内で検索、ビジュアル化およびデプロイできるデータベース内モデルにアクセスできます。

    Oracle Analytics Cloudには、短時間のセットアップ、簡単なスケーリングとパッチ適用、自動ライフサイクル管理など、柔軟なサービス管理機能も用意されています。

推奨

次の推奨事項を、高度なクラウド・データ・ウェアハウスと機械学習操作フレームワークの両方のプラットフォームの作成の開始点として使用します。

実際の要件は、ここで説明するアーキテクチャとは異なる場合があります。

  • 取込み、変換

    Autonomous Database Toolsは、Oracle Autonomous Data Warehouseに組み込まれている機能で、ビジネス・モデルのロード、変換、カタログ化、インサイトの取得、さらには簡単な方法でのビジネス・モデルの開発を行うことができます。

  • 分析、学習、予測

    Oracle Analytics CloudOracle Autonomous Data Warehouseに接続する前に、データベース管理者に、Oracle Analytics CloudインスタンスのIPアドレス(またはアドレス範囲)を許可するよう依頼します。データベース管理者は、Oracle Analytics CloudからデータベースへのTCP/IPトラフィックを許可するセキュリティ・ルールを追加する必要があります。

注意事項

クラウド・データ・ウェアハウスとともに機械学習の操作フレームワークを作成する場合は、次の実装オプションを検討してください。

  • データ重力:機械学習の操作フレームワークをデータに近づけて、データ移動のコストが高くなるようにします。これは、金銭的な時間と機械学習モデルの開発時間の両方で制限されます(機械学習モデルを使用したデータ・スコアリングの場合も同様です)。
  • 価値実現までの時間の短縮:次の表の推奨事項は、迅速に開始し、ソリューションの価値の実現を開始するのにかかる時間を短縮するのに役立ちます。
ガイダンス 推奨 その他のオプション 理由
取込み、変換 Autonomous Databaseツール Oracle Cloud Infrastructureデータ統合 これはユースケースに依存します。オブジェクト・ストレージまたはローカル・データ・ストレージ上のファイルからデータを簡単にロードするには、Autonomous Database Toolsを使用します。前述のように、ユースケースに応じてAutonomous Data Warehouseデータ変換を使用することもできます。より高度な場合は、オンデマンド・サービスであるOracle Cloud Infrastructureデータ統合を使用します。
永続 Oracle Autonomous Data Warehouse Autonomous Data Warehouseは、データ・ウェアハウスの分析ニーズを提供するだけでなく、高度なOracle Machine Learning運用フレームワークをデプロイする機能も含まれるクラウド・データ・ウェアハウスです。また、任意の数の形式やタイプに格納されている外部表を介して、オブジェクト・ストレージからデータに直接アクセスできます。
Learn OML4SQL、OML4PyおよびOML4Rを含むOracle Machine Learning Notebooks

Oracle Machine Learning AutoML UI

サードパーティー

OCIデータ・サイエンス

OMLノートブックは、Autonomous Data Warehouseプラットフォームに含まれるコラボレーション・ノートブック環境です。ユーザーは、OML4SQL、OML4PyおよびOML4Rを使用して、データベース内でモデルを直接構築できます。データベース内モデルは、Oracle DatabaseAutonomous Data Warehouseの間でエクスポートおよびインポートできます。ユーザーは、Autonomous Database内のカスタムのconda環境とともにサード・パーティ・ツールを使用してPythonおよびRモデルを構築するか、Oracle Machine Learningフレームワークの外部で構築して、OML4Py-embeddedおよびOML4R-embeddedの実行で使用するためにこれらのネイティブ・モデルをデータベース・データストアに格納できます。
予測

Oracle Machine Learningサービス

OML4SQL、OML4PyおよびOML4Rを含むOracle Machine Learning Notebooks

Oracle Cloud Infrastructureデータ・サイエンス

SQL問合せおよびOML4R/OML4Pyインタフェースを使用するデータベース内モデル

Oracle Machine Learning Servicesによって管理されるモデル・デプロイメントでREST APIを介してモデルをスコアリングする機能。Oracle Machine Learning Servicesでは、ONNX形式を介してOracle Machine Learningフレームワークの外部で作成されたモデルをインポートすることもできます。これには、Oracle Cloud Infrastructure Data Science内で生成されたモデルを含めることができます。
アクセスと解釈 Oracle Analytics Cloud サードパーティーのツール Oracle Analytics Cloudは、Oracle Machine Learningフレームワークと完全に管理され、緊密に統合されています。主な機能の1つは、スケーラブルな機械学習およびダッシュボードのために、Oracle Machine Learningで構築されたモデルをOracle Analytics Cloudにデプロイできることです。

デプロイ

この参照アーキテクチャのデプロイに必要なコードは、GitHubで入手できます。シングルクリックでコードをOracle Cloud Infrastructure Resource Managerにプルし、スタックを作成してデプロイできます。または、GitHubからコンピュータにコードをダウンロードし、Terraform CLIを使用してコードをカスタマイズし、アーキテクチャをデプロイします。

  • Oracle Cloud Infrastructure Resource Managerを使用してデプロイします。
    1. Oracle Cloudへのデプロイをクリックします

      まだサインインしていない場合は、テナンシおよびユーザー資格証明を入力します。

    2. 条件を確認し、受け入れます。
    3. スタックをデプロイするリージョンを選択します。
    4. 画面に表示されるプロンプトと指示に従ってスタックを作成します。
    5. スタックの作成後、「Terraformアクション」をクリックし、「プラン」を選択します。
    6. ジョブが完了するまで待機し、プランをレビューします。

      変更するには、「Stack Details」ページに戻り、「Edit Stack」をクリックして、必要な変更を行います。次に、プラン処理を再実行します。

    7. これ以上変更が必要ない場合は、「Stack Details」ページに戻り、「Terraform Actions」をクリックして「Apply」を選択します。
  • GitHubのTerraformコードを使用してデプロイします。
    1. GitHubに移動します。
    2. リポジトリをローカル・コンピュータにクローニングまたはダウンロードします。
    3. READMEドキュメントの指示に従います。

変更ログ

このログには、重要な変更がリストされます。