データ・サイエンス・サービス:ヘルスケアのユースケース

Oracle Cloud Infrastructureデータ・サイエンス(OCI)データ・サイエンスは、機械学習モデルを作成、トレーニングおよび管理するための、データ・サイエンス・チーム用の完全に管理されたサーバーレス・プラットフォームです。

データ・サイエンスは、Oracle Functions、データ・フローAutonomous Data Warehouseおよびオブジェクト・ストレージを含む残りのOCIスタックと統合します。Oracle Accelerated Data Science (ADS)ソフトウェア開発者キット(SDK)は、データ・サイエンス・サービスの一部として含まれるPythonライブラリで、データへの接続、データの探索とビジュアル化、AutoMLによるモデルのトレーニング、モデルの評価、モデルの説明など、データ・サイエンス・ワークフローのステップを自動化または単純化するファンクションとオブジェクトが多数あります。ADSは、データ・サイエンスのサービス・モデル・カタログや他のOCIサービス(オブジェクト・ストレージを含む)にアクセスするための簡単なインタフェースも提供しています。

アーキテクチャ

この柔軟なアーキテクチャでは、Autonomous Data Warehouseデータ・サイエンス・プラットフォームを組み合せ、Oracle Machine Learningサービスに基づく統合された状態ネットワーク全体で複数のシナリオがサポートされます。

このアーキテクチャでは、データ・サイエンスおよびAutonomous Data Warehouseに加えて、データ・カタログOracle APEX Application DevelopmentおよびOracle Analytics Cloudも使用します。また、OCIコンピュート・インスタンスを使用して、ウェアラブル・デバイス・データをAutonomous Data Warehouseまたはオブジェクト・ストレージに動的にストリーミングできるアプリケーションをホストします。このアーキテクチャは、セキュアで信頼性の高い迅速な再評価ストレージへの重要なデータの格納、短時間でのアプリケーションおよび機械学習モジュールの構築とデプロイなど、複数の目的に使用されます。

次の図は、この参照アーキテクチャを示しています。

architecture-datascience-use-cases.pngの説明が続きます
図architecture-datascience-use-cases.pngの説明

アーキテクチャには、次のコンポーネントがあります。

  • リージョン

    Oracle Cloud Infrastructureリージョンは、可用性ドメインと呼ばれる1つ以上のデータ・センターを含む、ローカライズされた地理的領域です。リージョンは他のリージョンから独立しており、広大な距離を(複数の国または複数の大陸にまたがる)分離できます。

  • 可用性ドメイン

    可用性ドメインは、リージョン内のスタンドアロンの独立したデータ・センターです。各可用性ドメインの物理リソースは、フォルト・トレランスを提供する他の可用性ドメインのリソースから分離されます。可用性ドメインは、電源や冷却、内部の可用性ドメイン・ネットワークなどのインフラストラクチャを共有しません。したがって、あるアベイラビリティ・ドメインでの障害が、リージョン内の他のアベイラビリティ・ドメインに影響を及ぼすことはほとんどありません。

  • フォルト・ドメイン

    フォルト・ドメインは、アベイラビリティ・ドメイン内のハードウェアおよびインフラストラクチャのグループです。各可用性ドメインには、独立した電源とハードウェアを持つ3つのフォルト・ドメインがあります。複数のフォルト・ドメインにリソースを分散する場合、アプリケーションでは、フォルト・ドメイン内の物理サーバー障害、システム・メンテナンスおよび電源障害を許容できます。

  • 仮想クラウド・ネットワーク(VCN)およびサブネット

    VCNは、Oracle Cloud Infrastructureリージョンで設定するカスタマイズ可能なソフトウェア定義のネットワークです。従来のデータ・センター・ネットワークと同様に、VCNではネットワーク環境を完全に制御できます。VCNには、VCNの作成後に変更できる複数の重複しないCIDRブロックを含めることができます。VCNは、リージョンまたは可用性ドメインにスコープ指定できるサブネットにセグメント化できます。各サブネットは、VCN内の他のサブネットと重複しない連続したアドレスの範囲で構成されます。サブネットのサイズは、作成後に変更できます。サブネットはパブリックまたはプライベートにできます。

  • データ・サイエンス・サービス

    機械学習モデルを作成、トレーニングおよび管理するための、データ・サイエンス・チーム用の完全に管理されたサーバーレス・プラットフォーム。Autonomous Data Warehouse、オブジェクト・ストレージなどの他のOCIサービスと簡単に統合できます。

  • Autonomous Data Warehouse

    Oracle Machine Learningを含むOracle自律型データベース。データ・サイエンティストは、データベース内Oracle Machine Learning機能および関連するノートブック・インタフェースを使用して、機械学習モデルを構築、評価、スコアリングおよびデプロイできます。Autonomous Transaction Processingを使用することもできます。

  • アプリケーションVM

    Oracle Linuxがインストールされ、データベースへのアクセスが必要なツールおよびアプリケーションをインストールする準備ができているOCIコンピュート・インスタンス。

  • データ・カタログ

    OCIデータ・カタログは、エンタープライズ・データの完全管理のセルフサービス・データ検出およびガバナンス・ソリューションです。データ・カタログでは、技術メタデータ、ビジネス・メタデータおよび運用メタデータを管理するための単一のコラボレーション環境が提供されます。

  • Oracle Analytics Cloud

    Oracle Analytics Cloudは、最新のAI駆動型セルフサービス・アナリティクス機能を使用して、データ準備、ビジュアライゼーション、エンタープライズ・レポート、拡張分析および自然言語処理と生成に対応する機能をビジネス・アナリストに提供します。

    Oracle Analytics Cloudは、Oracle Machine Learningと統合されています。この統合により、アナリストは、使用可能なデータベース内モデルをリストし、それらのモデルをOracle Analytics Cloudの分析およびダッシュボードで使用できます。

  • APEX

    Oracle APEX Application Developmentは、どこにでもデプロイできるスケーラブルでセキュアなエンタープライズ・アプリケーションを構築できるロー・コード開発プラットフォームです。これはAutonomous Databaseに含まれており、インストールは必要ありません。APEXユーザーは、Oracle Machine Learningからモデルおよび結果にアクセスできます。

推奨

実際の要件は、ここで説明するアーキテクチャとは異なる場合があります。開始点として次の推奨事項を使用します。

  • VCN

    VCNを作成する場合、VCNのサブネットにアタッチする予定のリソースの数に基づいて、必要なCIDRブロックの数と各ブロックのサイズを決定します。標準のプライベートIPアドレス空間内にあるCIDRブロックを使用します。

    プライベート接続を設定する予定の他のネットワーク(Oracle Cloud Infrastructure、オンプレミス・データ・センターまたは別のクラウド・プロバイダ内)と重複しないCIDRブロックを選択します。

    VCNを作成した後、CIDRブロックを変更、追加および削除できます。

    サブネットを設計する際には、トラフィック・フローとセキュリティ要件を考慮してください。特定の層またはロール内のすべてのリソースを、セキュリティ境界として機能する同じサブネットにアタッチします。

  • セキュリティ

    Oracle Cloud Guardを使用して、OCIのリソースのセキュリティをプロアクティブに監視および維持します。Cloud Guardは、定義可能なディテクタ・レシピを使用して、リソースにセキュリティ上の弱点がないかどうかを調べ、オペレータおよびユーザーのリスクのあるアクティビティを監視します。構成の誤りやセキュアでないアクティビティが検出された場合、Cloud Guardは修正処理を推奨し、定義可能なレスポンダ・レシピに基づいてそれらの処理を支援します。

    最大限のセキュリティを必要とするリソースの場合、Oracleではセキュリティ・ゾーンを使用することをお薦めします。セキュリティ・ゾーンは、ベスト・プラクティスに基づくセキュリティ・ポリシーのOracle定義レシピに関連付けられたコンパートメントです。たとえば、セキュリティ・ゾーン内のリソースにパブリック・インターネットからアクセスできないようにする必要があり、顧客管理キーを使用して暗号化する必要があります。セキュリティ・ゾーンでリソースを作成および更新すると、OCIでは、セキュリティ・ゾーン・レシピのポリシーに対して操作が検証され、ポリシーに違反する操作が拒否されます。

  • Autonomous Data Warehouse

    データ・サイエンティストが排他的に使用する別のスキーマを作成します。メイン・データ・ウェアハウス・スキーマへの読取り専用アクセス権をスキーマに付与します。この配置により、データ・サイエンティストは探索、分析およびモデル構築のためにデータのローカル・ビューを作成できます。必要に応じて、共有データを独自のスキーマにコピーし、そこでローカルで変更できます。

  • 仮想マシン

    VMは、高可用性のために複数のフォルト・ドメインに分散されます。コンピュート・インスタンスには柔軟なVMシェイプを使用することをお薦めします。これにより、数分でVMの容量を増減できます。

  • オブジェクト・ストレージ

    Object Storageは、信頼性とコスト効率に優れたデータ永続性を提供し、データベース・データ、分析データ、イメージ、ビデオなど、あらゆるコンテンツ・タイプの大量の構造化データおよび非構造化データに迅速にアクセスできます。標準ストレージを使用して外部ソースからデータを収集することをお薦めします。これは、アプリケーションおよびユーザーがすぐにアクセスできるためです。頻繁にアクセスする必要がなくなった場合に、標準ストレージからアーカイブ・ストレージにデータを移動するライフサイクル・ポリシーを作成できます。

注意事項

この参照アーキテクチャをデプロイする場合は、次の点を考慮してください。

  • セキュリティ

    ポリシーを使用して、会社が所有するOCIリソースにアクセスできるユーザーとそのアクセス方法を制限します。

  • アプリケーションの可用性

    フォルト・ドメインは、単一の可用性ドメイン内で最高の回復力を提供します。複数のフォルト・ドメインで同じタスクを実行するコンピュート・インスタンスをデプロイできます。この設計では、冗長性を導入することで単一点障害を解消します。

  • コスト

    要件を評価して、適切なコンピュート・シェイプを選択します。

  • モニタリングとアラート

    必要に応じてシェイプをスケール・アップまたはスケール・ダウンできるように、ノードのCPUおよびメモリー使用率の監視およびアラートを設定します。

デプロイ

この参照アーキテクチャのデプロイに必要なコードは、GitHubで入手できます。シングルクリックでコードをOracle Cloud Infrastructure Resource Managerにプルし、スタックを作成してデプロイできます。または、GitHubからコンピュータにコードをダウンロードし、Terraform CLIを使用してコードをカスタマイズし、アーキテクチャをデプロイします。

  • Oracle Cloud Infrastructure Resource Managerを使用してデプロイします。
    1. Oracle Cloudへのデプロイをクリックます。

      まだサインインしていない場合は、テナンシおよびユーザー資格証明を入力します。

    2. 条件を確認し、受け入れます。
    3. スタックをデプロイするリージョンを選択します。
    4. 画面に表示されるプロンプトと指示に従ってスタックを作成します。
    5. スタックの作成後、「Terraformアクション」をクリックし、「プラン」を選択します。
    6. ジョブが完了するまで待機し、プランをレビューします。

      変更するには、「Stack Details」ページに戻り、「Edit Stack」をクリックして、必要な変更を行います。次に、プラン処理を再実行します。

    7. これ以上変更が必要ない場合は、「Stack Details」ページに戻り、「Terraform Actions」をクリックして「Apply」を選択します。
  • GitHubのTerraformコードを使用してデプロイします。
    1. GitHubに移動します。
    2. リポジトリをローカル・コンピュータにクローニングまたはダウンロードします。
    3. READMEドキュメントの指示に従います。

参照情報

Oracle Cloud Infrastructure Data Scienceの詳細は、次の資料を参照してください。