ヘルスケアのユース・ケース用の機械学習モデルのトレーニング

Oracle Cloud Infrastructure Data Scienceサービスを使用して、医療のユース・ケース用の機械学習モデルを調べてトレーニングします。

アーキテクチャ

このアーキテクチャは、Oracle Cloud Infrastructure (OCI)での一般的なOracle Cloud Infrastructure Data Scienceデプロイメントを示しています。

次の図は、コア・サービスと、必要に応じて組み込むことができるオプションのサービスの一部を示しています。

healthcare- ml- design- pattern.pngの説明が続きます

図healthcare- ml- design- pattern.pngの説明

ヘルスケア- ml- design- pattern- oracle.zip

次に、アーキテクチャの主なコンポーネントを示します。

ストレージの場所としてオブジェクト・ストレージまたはOracle Autonomous Database。
モデルの探索と開発のためのデータ・サイエンス・ノートブック・セッション
モデル・デプロイメントをモデル化し、REST APIを介してモデルを利用できるようにします。

このアーキテクチャでは、次のコンポーネントがサポートされます。

リージョン
Oracle Cloud Infrastructureリージョンは、可用性ドメインと呼ばれる1つ以上のデータ・センターを含む、ローカライズされた地理的な領域です。リージョンは他のリージョンから独立しており、巨大な距離は(国全体または大陸にわたって)分離できます。
仮想クラウド・ネットワーク(VCN)とサブネット
VCNは、Oracle Cloud Infrastructureリージョンで設定する、カスタマイズ可能なソフトウェア定義のネットワークです。従来のデータ・センター・ネットワークと同様に、VCNはネットワーク環境を完全に制御できます。VCNには、VCNの作成後に変更できる複数の重複しないCIDRブロックを含めることができます。VCNをサブネットにセグメント化して、そのスコープをリージョンまたは可用性ドメインに指定できます。各サブネットは、VCN内の他のサブネットと重複しない連続した範囲のアドレスで構成されます。サブネットのサイズは、作成後に変更できます。サブネットはパブリックでもプライベートでもかまいません。
インターネット・ゲートウェイ
インターネット・ゲートウェイを使用すると、VCN内のパブリック・サブネットとパブリック・インターネット間のトラフィックが許可されます。
APIゲートウェイ
Oracle API Gatewayでは、ネットワーク内からアクセス可能なプライベート・エンドポイントとともに、必要に応じてパブリック・インターネットに公開できるAPIを公開できます。エンドポイントは、API検証、リクエストとレスポンスの変換、ORS、認証と認可およびリクエスト制限をサポートします。
データ統合
Oracle Cloud Infrastructure Data Integrationは、様々なデータ・ソースからAutonomous Data WarehouseやOracle Cloud Infrastructure Object StorageなどのターゲットOracle Cloud Infrastructureサービスにデータを抽出、ロード、変換、クレンジングおよび再シェイプする、完全に管理されたサーバーレスのクラウドネイティブ・サービスです。ETL (変換負荷の抽出)はSparkで完全に管理されたスケールアウト処理を使用し、ELT (ロード変換の抽出)はAutonomous Data Warehouseの完全なSQLプッシュダウン機能を利用して、データの移動を最小限に抑え、新しく取り込んだデータの価値実現までの時間を短縮します。ユーザーは、直感的でコードレスなユーザー・インタフェースを使用してデータ統合プロセスを設計し、統合フローを最適化して最も効率的なエンジンおよびオーケストレーションを生成し、実行環境を自動的に割当ておよびスケーリングします。Oracle Cloud Infrastructure Data Integrationは、対話型探索およびデータ準備を提供し、スキーマ変更を処理するルールを定義することで、データ・エンジニアがスキーマ・ドリフトから保護するのに役立ちます。
データ・カタログ
Oracle Cloud Infrastructure Data Catalogは、エンタープライズ・データの完全管理型のセルフサービス・データ検出およびガバナンス・ソリューションです。データ・エンジニア、データ・サイエンティスト、データ・スチュワードおよびチーフ・データ担当者は、組織の技術メタデータ、ビジネス・メタデータおよび運用メタデータを管理するための単一のコラボレーション環境を提供します。
オブジェクト・ストレージ
オブジェクト・ストレージでは、データベースのバックアップ、分析データ、イメージやビデオなどのリッチ・コンテンツなど、あらゆるコンテンツ・タイプの構造化データおよび非構造化データにすばやくアクセスできます。インターネットから直接またはクラウド・プラットフォーム内から、安全かつセキュアにデータを格納し、取得できます。パフォーマンスやサービスの信頼性を低下させることなく、シームレスにストレージを拡張できます。迅速、即時、頻繁にアクセスする必要があるホット・ストレージには、標準ストレージを使用します。アーカイブ・ストレージは、長期間保持し、ほとんどまたはめったにアクセスしないコールド・ストレージに使用します。
Autonomous Database
Oracle Cloud Infrastructure Autonomous Databaseは、完全に管理された事前構成済のデータベース環境であり、トランザクション処理およびデータ・ウェアハウスのワークロードに使用できます。ハードウェアの構成や管理、ソフトウェアのインストールを行う必要はありません。Oracle Cloud Infrastructureでは、データベースの作成、およびデータベースのバックアップ、パッチ適用、アップグレードおよびチューニングが処理されます。
データ・科学
Oracle Cloud Infrastructure Data Scienceは、エンドツーエンドの機械学習(ML)サービスであり、JupyterLabノートブック環境を提供し、数百もの一般的なオープン・ソース・ツールおよびフレームワークにアクセスできます。NVIDIA GPU、AutoML機能および自動ハイパーパラメータ・チューニングにより、MLモデルを構築およびトレーニングします。モデルをHTTPエンドポイントとしてデプロイするか、Oracle Functionsを使用します。バージョン管理、繰返し可能なジョブおよびモデル・カタログを通じてモデルを管理します。

機械学習に関する考慮事項

Oracle Cloud Infrastructure Data Scienceサービスで機械学習を開始する場合は、次の点を考慮してください。

データの理解
データは、あらゆる機械学習プロジェクトの主要な最も重要なコンポーネントです。公開されたデータセットは一般的にキュレートされ、すでに機能が抽出されている場合もあるため、サービスについて学習するための適切な選択肢となります。

新しいデータを操作するには、アーティファクトをクリーンアップする作業を増やし、欠落値を取り込んだり、データセットをその他の機能で変換、エンコードまたは拡張する作業が必要です。

データ・サイエンティスト・ワークフローのこの部分は一般的に最も時間がかかり、機械学習プロジェクトに費やす時間の80%から90%を簡単に説明できます。
Jupyter Notebookの構文について学習します
Oracle Cloud Infrastructure Data Scienceサービスは、広く採用されているJupyter Notebookフレームワークの上に構築されます。python言語でデータを実験するための豊富なビジュアル環境を提供します。Pythonはデータ・サイエンスで最も人気のある言語の1つで、Jupyter Notebookは特定の構文(マジックと呼ばれます)を使用して言語を強化し、データのビジュアル・レンダリングを強化しながら、煩雑な操作の一部を縮小するのに役立ちます。時間をかけて、Jupyter Notebookに固有の構文の詳細を調べて、これらの機能を利用します。
高価な操作にジョブを使用
探索はJupyter Notebookインタフェースに適した非常にインタラクティブなアクティビティですが、モデル・トレーニングやハイパーパラメータ・チューニングなどの高価な操作には長期間かかる場合があり、ジョブ機能にオフロードできるため、ユーザーは長時間実行するスクリプトを専用マシンで実行できます。