関連治療: Oracle Cloud上のHPCバイオテクノロジ・アナリティクス・プラットフォーム

病気の原因をよく理解し、これらの病気を治療するための新しい方法を発見し、失敗した薬剤開発プログラムの数を減らすために、関係療法(RelationRx)は、グラフベースの推奨エンジンを使用して、人間の遺伝学、単一細胞のプロファイルおよび機能性ゲノミクスの関係をマッピングします。

RelationRxは、Oracle Cloud Infrastructure (OCI)上の高パフォーマンス・コンピューティング・クラスタでバイオテクノロジ・アナリティクス・プラットフォームを実行することにより、データ・サイエンスと機械学習方法を適用して、病気を引き起こす原因となる関係を迅速に特定します。

2019年に設立されたロンドンベースのスタートアップは、現在、ビル&メリンダ・ゲイツ財団と協力して、COVID-19から生じる免疫合併症の治療候補を特定しています。また、Mila AI Research InstituteとG3 Therapeuticsとも協力しており、深分子プロファイリング、DNAメチル化、RNAシークエンシング、プロテオミクス、メタボロミックス、リピドミックスに焦点を当てています。

プラットフォームをOCIに移行して以来、RelationRxはデータ・メッシュ・アーキテクチャを構築し、バイオテクノロジ・スタートアップがエンジニアとデータ・サイエンティストの両方でデータを利用できるようにします。その結果、RelationRXデータ・サイエンティストは、データに対する所有権を維持しながらエンジニアリング・チームによって構築されたコンピュートおよびインフラストラクチャを共有し、Oracle Cloud Infrastructure Identity and Access Management、ポリシーおよびグループを使用してアクセスを制御できるようになりました。

Relation Therapeuticsアーキテクチャのユニークな側面は次のとおりです。

  • ベア・メタルおよび高性能コンピューティング(HPC)リソースの適用
  • NVMeベースのストレージを使用して、最大10テラバイトのデータに対応し、データ・アクセスのレイテンシが原因でサーバーの速度が低下しないようにする
  • ブループリントに基づく環境の構築により、一貫した方法で新しい設定を作成できます。
  • データ・メッシュ設計原則を使用したデータ管理

RelationRxによるOCIの導入は、OCIがすべての技術要件を満たすという事実だけでなく、Oracleチームのスタートアップに対する卓越した理解、適切な人材やリソースに対するサポート、他の場所では利用できないRelationRxのニーズにも注意を払うようになりました。

アーキテクチャ

アーキテクチャの中核は、高性能コンピューティング(HPC)およびベア・メタル・サーバーのRelation Therapeuticsのアプリケーションであり、データ・サイエンスと機械学習プロセスを強化しています。

これらの機能を最大限に活用するために、Relation Therapeuticsは現在データを取り込み、ロンドンのデータ取込みとデータ・サイエンスのプロセスとフランクフルトの機械学習(ML)を使用して、2つの地域(ロンドンとフランクフルト)にわたってコンピュータ・リソースを管理します。データ・セットは、ラボやベンダー、その他のパブリック・ソースから収集されます。リレーション・セラピューティクスは、抽出、変換およびロード(ETL)パイプラインを介して受信データを実行します。ETLパイプラインは、データのクレンジング、標準化、および必要に応じてデータの匿名化を行います。データ・サイエンス・サービスは、さらにクレンジングが必要な可能性のあるデータ問題の識別に役立ちます。分析機能は、ML処理の要件の開発にも使用されます。その後、収集および準備されたデータはナレッジ・トラフにリンクされ、会社のデータ・レイクに格納されます。ここから、データは会社の機械学習パイプラインを介して実行されます。このパイプラインは分析および使用され、参照の作成または追加の実験の実行に使用されます。

合計のLondonリージョンは、4つの主要なプライベート・サブネットで構成されます。

  1. データ・サイエンス・システム(1つのベア・メタル・サーバーを含む)
  2. ETLファイル・システム(自動スケーリングを使用する3つのVMおよびインスタンス・プールを含む)
  3. サービス・クラスタ。コンテナ、Oracle Cloud Infrastructure Container Engine for Kubernetes (OKE)、永続ボリュームおよびドメイン・ネーム・サーバー(DNS)が含まれます
  4. 1つの仮想マシンと1つのベア・メタル・コンピュート・サーバーをデータ・サイエンティストに提供するクラスタの開発とテスト

データ・メッシュ・アーキテクチャとオーバーレイしたデータ・レイクには、収集および使用のために読み取られた準備済データが保持されます。データ・メッシュ・アプローチは、専用のデータ・エンジニアリング・チームが必要ではなく、データを所有するチームがデータを管理できることを意味します。これらの設計の概念は、OCIサービスの使用中にデータの提供と使用を迅速かつ柔軟に実現するために役立ちます。

Frankfurtリージョンでは、Relation Therapeuticsマシン学習ユーザーが、オフィスをOCIに接続する構成済の仮想プライベート・ネットワーク(VPN)を使用してOCI上の仮想クラウド・ネットワーク(VCN)にアクセスします。ユーザーがOracle Cloud Infrastructure Identity and Access Managementを介して認証された後、OCIで提供されるサービスを操作できます。環境は、研究に必要なコア・リソースを提供する共通テンプレート(モチーフ)から機能します。このコア・テンプレートは、自動スケーリングできるように定義されており、独自のプライベート・サブネットに存在するため、サービスに制御とセキュリティを提供します。コア・サービス・クラスタには、仮想マシン、高パフォーマンス・ストレージ、ドメイン・ネーム・システム・サーバー(DNS)およびOKEとコンテナが含まれており、機械学習および分析プロセスを実行します。ユーザーは、個別のサービス・サブネットを使用して、必要に応じて追加の技術リソースおよびデータ・リソースをテンプレートに補完できます。

これらのリソースの管理は、独自のサブネットを占有する要塞サーバーを介して行われます。要塞は、高パフォーマンス・コンピューティング・クラスタにアクセスして管理するために使用されます。要塞ノードでは、次のものがサポートされます。

  1. 計算ノードのスケジューリングと動的バースト制御
  2. NFSファイル・サーバーを使用したHPC環境へのファイル転送とHPC環境からのファイル転送
  3. クラスタ管理
  4. ユーザー・アクセス制御

新しいアルゴリズムと他の機械学習ワークロードによる開発と実験をサポートするために、ユーザーは仮想マシンとベア・メタルGPUの両方を含むテストおよびステージング環境にアクセスできます。これらの環境には、継続的インテグレーションおよび継続的開発(CI/CD)機能が補足されています。本番以外の環境には独自のサブネットもあり、数十テラバイトのデータまで実行できる本番データ・セットの小規模なサブセットで動作するようにサイズ設定されます。これらの環境には、8つのNvidia Tesla A100 GPUを含む2つのベア・メタル・サーバーの使用が含まれます。

ワークロードを管理するために、HPCサービスを管理するためのオープン・ソース・ソフトウェアであるSLURMは要塞サーバー上にあり、ユーザー・ジョブ要件に基づいてHPCワークロードを実行するための適切な数のコンピューティング・インスタンスを起動します。ジョブの実行が完了すると、同じリソースを待機しているキュー内にほかのジョブが存在しない場合、SLURMはコンピューティングインスタンスを自動的に終了します。このアーキテクチャの動的バースト機能により、研究者は必要なコンピューティング・ノードをすぐに使用し、使用中のリソースに対してのみ支払います。ユーザー要件に応じて、低コストのVMからOCIが提供する広範な仮想マシンから要塞ノードを選択できます。Standard.E3.Flex。

Relation Therapeuticsによって実行されるデータ処理は、自然なシーケンスに従います。



このプロセスを次のアーキテクチャ図に示します。図の下部のサブネットの生産フローと図の上半分のサブネットのサポート・プロセスを示しています。



Relation- therapeutics- oci- oracle.zip

アーキテクチャには次のコンポーネントがあります。

  • テナント

    テナンシは、Oracle Cloud Infrastructureのサインアップ時にOracleがOracle Cloud内で設定するセキュアで分離されたパーティションです。テナンシ内のOracle Cloudでリソースを作成、編成および管理できます。テナンシは、会社または組織と同義です。通常、会社は1つのテナンシを持ち、そのテナンシ内の組織構造を反映します。通常、単一のテナンシは単一のサブスクリプションに関連付けられ、1つのサブスクリプションには通常1つのテナンシのみが含まれます。

  • リージョン

    Oracle Cloud Infrastructureリージョンは、可用性ドメインと呼ばれる1つ以上のデータ・センターを含む、ローカライズされた地理的な領域です。リージョンは他のリージョンから独立しており、巨大な距離は(国全体または大陸にわたって)分離できます。

  • アイデンティティおよびアクセス管理(IAM)

    Oracle Cloud Infrastructure Identity and Access Management (IAM)は、Oracle Cloud Infrastructure (OCI)およびOracle Cloudアプリケーションのアクセス制御プレーンです。IAM APIおよびユーザー・インタフェースにより、アイデンティティ・ドメインおよびアイデンティティ・ドメイン内のリソースを管理できます。各OCI IAMアイデンティティ・ドメインは、スタンドアロンのアイデンティティおよびアクセス管理ソリューション、または異なるユーザー移入を表します。

  • ポリシー

    Oracle Cloud Infrastructure Identity and Access Managementポリシーでは、誰がどのリソースにどのようにアクセスできるかを指定します。アクセス権はグループ・レベルおよびコンパートメント・レベルで付与されるため、特定のコンパートメント内またはテナンシへの特定のアクセスのタイプをグループに付与するポリシーを作成できます。

  • ロギング
    ロギングは、拡張性が高く、完全に管理されたサービスで、クラウド内のリソースから次のタイプのログにアクセスできます:
    • 監査ログ: Auditサービスによって発行されたイベントに関連するログ。
    • サービス・ログ: APIゲートウェイ、イベント、ファンクション、ロード・バランシング、オブジェクト・ストレージ、VCNフロー・ログなどの個々のサービスによって発行されたログ。
    • カスタム・ログ: カスタム・アプリケーション、他のクラウド・プロバイダまたはオンプレミス環境の診断情報を含むログ。
  • レジストリ

    Oracle Cloud Infrastructure Registryは、開発から本番のワークフローを簡略化できる、Oracle管理のレジストリです。レジストリを使用すると、Dockerイメージなどの開発アーティファクトを簡単に格納、共有および管理できます。Oracle Cloud Infrastructureの高可用性とスケーラブルなアーキテクチャにより、アプリケーションを確実にデプロイおよび管理できます。

  • 仮想クラウド・ネットワーク(VCN)とサブネット

    VCNは、Oracle Cloud Infrastructureリージョンで設定する、カスタマイズ可能なソフトウェア定義のネットワークです。従来のデータ・センター・ネットワークと同様に、CNはネットワーク環境を完全に制御できます。VCNには、VCNの作成後に変更できる複数の重複しないCIDRブロックを含めることができます。VCNをサブネットにセグメント化できます。これは、リージョンまたは可用性ドメインにスコープを設定できます。各サブネットは、VCN内の他のサブネットと重複しない連続した範囲のアドレスで構成されます。サブネットのサイズは、作成後に変更できます。サブネットはパブリックでもプライベートでもかまいません。

  • セキュリティ・リスト

    サブネットごとに、サブネットの内外で許可する必要があるトラフィックのソース、宛先およびタイプを指定するセキュリティ・ルールを作成できます。

  • 動的ルーティング・ゲートウェイ(DRG)

    DRGは、VCNとリージョン外のネットワーク(別のOracle Cloud Infrastructureリージョン内のVCN、オンプレミス・ネットワーク、別のクラウド・プロバイダ内のネットワークなど)間のプライベート・ネットワーク・トラフィックのパスを提供する仮想ルーターです。

  • サービス・ゲートウェイ

    The service gateway provides access from a VCN to other services, such as Oracle Cloud Infrastructure Object Storage. The traffic from the VCN to the Oracle service travels over the Oracle network fabric and never traverses the internet.

  • ネットワーク・アドレス変換(NAT)ゲートウェイ

    NATゲートウェイを使用すると、VCN内のプライベート・リソースは、着信インターネット接続にそれらのリソースを公開することなく、インターネット上のホストにアクセスできます。

  • Container Engine for Kubernetes

    Oracle Cloud Infrastructure Container Engine for Kubernetesは、完全に管理されたスケーラブルな高可用性のサービスで、コンテナ化アプリケーションをクラウドにデプロイする際に使用できます。ユーザーは、アプリケーションが必要とするコンピュート・リソースを指定し、Container Engine for KubernetesがそれらをOracle Cloud Infrastructureの既存のテナンシにプロビジョニングします。Container Engine for Kubernetesは、Kubernetesを使用して、ホストのクラスタ間でコンテナ化されたアプリケーションのデプロイメント、スケーリングおよび管理を自動化します。

  • コンピュート

    Oracle Cloud Infrastructure Computeサービスを使用すると、クラウドでコンピュート・ホストをプロビジョニングおよび管理できます。CPU、メモリー、ネットワーク帯域幅およびストレージのリソース要件を満たすシェイプを使用してコンピュート・インスタンスを起動できます。コンピュート・インスタンスを作成したら、セキュアにアクセスしたり、再起動したり、ボリュームをアタッチおよびデタッチしたり、不要になったら終了できます。

  • ベア・メタル

    Oracleのベア・メタル・サーバーは、専用のコンピュート・インスタンスを使用して分離、可視性および制御性を提供します。サーバーは、多くのコア数、大容量のメモリー、および高帯域幅を必要とするアプリケーションをサポートします。最大160個のコア(業界最大)、2TBのRAMおよび最大1PBのブロック・ストレージをスケーリングできます。お客様は、Oracleのベア・メタル・サーバー上にクラウド環境を構築でき、他のパブリック・クラウドやオンプレミスのデータ・センターよりもパフォーマンスが大幅に向上します。

  • リモート・ピアリング

    リモート・ピアリングを使用すると、VCNのリソースは、インターネット経由またはオンプレミス・ネットワーク経由でトラフィックをルーティングすることなく、プライベートIPアドレスを使用して通信できます。リモート・ピアリングにより、異なるリージョン内の別のVCNと通信する必要があるインスタンスには、インターネット・ゲートウェイおよびパブリックIPアドレスは必要ありません。

  • オブジェクト・ストレージ

    オブジェクト・ストレージでは、データベースのバックアップ、分析データ、イメージやビデオなどのリッチ・コンテンツなど、あらゆるコンテンツ・タイプの構造化データおよび非構造化データにすばやくアクセスできます。インターネットから直接またはクラウド・プラットフォーム内から、安全かつセキュアにデータを格納し、取得できます。パフォーマンスやサービスの信頼性を低下させることなく、シームレスにストレージを拡張できます。迅速、即時、頻繁にアクセスする必要があるホット・ストレージには、標準ストレージを使用します。アーカイブ・ストレージは、長期間保持し、ほとんどまたはめったにアクセスしないコールド・ストレージに使用します。

おすすめのビルド・アンド・デプロイを入手

Oracle Cloud Infrastructureに構築したことを明らかにしたいですか。学習した教訓、ベスト・プラクティス、リファレンス・アーキテクチャを、クラウド・アーキテクトのグローバル・コミュニティと共有することに注意してください。始めるのを手伝ってください。

  1. テンプレートのダウンロード(PPTX)

    サンプル・ワイヤフレームにアイコンをドラッグ・アンド・ドロップして、独自の参照アーキテクチャを説明します。

  2. アーキテクチャのチュートリアルを見る

    参照アーキテクチャの作成方法に関するステップ・バイ・ステップの手順を取得します。

  3. ダイアグラムの発行

    図の電子メールを送信してください。オラクルのクラウド・アーキテクトがお客様の図を見直して、お客様のアーキテクチャについてお話しします。

謝辞

  • 作成者: Sasha Banks- Louie
  • 貢献者: Robert Lies、Phil Wilkins