Oracle Interconnect for Google Cloudを使用したマルチクラウド分散AIワークロードのデプロイについて

トレーニング・ラージ・ランゲージ・モデル(LLM)では、リージョン内の複数のクラウド・プロバイダから大量のGPUが必要になる場合があります。This design solution introduces a multicloud approach to running LLM training and inference on Oracle Cloud Infrastructure (OCI) AI Infrastructure on demand by using Oracle Interconnect for Google Cloud with the application front end running on Google Kubernetes Engine (GKE).

OCI AI Clusterは、大規模言語モデルをトレーニングするための堅牢なプラットフォームを提供します。人間の質の高いテキスト、翻訳、コードを生成できるこれらのモデルは、膨大な計算能力と膨大な量のデータを必要とします。OCI AI Clusterは、LLMトレーニングを加速するために、必要なインフラストラクチャに高パフォーマンスのコンピューティング・リソースと最適化されたネットワーキングを提供します。専用AIクラスタは、カスタム・モデルのファインチューニングや、事前トレーニング済ベース・モデルおよびOCI生成AIのカスタム・モデルのエンドポイントのホストに使用できるコンピュート・リソースです。クラスタは自分のモデル専用であり、他のテナンシのユーザーと共有されません。

生成AIとGoogle Kubernetes Engineについて

このソリューションは、使い慣れたKubernetesオーケストレーション・ツールを使用しながら、GPUアクセラレーテッド・モデル・トレーニングにOracle CloudのAIインフラストラクチャを活用します。

生成AIは、チャット、テキスト生成、要約、テキスト埋め込みの作成など、幅広いユースケースに対応する、最先端のカスタマイズ可能なLLMのセットを提供するフルマネージドOCIサービスです。プレイグラウンドを使用すると、すぐに使用できる事前トレーニング済モデルを試用したり、専用AIクラスタ上の独自のデータに基づいてファインチューニング済カスタム・モデルを作成およびホストしたりできます。

GKEクラスタは、コントロール・プレーンとノードと呼ばれるワーカー・マシンで構成されます。コントロール・プレーンおよびノードは、Kubernetesクラスタ・オーケストレーション・システムを構成します。GKE Autopilotは、コントロール・プレーン、ノード、すべてのシステム・コンポーネントなど、クラスタの基礎となるインフラストラクチャ全体を管理します。GKE標準モードを使用する場合、GKEはコントロール プレーンおよびシステム コンポーネントを管理し、ノードを管理します。

このアーキテクチャの利点について

OCI AI Cluster for LLMトレーニングを使用する主なメリットは次のとおりです。

  • スケーラビリティ:コンピュート・リソースをトレーニングの需要に合わせて簡単に調整できます。
  • パフォーマンス:高パフォーマンスのネットワーキングおよびGPUアクセラレーテッド・コンピュート・インスタンスを活用します。
  • コスト効率:リソース使用率を最適化し、使用した分だけ支払います。
  • セキュリティ: Exploit Oracleの機密データを保護するための堅牢なセキュリティ対策。
  • 統合:データ管理およびモデル・デプロイメントのために、他のOCIサービスとシームレスに統合します。

OCI AI Clusterの力を活用することで、組織は高度なLLMを開発および導入し、イノベーションとビジネス価値を高めることができます。

OCI AIクラスタでのLLMのトレーニングに関連するステップの理解

OCI AIクラスタでLLMをトレーニングするために必要なステップは次のとおりです。

  1. AIクラスタ環境を設定します。
  2. 研修データの準備と前処理を行います。
  3. LLMアーキテクチャを選択して構成します。
  4. トレーニング・パイプラインおよびハイパーパラメータ・チューニングを実装します。
  5. モデルのパフォーマンスとファインチューニングを評価します。