Cohere Command R+(08-2024)

cohere.command-r-plus-08-2024モデルは、複雑なタスク用に最適化されており、cohere.command-r-plusよりも高度な言語理解、容量の向上、およびより微妙なレスポンスを提供し、128,000トークンの長い会話履歴からコンテキストを維持できます。このモデルは、質問回答、センチメント分析および情報取得にも最適です。

モデル・エイリアス

クライアント・コードでは、モデルIDのかわりにモデル別名を使用できます。モデル別名は、アプリケーションをファミリ内の最新バージョンのモデルに自動的にリンクするため、コード内のモデルIDを手動で更新する必要はありません。すべてのモデルに別名があるわけではありません。
  • プレイグラウンド: -latest接尾辞が付いた事前トレーニング済モデルを選択します。
  • API/CLI/SDK:モデルIDのかわりに別名を渡します。CLIの例: model_id = "<model-alias>"
モデル モデル・エイリアス
cohere.command-r-plus-08-2024 cohere.command-plus-latest

これらのリージョンで使用可能

  • ブラジル東部(サンパウロ)
  • ドイツ中央部(フランクフルト)
  • 日本中央部(大阪)
  • サウジアラビア中央部(リヤド)(専用AIクラスタのみ)
  • UAE East (Dubai) (専用AIクラスタの場合のみcohere.command-r-plus-08-2024-tp4-64kとして使用可能)
  • 英国南部(ロンドン)
  • 米国東部(アッシュバーン)(専用AIクラスタのみ)
  • 米国中西部(シカゴ)

主な機能

  • 複雑なタスク用に最適化され、高度な言語理解、cohere.command-r-plusよりも高い容量とより微妙な応答を提供し、128,000トークンの長い会話履歴からコンテキストを維持できます。また、質問回答、センチメント分析および情報取得にも最適です。
  • 最大プロンプト+レスポンス長: 各実行で128,000トークン。
  • オンデマンド推論の場合、レスポンスの長さは実行ごとに4,000トークンに制限されます。
  • 専用モードの場合、レスポンスの長さは制限されず、コンテキストの長さは128,000トークンです。
  • 数学、コーディング、推論のスキルを向上。
  • カスタマイズ可能な引用オプションを使用した拡張多言語検索拡張生成(RAG)機能。
  • 専用推論の場合は、専用AIクラスタおよびエンドポイントを作成し、モデルをクラスタでホストします。

オンデマンドモード

価格設定ページのこのモデルのオンデマンド製品名については、次の表を参照してください。

モデル名 OCIモデル名 価格設定ページ製品名
Cohere Cohere Command R+ 08-2024 cohere.command-r-plus-08-2024 Large Cohere
オンデマンド専用の2つのモードを使用して、生成AIで事前にトレーニングされた基本モデルにアクセスできます。オンデマンド・モードの主な機能は次のとおりです。
  • プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合に、推論コールごとに支払いをするようにします。

  • 生成AIの使用を開始するための障壁が低くなります。
  • 実験、概念実証、モデル評価に最適です。
  • リストされていないリージョンの事前トレーニング済モデルで使用可能です(専用AIクラスタのみ)。
重要

オンデマンド・モードの動的スロットル制限調整

OCI Generative AIは、モデル需要とシステム容量に基づいてアクティブ・テナンシのリクエスト・スロットル制限を動的に調整して、リソース割当てを最適化し、公平なアクセスを確保します。

この調整は、次の要因によって異なります。

  • ターゲット・モデルでサポートされている現在の最大スループット。
  • 調整時点における未使用のシステム容量。
  • 各テナンシの履歴スループットの使用量と、そのテナンシに設定された指定されたオーバーライド制限。

ノート: 動的スロットルのため、レート制限は文書化されず、システム全体の需要を満たすように変更できます。

ヒント

スロットル制限の動的調整のため、拒否後のリクエストの遅延を含むバックオフ戦略を実装することをお薦めします。これがないと、迅速なリクエストを繰り返すことで、時間の経過とともにさらに拒否され、レイテンシが増加し、生成AIサービスによるクライアントの一時的なブロックが発生する可能性があります。指数関数的なバックオフ戦略などのバックオフ戦略を使用することで、業界のベスト・プラクティスに従い、サービスとの統合の全体的な安定性とパフォーマンスを向上させ、より均等にリクエストを配分し、負荷を削減し、再試行の成功を向上させることができます。

モデルの専用AIクラスタ

前述のリージョン・リストでは、(専用AIクラスタのみ)でマークされていないリージョンのモデルには、オンデマンドと専用の両方のAIクラスタ・オプションがあります。オンデマンド・モードの場合、クラスタは必要なく、コンソール・プレイグラウンドまたはAPIを介してモデルに到達できます。

リストされているリージョン内の専用AIクラスタを介してモデルに到達するには、専用AIクラスタ上でそのモデルのエンドポイントを作成する必要があります。このモデルに一致するクラスタユニットサイズについては、次の表を参照してください。

ベース・モデル クラスタのファインチューニング ホスト・クラスタ 価格設定ページ情報 クラスタ制限の引上げのリクエスト
  • モデル名: Command R+ 08-2024
  • OCIモデル名: cohere.command-r-plus-08-2024
ファインチューニングに使用できません
  • 単位サイズ: Large Cohere V2_2
  • 必須単位: 1
  • 価格設定ページ製品名: Large Cohere - Dedicated
  • ホスティングの場合は、単価を乗算します: x2
  • 制限名: dedicated-unit-large-cohere-count
  • ホスティングの場合、リクエスト制限の引上げ単位: 2
  • モデル名: Cohere Command R+ 08-2024 (tp4) (UAE East (Dubai)のみ)
  • OCIモデル名: cohere.command-r-plus-08-2024-tp4-64k
ファインチューニングに使用できません
  • 単位サイズ: Large Cohere
  • 必須単位: 1
  • 価格設定ページ製品名: Large Cohere - Dedicated
  • ホスティングの場合は、単価を乗算します: x2
  • 制限名: dedicated-unit-large-cohere-count
  • ホスティングの場合、リクエスト制限の引上げ単位: 2
ヒント

  • 専用AIクラスタでCohere Command R+ (08-2024) モデルをホストするための十分なクラスタ制限がテナンシにない場合は、制限dedicated-unit-large-cohere-countを2増やすようにリクエストします。

クラスタのエンドポイント・ルール

  • 専用AIクラスタには、最大50のエンドポイントを保持できます。
  • これらのエンドポイントを使用して、同じベース・モデルまたは同じバージョンのカスタム・モデルのいずれかを指し示すが、両方の型を指さない別名を作成します。
  • 同じモデルの複数のエンドポイントにより、それらを異なるユーザーまたは目的に簡単に割り当てることができます。
ホスト・クラスタ・ユニット・サイズ エンドポイント・ルール
Large Cohere V2_2
  • ベース・モデル: 複数のエンドポイントで ⁇ cohere.command-r-plus-08-2024⁇modelを実行するには、必要な数のエンドポイントをLarge Cohere V2_2クラスタ(単位サイズ)に作成します。
  • カスタム・モデル: cohere.command-r-plus-08-2024を微調整できないため、そのベースから構築されたカスタム・モデルを作成およびホストできません。
Large Cohere (UAE East (Dubai)のみ)
  • ベース・モデル: UAE East (Dubai)の複数のエンドポイントで ⁇ cohere.command-r-plus-08-2024-tp4-64k⁇modelを実行するには、必要な数のエンドポイントをLarge Cohereクラスタ(単位サイズ)に作成します。
  • カスタム・モデル: cohere.command-r-plus-08-2024-tp4-64kを微調整できないため、そのベースから構築されたカスタム・モデルを作成およびホストできません。
ヒント

リリースおよび除・売却日

モデル リリース日 オンデマンド除・売却日 専用モード除・売却日
cohere.command-r-plus-08-2024 2024-11-14 最初の交換モデルのリリースから少なくとも1か月後。 最初の交換モデルのリリースから少なくとも6か月後。
重要

すべてのモデル時間明細および除・売却詳細のリストは、モデルの除・売却を参照してください。

モデル・パラメータ

モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。

最大出力トークン

レスポンスに対してモデルで生成するトークンのの最大数。トークンごとに4文字を見積もります。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用する必要はありません。

プリアンブル・オーバーライド

チャット・モデルの初期コンテキストまたはガイド・メッセージ。チャット・モデルにプリアンブルを指定しない場合、そのモデルのデフォルトのプリアンブルが使用されます。「プリアンブル・オーバーライド」パラメータで、モデルにプリアンブルを割り当てることができます。Cohereファミリのデフォルトのプリアンブルは次のとおりです。

You are Command.
            You are an extremely capable large language model built by Cohere. 
            You are given instructions programmatically via an API
            that you follow to the best of your ability.

デフォルトのプリアンブルのオーバーライドはオプションです。指定した場合、preamble overrideはデフォルトのCohereプリアンブルを置き換えます。プリアンブルを追加する場合、最良の結果を得るには、モデル・コンテキスト、命令および会話スタイルを指定します。

ヒント

preamble overrideパラメータを使用しないチャット・モデルの場合、チャット会話にプリアンブルを含め、モデルに特定の方法で直接回答するように依頼できます。
安全性モード
応答の生成時に使用するモデルの安全指示を追加します。オプションは次のとおりです。
  • コンテキスト依存: (デフォルト)出力の制約を少なくします。有害または違法な提案を拒絶することを目的として、中核的な保護を維持しますが、不当なものや有毒なコンテンツ、性的に明示的かつ暴力的なコンテンツ、および医療、金融、または法的情報を含むコンテンツを許可します。コンテキスト・モードは、エンターテインメント、クリエイティブまたはアカデミックな用途に適しています。
  • 厳格: 暴力的行為や性的行為、不当行為など、機密性の高いトピックを避けることを目的としています。このモードは、不適切なレスポンスや推奨事項を禁止することで、より安全なエクスペリエンスを提供することを目的としています。厳密モードは、企業のコミュニケーションやカスタマーサービスなど、企業での使用に適しています。
  • オフ: 安全モードは適用されません。
温度

出力テキストの生成に使用されるランダム性のレベル。

ヒント

温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は幻覚をもたらし、事実上誤った情報をもたらす可能性があります。
上位p

次のトークンで考慮する上位トークンの累積確率を制御するサンプリング・メソッド。確率として、pに0から1までの小数を割り当てます。たとえば、上位75パーセントが考慮される場合は0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。

上位k

モデルがtop kの最も可能性の高いトークンから次のトークンをランダムに選択するサンプリング・メソッド。kの値が大きいほど、よりランダムな出力が生成されるため、出力テキストのサウンドがより自然になります。kのデフォルト値は、Cohere Commandモデルの場合は0、Meta Llamaモデルの場合は-1です。これは、モデルがすべてのトークンを考慮し、このメソッドを使用しないことを意味します。

頻度ペナルティ

トークンが頻繁に表示される場合に、そのトークンに割り当てられるペナルティ。高いペナルティにより、繰り返されるトークンが少なくなり、よりランダムな出力が生成されます。

Meta Llamaファミリ・モデルでは、このペナルティはプラスまたはマイナスにできます。正の数はモデルに新しいトークンを使用することを促し、負の数はモデルがトークンを繰り返すことを促します。無効にするには、0に設定します。

プレゼンス・ペナルティ

出力に表示されている各トークンにペナルティが割り当てられ、使用されていないトークンを使用した出力の生成を促します。

シード

トークンを確定的にサンプリングするために最善を尽くすパラメータ。このパラメータに値が割り当てられている場合、大規模言語モデルでは、リクエストに同じシードおよびパラメータを割り当てるときに、繰返しリクエストに対して同じ結果を返すことを目的としています。

指定できる値は整数であり、大きいシード値または小さいシード値を割り当てても結果には影響しません。シード・パラメータに番号を割り当てることは、リクエストに番号を付けてタグ付けすることと似ています。大規模言語モデルは、連続したリクエストで同じ整数に対して同じトークンのセットを生成することを目的としています。この機能は、デバッグおよびテストに特に役立ちます。シード・パラメータにはAPIの最大値がありません。コンソールでは、最大値は9999です。コンソールでシード値を空白のままにするか、APIでnullのままにすると、この機能が無効になります。

警告

OCI生成AIサービスのモデル更新によってシードが無効になる可能性があるため、シード・パラメータによって長時間実行で同じ結果が生成されない可能性があります。