CohereコマンドR(08-2024)
cohere.command-r-08-2024
モデルは、複雑なタスク用に最適化され、高度な言語理解、cohere.command-r
よりも高い容量およびより微妙なレスポンスを提供し、128,000トークンの長い会話履歴からコンテキストを維持できます。このモデルは、質問応答、センチメント分析および情報取得にも最適です。
これらのリージョンで使用可能
- ブラジル東部(サンパウロ)
- ドイツ中央部(フランクフルト)
- 日本中央部(大阪)
- 英国南部(ロンドン)
- 米国中西部(シカゴ)
主な機能
- 複雑なタスク用に最適化され、高度な言語理解、容量の向上、および
cohere.command-r
よりも微妙な応答を提供し、128,000トークンの長い会話履歴からのコンテキストを維持できます。また、質問回答、センチメント分析および情報取得にも最適です。 - 最大プロンプト+レスポンス長: 実行ごとに128,000トークン。
- オンデマンド推論の場合、レスポンスの長さは、実行ごとに4,000トークンに制限されます。
- このモデルを微調整する場合、カスタム・モデルのユーザー・プロンプトは最大16,000個のトークンにすることができ、各実行のレスポンス長は4,000個のトークンに制限されます。
- 数学、コーディング、推論のスキルが向上しました。
- カスタマイズ可能な引用オプションにより、多言語検索拡張生成(RAG)機能が強化されました。
- 専用推論の場合は、専用AIクラスタおよびエンドポイントを作成し、クラスタでモデルをホストします。
- サポートされているリージョンのデータセットを使用して、このモデルを微調整できます。
モデルの専用AIクラスタ
前述のリージョン・リストでは、(専用AIクラスタのみ)とマークされていないリージョンのモデルには、オンデマンドと専用AIクラスタの両方のオプションがあります。オンデマンド・オプションの場合、クラスタは必要ありません。また、コンソール・プレイグラウンドまたはAPIを介してモデルにアクセスできます。
リストされた任意のリージョンの専用AIクラスタを介してモデルに到達するには、専用AIクラスタにそのモデルのエンドポイントを作成する必要があります。このモデルに一致するクラスタユニットサイズについては、次の表を参照してください。
ベース・モデル | ファインチューニング・クラスタ | ホスティング・クラスタ | 価格設定ページ情報 | クラスタ制限の引上げをリクエスト |
---|---|---|---|---|
|
|
|
|
|
-
専用AIクラスタでCohere Command R (08-2024) モデルをホストするための十分なクラスタ制限がテナンシにない場合は、制限
dedicated-unit-small-cohere-count
を1増やすようにリクエストします。 -
Cohere Command R 08-2024モデルを微調整するには、
dedicated-unit-small-cohere-count
を8増やすようにリクエストする必要があります。 - 様々なユースケースのCohere Command R 08-2024クラスタ・パフォーマンス・ベンチマークを確認します。
リリース日と除・売却日
モデル | リリース日 | オンデマンド処分日 | 専用モード除・売却日 |
---|---|---|---|
cohere.command-r-08-2024
|
2024-11-14 | 1番目の置換モデルのリリースから少なくとも1か月後。 | 最初の交換モデルのリリースから少なくとも6か月後。 |
モデル・パラメータ
モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。
- 最大出力トークン
-
各レスポンスに対してモデルで生成するトークンの上限数。トークンごとに4文字を推定します。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用するわけではありません。
- プリアンブル・オーバーライド
-
チャット・モデルの初期コンテキストまたはガイド・メッセージ。チャット・モデルにプリアンブルを指定しない場合、そのモデルのデフォルトのプリアンブルが使用されます。モデルの「プリアンブル・オーバーライド」パラメータでプリアンブルを割り当てることができます。Cohereファミリのデフォルトのプリアンブルは次のとおりです。
You are Command. You are an extremely capable large language model built by Cohere. You are given instructions programmatically via an API that you follow to the best of your ability.
デフォルトのプリアンブルのオーバーライドはオプションです。指定すると、デフォルトのCohereプリアンブルがpreamble overrideに置き換えられます。プリアンブルを追加する場合、最適な結果を得るには、モデル・コンテキスト、指示および会話スタイルを指定します。
ヒント
preamble overrideパラメータのないチャット・モデルの場合は、チャット会話にプリアンブルを含め、特定の方法でモデルに直接回答を依頼できます。 - 安全性モード
- 応答の生成時に使用するモデルの安全指図を追加します。オプションは次のとおりです。
- コンテキスト依存: (デフォルト)出力に対する制約が少なくなります。有害または違法な提案を拒否することを目指して核となる保護を維持しますが、冒涜や有害なコンテンツ、性的に明示的で暴力的なコンテンツ、医療情報、財務情報または法的情報を含むコンテンツを許可します。コンテキスト・モードは、エンターテインメント、クリエイティブまたは学術的な用途に適しています。
- 厳密: 暴力的または性的行為や冒涜などの敏感なトピックを避けることを目的としています。このモードは、不適切な応答や推奨事項を禁止することで、より安全なエクスペリエンスを提供することを目的としています。厳密モードは、企業コミュニケーションや顧客サービスなど、企業での使用に適しています。
- 消灯: 安全モードは適用されません。
- 温度
-
出力テキストの生成に使用されるランダム性のレベル。
ヒント
温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は、幻覚や事実上誤った情報をもたらす可能性があります。 - 上位p
-
次のトークンで考慮する上位トークンの累積確率を制御するサンプリング方法。確率に
p
に0から1までの小数を割り当てます。たとえば、上位75パーセントを考慮するには、0.75と入力します。すべてのトークンを考慮するには、p
を1に設定します。 - 上位k
-
top k
の最も可能性の高いトークンからモデルが次のトークンをランダムに選択するサンプリング・メソッド。k
の値が大きいほど、ランダムな出力が生成され、出力テキストがより自然になります。kのデフォルト値は、Cohere Command
モデルの場合は0、Meta Llama
モデルの場合は-1です。これは、モデルがすべてのトークンを考慮し、このメソッドを使用しないことを意味します。 - 頻度ペナルティ
-
トークンが頻繁に表示される場合にトークンに割り当てられるペナルティ。高いペナルティにより、繰り返されるトークンが少なくなり、よりランダムな出力が生成されます。
Meta Llamaファミリ・モデルでは、このペナルティはプラスまたはマイナスになります。正の数は、モデルが新しいトークンを使用することを推奨し、負の数はモデルがトークンを繰り返すことを推奨します。無効にするには、0に設定します。
- プレゼンス・ペナルティ
-
出力に表示されている各トークンにペナルティが割り当てられ、使用されていないトークンを使用した出力の生成を促します。
- シード
-
トークンを確定的にサンプリングする最善の努力をするパラメータ。このパラメータに値が割り当てられると、大規模言語モデルは、リクエストに同じシードとパラメータを割り当てたときに、繰返しリクエストに対して同じ結果を返すことを目的としています。
許可される値は整数で、大きいシード値または小さいシード値を割り当てても結果には影響しません。シード・パラメータに番号を割り当てることは、リクエストを番号でタグ付けすることと似ています。大規模言語モデルは、連続するリクエストで同じ整数に対して同じトークンのセットを生成することを目的としています。この機能は、デバッグおよびテストに特に役立ちます。シード・パラメータにはAPIの最大値がなく、コンソールでは最大値は9999です。コンソールでシード値を空白のままにするか、APIでnullのままにすると、この機能は無効になります。
警告
OCI生成AIサービスのモデル更新によってシードが無効になる可能性があるため、シード・パラメータで長時間実行しても同じ結果が生成されない場合があります。