CohereコマンドR (非推奨)

cohere.command-r-16k (Command R)モデルは、一般的な言語タスクのためのより手頃な価格で柔軟なオプションを探している人には最適な選択肢です。一方、Command R+は、高度な言語理解、大容量およびより微妙な応答を必要とするパワー・ユーザー向けに設計されています。2つの選択肢は、アプリケーションの特定の要件と予算によって異なります。

これらのリージョンで使用可能

  • ブラジル東部(サンパウロ)
  • ドイツ中央部(フランクフルト)
  • 日本中央部(大阪)(専用AIクラスタのみ)
  • 英国南部(ロンドン)
  • 米国中西部(シカゴ)

主な機能

  • 専用推論の場合は、専用AIクラスタおよびエンドポイントを作成し、クラスタでモデルをホストします。
  • 最大プロンプト+レスポンス長: 実行ごとに16,000トークン。
  • オンデマンド推論の場合、レスポンスの長さは、実行ごとに4,000トークンに制限されます。
  • このモデルを微調整すると、モデルのレスポンス長は、実行ごとに4,000トークンに制限されます。
  • 会話型インタラクションおよび長いコンテキスト・タスク用に最適化されています。テキスト生成、要約、翻訳およびテキストベースの分類に最適です。
  • データセットを使用してこのモデルを微調整できます。

Command RR+の比較

  • モデルのサイズとパフォーマンス: Command Rは、Command R+よりも小規模の言語モデルです。Command Rは高品質なレスポンスを提供しますが、レスポンスは、コマンドR+レスポンスと同じレベルの洗練度および深さを持たない場合があります。Command R+はより大きなモデルで、パフォーマンスが向上し、より高度な理解が得られます。
  • ユースケース: Command Rは、テキスト生成、要約、翻訳、テキストベースの分類など、様々なアプリケーションに適しています。これは、会話型AIエージェントとチャットベースのアプリケーションを構築するための理想的な選択肢です。一方、Command R+は、テキスト生成、質問応答、センチメント分析、情報取得など、より深い理解とニュアンスを必要とする、より複雑な言語タスク用に設計されています。
  • 容量およびスケーラビリティ: Command Rは、Command R+と比較して中程度の数の同時ユーザーを処理できます。ただし、Command R+は、大量のリクエストを処理し、より複雑なユースケースをサポートするように設計されているため、容量とパフォーマンスが向上するため、価格が高くなる可能性があります。

要約すると、Command Rは、一般的な言語タスクのためのより手頃な価格で柔軟なオプションを探している人にとって優れた選択肢です。一方、Command R+は、高度な言語理解、大容量およびより微妙な応答を必要とするパワー・ユーザー向けに設計されています。2つの選択肢は、アプリケーションの特定の要件と予算によって異なります。

モデルの専用AIクラスタ

前述のリージョン・リストでは、(専用AIクラスタのみ)とマークされていないリージョンのモデルには、オンデマンドと専用AIクラスタの両方のオプションがあります。オンデマンド・オプションの場合、クラスタは必要ありません。また、コンソール・プレイグラウンドまたはAPIを介してモデルにアクセスできます。

リストされた任意のリージョンの専用AIクラスタを介してモデルに到達するには、専用AIクラスタにそのモデルのエンドポイントを作成する必要があります。このモデルに一致するクラスタユニットサイズについては、次の表を参照してください。

ベース・モデル ファインチューニング・クラスタ ホスティング・クラスタ 価格設定ページ情報 クラスタ制限の引上げをリクエスト
  • モデル名: Cohere Command R
  • OCIモデル名: cohere.command-r-16k (非推奨)
  • 単位サイズ: Small Cohere V2
  • 必須単位: 8
  • 単位サイズ: Small Cohere V2
  • 必須単位: 1
  • 価格設定ページの製品名: Small Cohere - Dedicated
  • ファインチューニングの場合、単価を乗算します。 x8
  • 制限名: dedicated-unit-small-cohere-count
  • ホスティングの場合、リクエスト制限の引上げ単位: 1
  • ファインチューニングの場合、リクエスト制限の引上げ単位: 8
ヒント

  • 専用AIクラスタでCohere Command Rモデル(非推奨)をホストするための十分なクラスタ制限がテナンシにない場合は、制限dedicated-unit-small-cohere-countを1増やすようにリクエストします。

  • Cohere Command R (非推奨)モデルをファインチューニングするには、dedicated-unit-small-cohere-countに8増やすようにリクエストする必要があります。

  • 様々なユースケースのCohere Command Rクラスタ・パフォーマンス・ベンチマークを確認します。

リリース日と除・売却日

モデル リリース日 オンデマンド処分日 専用モード除・売却日
cohere.command-r-08-2024 2024-06-04 2,025-1-16 2,025-8-7
重要

すべてのモデル・タイム・ラインおよびリタイア詳細のリストは、モデルのリタイアを参照してください。

モデル・パラメータ

モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。

最大出力トークン

レスポンスに対してモデルで生成するトークンの上限数。トークンごとに4文字を推定します。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用するわけではありません。

プリアンブル・オーバーライド

チャット・モデルの初期コンテキストまたはガイド・メッセージ。チャット・モデルにプリアンブルを指定しない場合、そのモデルのデフォルトのプリアンブルが使用されます。モデルの「プリアンブル・オーバーライド」パラメータでプリアンブルを割り当てることができます。Cohereファミリのデフォルトのプリアンブルは次のとおりです。

You are Command.
            You are an extremely capable large language model built by Cohere. 
            You are given instructions programmatically via an API
            that you follow to the best of your ability.

デフォルトのプリアンブルのオーバーライドはオプションです。指定すると、デフォルトのCohereプリアンブルがpreamble overrideに置き換えられます。プリアンブルを追加する場合、最適な結果を得るには、モデル・コンテキスト、指示および会話スタイルを指定します。

ヒント

preamble overrideパラメータのないチャット・モデルの場合は、チャット会話にプリアンブルを含め、特定の方法でモデルに直接回答を依頼できます。
安全性モード
応答の生成時に使用するモデルの安全指図を追加します。オプションは次のとおりです。
  • コンテキスト依存: (デフォルト)出力に対する制約が少なくなります。有害または違法な提案を拒否することを目指して核となる保護を維持しますが、冒涜や有害なコンテンツ、性的に明示的で暴力的なコンテンツ、医療情報、財務情報または法的情報を含むコンテンツを許可します。コンテキスト・モードは、エンターテインメント、クリエイティブまたは学術的な用途に適しています。
  • 厳密: 暴力的または性的行為や冒涜などの敏感なトピックを避けることを目的としています。このモードは、不適切な応答や推奨事項を禁止することで、より安全なエクスペリエンスを提供することを目的としています。厳密モードは、企業コミュニケーションや顧客サービスなど、企業での使用に適しています。
  • 消灯: 安全モードは適用されません。
温度

出力テキストの生成に使用されるランダム性のレベル。

ヒント

温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は、幻覚や事実上誤った情報をもたらす可能性があります。
上位p

次のトークンで考慮する上位トークンの累積確率を制御するサンプリング方法。確率にpに0から1までの小数を割り当てます。たとえば、上位75パーセントを考慮するには、0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。

上位k

top kの最も可能性の高いトークンからモデルが次のトークンをランダムに選択するサンプリング・メソッド。kの値が大きいほど、ランダムな出力が生成され、出力テキストがより自然になります。kのデフォルト値は、Cohere Commandモデルの場合は0、Meta Llamaモデルの場合は-1です。これは、モデルがすべてのトークンを考慮し、このメソッドを使用しないことを意味します。

頻度ペナルティ

トークンが頻繁に表示される場合にトークンに割り当てられるペナルティ。高いペナルティにより、繰り返されるトークンが少なくなり、よりランダムな出力が生成されます。

Meta Llamaファミリ・モデルでは、このペナルティはプラスまたはマイナスになります。正の数は、モデルが新しいトークンを使用することを推奨し、負の数はモデルがトークンを繰り返すことを推奨します。無効にするには、0に設定します。

プレゼンス・ペナルティ

出力に表示されている各トークンにペナルティが割り当てられ、使用されていないトークンを使用した出力の生成を促します。

シード

トークンを確定的にサンプリングする最善の努力をするパラメータ。このパラメータに値が割り当てられると、大規模言語モデルは、リクエストに同じシードとパラメータを割り当てたときに、繰返しリクエストに対して同じ結果を返すことを目的としています。

許可される値は整数で、大きいシード値または小さいシード値を割り当てても結果には影響しません。シード・パラメータに番号を割り当てることは、リクエストを番号でタグ付けすることと似ています。大規模言語モデルは、連続するリクエストで同じ整数に対して同じトークンのセットを生成することを目的としています。この機能は、デバッグおよびテストに特に役立ちます。シード・パラメータにはAPIの最大値がなく、コンソールでは最大値は9999です。コンソールでシード値を空白のままにするか、APIでnullのままにすると、この機能は無効になります。

警告

OCI生成AIサービスのモデル更新によってシードが無効になる可能性があるため、シード・パラメータで長時間実行しても同じ結果が生成されない場合があります。