CohereコマンドR(08-2024)

cohere.command-r-08-2024モデルは、複雑なタスク用に最適化され、高度な言語理解、cohere.command-rよりも高い容量およびより微妙なレスポンスを提供し、128,000トークンの長い会話履歴からコンテキストを維持できます。このモデルは、質問応答、センチメント分析および情報取得にも最適です。

モデル・エイリアス

クライアント・コードでは、モデルIDのかわりにモデル別名を使用できます。モデル・エイリアスは、アプリケーションをファミリ内のモデルの最新バージョンに自動的にリンクするため、コード内のモデルIDを手動で更新する必要はありません。すべてのモデルに別名があるわけではありません。

プレイグラウンド: -latest接尾辞が付いた事前トレーニング済モデルを選択します。
API/CLI/SDK:モデルIDのかわりに別名を渡します。CLIの例: model_id = "<model-alias>"


モデル	モデル・エイリアス
`cohere.command-r-08-2024`	`cohere.command-latest`

これらのリージョンで使用可能

ブラジル東部(サンパウロ)
ドイツ中央部(フランクフルト)
日本中央部(大阪)
サウジアラビア中央部(リヤド)(専用AIクラスタのみ)
英国南部(ロンドン)
米国東部(アッシュバーン)(専用AIクラスタのみ)
米国中西部(シカゴ)

このモデルへのアクセス

コンソール、APIおよびCLIを介してこのモデルにアクセスします:

主な機能

複雑なタスク用に最適化され、高度な言語理解、容量の向上、およびcohere.command-rよりも微妙な応答を提供し、128,000トークンの長い会話履歴からのコンテキストを維持できます。また、質問回答、センチメント分析および情報取得にも最適です。
最大プロンプト+レスポンス長: 実行ごとに128,000トークン。
オンデマンド推論の場合、レスポンスの長さは、実行ごとに4,000トークンに制限されます。
このモデルを微調整する場合、カスタム・モデルのユーザー・プロンプトは最大16,000個のトークンにすることができ、各実行のレスポンス長は4,000個のトークンに制限されます。
専用モードの場合、レスポンスの長さは制限されず、コンテキストの長さは128,000トークンです。
数学、コーディング、推論のスキルが向上しました。
カスタマイズ可能な引用オプションにより、多言語検索拡張生成(RAG)機能が強化されました。
専用推論の場合は、専用AIクラスタおよびエンドポイントを作成し、クラスタでモデルをホストします。
サポートされているリージョンのデータセットを使用して、このモデルを微調整できます。

オンデマンドモード

このモデルは、リストされていないリージョン(専用AIクラスタのみ)でオンデマンドで使用できます。価格設定ページのこのモデルのオンデマンド製品名については、次の表を参照してください。


モデル名	OCIモデル名	価格設定ページ製品名
Cohere Command R 08-2024	`cohere.command-r-08-2024`	Small Cohere

生成AIの事前トレーニング済基本モデルには、オンデマンドと専用の2つのモードを介してアクセスできます。オンデマンド・モードの主な機能は次のとおりです。

プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合、推論コールごとに従量課金します。
生成AIの使用を開始するための障壁が低くなります。
実験、概念実証、モデル評価に最適です。
としてリストされていないリージョンの事前トレーニング済モデルで使用できます(専用AIクラスタのみ)。

重要

オンデマンド・モードの動的スロットル制限調整

OCI生成AIは、モデル需要とシステム容量に基づいてアクティブなテナンシごとにリクエスト・スロットル制限を動的に調整し、リソース割当てを最適化して公平なアクセスを確保します。

この調整は、次の要因によって異なります。

ターゲット・モデルでサポートされている現在の最大スループット。
調整時の未使用のシステム容量。
各テナンシの履歴スループットの使用状況と、そのテナンシに設定された指定されたオーバーライド制限。

ノート: 動的スロットルのため、レート制限は文書化されず、システム全体の需要を満たすように変更できます。

ヒント

動的スロットル制限調整のため、拒否後のリクエストの遅延を伴うバックオフ戦略を実装することをお薦めします。1つがない場合、迅速なリクエストを繰り返すと、生成AIサービスによる時間の経過に伴うさらなる拒否、レイテンシの増加、およびクライアントの一時的なブロックにつながる可能性があります。指数関数的なバックオフ戦略などのバックオフ戦略を使用することで、業界のベスト・プラクティスに従い、サービスとの統合の全体的な安定性とパフォーマンスを向上させ、リクエストをより均等に配分し、負荷を軽減し、再試行の成功を向上させることができます。

モデルの専用AIクラスタ

前述のリージョン・リストでは、(専用AIクラスタのみ)とマークされていないリージョンのモデルには、オンデマンドと専用AIクラスタの両方のオプションがあります。オンデマンド・モードでは、クラスタが不要で、コンソール・プレイグラウンドまたはAPIを介してモデルにアクセスできます。

リストされた任意のリージョンの専用AIクラスタを介してモデルに到達するには、専用AIクラスタにそのモデルのエンドポイントを作成する必要があります。このモデルに一致するクラスタユニットサイズについては、次の表を参照してください。


ベース・モデル	ファインチューニング・クラスタ	ホスティング・クラスタ	価格設定ページ情報	クラスタ制限の引上げをリクエスト
モデル名: Command R 08-2024 OCIモデル名: `cohere.command-r-08-2024`	単位サイズ: Small Cohere V2 必須単位: 8	単位サイズ: Small Cohere V2 必須単位: 1	価格設定ページの製品名: Small Cohere - Dedicated ホスティングの場合、単価を乗算します。 x1 ファインチューニングの場合、単価を乗算します。 x8	制限名: `dedicated-unit-small-cohere-count` ホスティングの場合、リクエスト制限の引上げ単位: 1 ファインチューニングの場合、リクエスト制限の引上げ単位: 8

ヒント

専用AIクラスタでCohere Command R (08-2024) モデルをホストするための十分なクラスタ制限がテナンシにない場合は、制限dedicated-unit-small-cohere-countを1増やすようにリクエストします。
Cohere Command R 08-2024モデルを微調整するには、dedicated-unit-small-cohere-countを8増やすようにリクエストする必要があります。

クラスタのエンドポイント・ルール

専用AIクラスタは、最大50個のエンドポイントを保持できます。
これらのエンドポイントを使用して、同じベース・モデルまたは同じバージョンのカスタム・モデルのいずれかを指し示す別名を作成しますが、両方のタイプは作成しません。
同じモデルの複数のエンドポイントにより、異なるユーザーまたは目的に簡単に割り当てることができます。


ホスト・クラスタ・ユニット・サイズ	エンドポイント・ルール
Small Cohere V2	ベース・モデル: 複数のエンドポイントで`cohere.command‑r‑08‑2024` ⁇ モデルを実行するには、Small Cohere V2クラスタで必要な数のエンドポイントを作成します(単位サイズ)。カスタム・モデル: `cohere.command‑r‑08‑2024`の上に構築されたカスタム・モデルにも同じことが当てはまります。Small Cohere V2 (ユニット・サイズ)クラスタで必要な数のエンドポイントを作成します。

ヒント

ホスティング・クラスタでサポートされるコール・ボリュームを増やすには、専用AIクラスタを編集してインスタンス数を増やします。専用AIクラスタの更新を参照してください。
クラスタ当たり50を超えるエンドポイントの場合、制限endpoint-per-dedicated-unit-countの引上げをリクエストします。サービス制限の引上げのリクエストおよび生成AIのサービス制限を参照してください。

クラスタ・パフォーマンス・ベンチマーク

様々なユースケースのCohere Command R 08-2024クラスタ・パフォーマンス・ベンチマークを確認します。

リリース日と除・売却日


モデル	リリース日	オンデマンド処分日	専用モード除・売却日
`cohere.command-r-08-2024`	2024-11-14	1番目の置換モデルのリリースから少なくとも1か月後。	最初の交換モデルのリリースから少なくとも6か月後。

重要

すべてのモデル・タイム・ラインおよびリタイア詳細のリストは、モデルのリタイアを参照してください。

モデル・パラメータ

モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。

最大出力トークン

各レスポンスに対してモデルで生成するトークンの上限数。トークンごとに4文字を推定します。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用するわけではありません。

プリアンブル・オーバーライド

チャット・モデルの初期コンテキストまたはガイド・メッセージ。チャット・モデルにプリアンブルを指定しない場合、そのモデルのデフォルトのプリアンブルが使用されます。モデルの「プリアンブル・オーバーライド」パラメータでプリアンブルを割り当てることができます。Cohereファミリのデフォルトのプリアンブルは次のとおりです。

You are Command.
            You are an extremely capable large language model built by Cohere. 
            You are given instructions programmatically via an API
            that you follow to the best of your ability.

デフォルトのプリアンブルのオーバーライドはオプションです。指定すると、デフォルトのCohereプリアンブルがpreamble overrideに置き換えられます。プリアンブルを追加する場合、最適な結果を得るには、モデル・コンテキスト、指示および会話スタイルを指定します。

ヒント

preamble overrideパラメータのないチャット・モデルの場合は、チャット会話にプリアンブルを含め、特定の方法でモデルに直接回答を依頼できます。

安全性モード

応答の生成時に使用するモデルの安全指図を追加します。オプションは次のとおりです。

コンテキスト依存: (デフォルト)出力に対する制約が少なくなります。有害または違法な提案を拒否することを目指して核となる保護を維持しますが、冒涜や有害なコンテンツ、性的に明示的で暴力的なコンテンツ、医療情報、財務情報または法的情報を含むコンテンツを許可します。コンテキスト・モードは、エンターテインメント、クリエイティブまたは学術的な用途に適しています。
厳密: 暴力的または性的行為や冒涜などの敏感なトピックを避けることを目的としています。このモードは、不適切な応答や推奨事項を禁止することで、より安全なエクスペリエンスを提供することを目的としています。厳密モードは、企業コミュニケーションや顧客サービスなど、企業での使用に適しています。
消灯: 安全モードは適用されません。

温度

出力テキストの生成に使用されるランダム性のレベル。

ヒント

温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は、幻覚や事実上誤った情報をもたらす可能性があります。

上位p

次のトークンで考慮する上位トークンの累積確率を制御するサンプリング方法。確率にpに0から1までの小数を割り当てます。たとえば、上位75パーセントを考慮するには、0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。

上位k

top kの最も可能性の高いトークンからモデルが次のトークンをランダムに選択するサンプリング・メソッド。kの値が大きいほど、ランダムな出力が生成され、出力テキストがより自然になります。kのデフォルト値は、Cohere Commandモデルの場合は0、Meta Llamaモデルの場合は-1です。これは、モデルがすべてのトークンを考慮し、このメソッドを使用しないことを意味します。

頻度ペナルティ

トークンが頻繁に表示される場合にトークンに割り当てられるペナルティ。高いペナルティにより、繰り返されるトークンが少なくなり、よりランダムな出力が生成されます。

Meta Llamaファミリ・モデルでは、このペナルティはプラスまたはマイナスになります。正の数は、モデルが新しいトークンを使用することを推奨し、負の数はモデルがトークンを繰り返すことを推奨します。無効にするには、0に設定します。

プレゼンス・ペナルティ

出力に表示されている各トークンにペナルティが割り当てられ、使用されていないトークンを使用した出力の生成を促します。

シード

トークンを確定的にサンプリングする最善の努力をするパラメータ。このパラメータに値が割り当てられると、大規模言語モデルは、リクエストに同じシードとパラメータを割り当てたときに、繰返しリクエストに対して同じ結果を返すことを目的としています。

許可される値は整数で、大きいシード値または小さいシード値を割り当てても結果には影響しません。シード・パラメータに番号を割り当てることは、リクエストを番号でタグ付けすることと似ています。大規模言語モデルは、連続するリクエストで同じ整数に対して同じトークンのセットを生成することを目的としています。この機能は、デバッグおよびテストに特に役立ちます。シード・パラメータにはAPIの最大値がなく、コンソールでは最大値は9999です。コンソールでシード値を空白のままにするか、APIでnullのままにすると、この機能は無効になります。

警告

OCI生成AIサービスのモデル更新によってシードが無効になる可能性があるため、シード・パラメータで長時間実行しても同じ結果が生成されない場合があります。

Oracle Cloud Infrastructureドキュメント

CohereコマンドR(08-2024)

モデル・エイリアス

これらのリージョンで使用可能

このモデルへのアクセス

主な機能

オンデマンドモード

モデルの専用AIクラスタ

クラスタのエンドポイント・ルール

クラスタ・パフォーマンス・ベンチマーク

リリース日と除・売却日

モデル・パラメータ