Cohere Command A Reasoning

2025年8月にリリースされたCohere Command A Reasoning (cohere.command-a-reasoning)は、高度なエンタープライズ推論、エージェント・ワークフロー、ツールの使用向けに設計されたCohereの111億パラメータの大規模言語モデルです。このモデルは、高度な論理処理、詳細な分析、および包括的なQ&A、複雑なドキュメント・レビュー、構造化引数の作成などのマルチステップ推論を必要とするタスク向けに設計されています。このモデルは、256,000個のトークン・コンテキスト・ウィンドウをサポートしているため、大規模なデータ分析およびエージェント・ワークフローに最適です。

このモデルのリージョン

重要

このモデルのサポートされているリージョン、エンドポイント・タイプ(オンデマンドまたは専用AIクラスタ)およびホスティング(OCI生成AIまたは外部コール)については、リージョン別モデル・ページを参照してください。リージョンの詳細は、生成AIリージョンのページを参照してください。

このモデルへのアクセス

コンソール、APIおよびCLIを使用してこのモデルにアクセスします:

ノート

サポートされているすべての商用リージョン、ソブリン・リージョンおよび政府リージョンのAPIエンドポイントは、管理APIおよび推論APIリンクにリストされています。各モデルには、そのサポートされているリージョンを介してのみアクセスできます。

主な機能

モデルの目的:汎用モデルとは異なり、Command Aはエンタープライズシナリオ専用に構築されており、正確性、推論、およびセキュリティーを優先します。主なユース・ケースには次のものがあります。
- 自律型エージェント:複雑なワークフローを管理し、研究エージェントとして機能し、環境と対話します。
- 高度なRAG:詳細なドキュメント分析、財務レポート生成、正確な引用によるデータ抽出。
- マルチターン・チャットボット:長い複雑な会話において一貫性と論理的な一貫性を維持します。
コンテキスト・ウィンドウ:最大32,000個のトークン出力を含む256,000個のトークン・ウィンドウをサポートし、広範なドキュメントの分析を可能にし、256,000個のトークンの長い会話履歴からコンテキストを維持します。オンデマンド推論の場合、レスポンスの長さは実行ごとに4,000トークンに制限されます。専用モードの場合、レスポンスの長さは制限されず、コンテキストの長さは256,000トークンです。
エージェントのユース・ケース: ReAct(理由付け+行動)エージェントを抜粋し、複雑な複数ステップの質問をサブゴールに分割し、外部ツールを使用し、自律的なアクションを実行し、問題を解決するために環境と対話します。
ツールの使用とRAG:外部APIと対話し、検索エンジンやデータベースなどの様々なツールを活用し、アース引用に対する組込みサポートを提供します。
多言語サポート:英語、スペイン語、中国語、アラビア語、ドイツ語など、23の言語でネイティブに推論できます。
アーキテクチャと効率性:ハイブリッド・アテンション(スライド・ウィンドウ+グローバル)を備えた4層トランスフォーマ・アーキテクチャを使用して、長いコンテキストを処理し、1つまたは2つのGPUで実行できます。
構成:ユーザーは、レイテンシ、精度およびスループットのバランスをとるように推論予算を設定できます。
ナレッジ・カットオフ: 2024年6月1日

Cohereのドキュメント『Command A Reasoning Model』および『Reasoning Guide』を参照してください。

APIエンドポイント

重要

Cohere Command A Reasoningモデルは、OCI Generative AI Chat API for Cohereモデルのバージョン2のみと互換性があります。実装の詳細は、CohereChatRequestV2 APIおよびV2で終わるその他の関連エンドポイントを参照してください。たとえば、CohereChatResponseV2です。

モデルの専用AIクラスタ

前述のリージョン・リストでは、(専用AIクラスタのみ)でマークされていないリージョンのモデルには、オンデマンドと専用の両方のAIクラスタ・オプションがあります。オンデマンド・モードの場合、クラスタは必要なく、コンソール・プレイグラウンドまたはAPIを介してモデルに到達できます。

リストされているリージョン内の専用AIクラスタを介してモデルに到達するには、専用AIクラスタ上でそのモデルのエンドポイントを作成する必要があります。このモデルに一致するクラスタユニットサイズについては、次の表を参照してください。


ベース・モデル	クラスタのファインチューニング	ホスト・クラスタ	価格設定ページ情報	クラスタ制限の引上げのリクエスト
モデル名: Cohere Command A Reasoning OCIモデル名: `cohere.command-a-reasoning`	ファインチューニングに使用できません	単位サイズ: LARGE_COHERE_V2_2 必須単位: 1	価格設定ページ製品名: Large Cohere - Dedicated ホスティングの場合は、単価を乗算します: x2	制限名: `dedicated-unit-large-cohere-count` ホスティングの場合、リクエスト制限の引上げ単位: 2
モデル名: Cohere Command A Reasoning (UAE East (Dubai)のみ) OCIモデル名: `cohere.command-a-reasoning`	ファインチューニングに使用できません	単位サイズ: SMALL_COHERE_4 必須単位: 1	価格設定ページ製品名: Small Cohere - Dedicated ホスティングの場合は、単価を乗算します: x4	制限名: `dedicated-unit-small-cohere-count` ホスティングの場合、リクエスト制限の引上げ単位: 4

ヒント

専用AIクラスタでCohere Command A Reasoningモデルをホストするための十分なクラスタ制限がテナンシにない場合は、
- UAE East (Dubai)リージョンでは、dedicated-unit-small-cohere-count制限を4増やすようにリクエストします。
- その他のすべてのリージョンでは、dedicated-unit-large-cohere-count制限を2増やすようにリクエストします。
サービス制限の引き上げのリクエストを参照してください。

クラスタのエンドポイント・ルール

専用AIクラスタには、最大50のエンドポイントを保持できます。
これらのエンドポイントを使用して、同じベース・モデルまたは同じバージョンのカスタム・モデルのいずれかを指し示すが、両方の型を指さない別名を作成します。
同じモデルの複数のエンドポイントにより、それらを異なるユーザーまたは目的に簡単に割り当てることができます。


ホスト・クラスタ・ユニット・サイズ	エンドポイント・ルール
LARGE_COHERE_V2_2	ベース・モデル: 複数のエンドポイントで ⁇ `cohere.command-a-reasoning`⁇modelを実行するには、必要な数のエンドポイントをLARGE_COHERE_V2_2クラスタ(単位サイズ)に作成します。カスタム・モデル: `cohere.command-a-reasoning`を微調整できないため、そのベースから構築されたカスタム・モデルを作成およびホストできません。
SMALL_COHERE_4 (UAE East (Dubai)のみ)	ベース・モデル: UAE East (Dubai)の複数のエンドポイントで ⁇ `cohere.command-a-reasoning`⁇modelを実行するには、必要な数のエンドポイントをSMALL_COHERE_4クラスタ(単位サイズ)に作成します。カスタム・モデル: `cohere.command-a-reasoning`を微調整できないため、そのベースから構築されたカスタム・モデルを作成およびホストできません。

ヒント

ホスティング・クラスタでサポートされているコール・ボリュームを増やすには、専用AIクラスタを編集してインスタンス数を増やします。専用AIクラスタの更新を参照してください。
クラスタ当たり50を超えるエンドポイントの場合は、制限endpoint-per-dedicated-unit-countの引上げをリクエストします。サービス制限の引上げのリクエストおよび生成AIのサービス制限を参照してください。

OCIのリリース日および除・売却日

リリース日およびリタイア日および置換モデル・オプションについては、モード(オンデマンドまたは専用)に基づいて次のページを参照してください。

モデル・パラメータ

モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。

最大出力トークン

各レスポンスに対してモデルで生成するトークンのの最大数。トークンごとに4文字を見積もります。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用する必要はありません。

プリアンブル・オーバーライド

チャット・モデルの初期コンテキストまたはガイド・メッセージ。チャット・モデルにプリアンブルを指定しない場合、そのモデルのデフォルトのプリアンブルが使用されます。「プリアンブル・オーバーライド」パラメータで、モデルにプリアンブルを割り当てることができます。Cohereファミリのデフォルトのプリアンブルは次のとおりです。

You are Command.
            You are an extremely capable large language model built by Cohere. 
            You are given instructions programmatically via an API
            that you follow to the best of your ability.

デフォルトのプリアンブルのオーバーライドはオプションです。指定した場合、preamble overrideはデフォルトのCohereプリアンブルを置き換えます。プリアンブルを追加する場合、最良の結果を得るには、モデル・コンテキスト、命令および会話スタイルを指定します。

ヒント

preamble overrideパラメータを使用しないチャット・モデルの場合、チャット会話にプリアンブルを含め、モデルに特定の方法で直接回答するように依頼できます。

安全性モード

応答の生成時に使用するモデルの安全指示を追加します。オプションは次のとおりです。

コンテキスト依存: (デフォルト)出力の制約を少なくします。有害または違法な提案を拒絶することを目的として、中核的な保護を維持しますが、不当なものや有毒なコンテンツ、性的に明示的かつ暴力的なコンテンツ、および医療、金融、または法的情報を含むコンテンツを許可します。コンテキスト・モードは、エンターテインメント、クリエイティブまたはアカデミックな用途に適しています。
厳格: 暴力的行為や性的行為、不当行為など、機密性の高いトピックを避けることを目的としています。このモードは、不適切なレスポンスや推奨事項を禁止することで、より安全なエクスペリエンスを提供することを目的としています。厳密モードは、企業のコミュニケーションやカスタマーサービスなど、企業での使用に適しています。
オフ: 安全モードは適用されません。

温度

出力テキストの生成に使用されるランダム性のレベル。

ヒント

温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は幻覚をもたらし、事実上誤った情報をもたらす可能性があります。

上位p

次のトークンで考慮する上位トークンの累積確率を制御するサンプリング・メソッド。確率として、pに0から1までの小数を割り当てます。たとえば、上位75パーセントが考慮される場合は0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。

上位k

モデルがtop kの最も可能性の高いトークンから次のトークンをランダムに選択するサンプリング・メソッド。kの値が大きいほど、よりランダムな出力が生成されるため、出力テキストのサウンドがより自然になります。kのデフォルト値は、Cohere Commandモデルの場合は0、Meta Llamaモデルの場合は-1です。これは、モデルがすべてのトークンを考慮し、このメソッドを使用しないことを意味します。

頻度ペナルティ

トークンが頻繁に表示される場合に、そのトークンに割り当てられるペナルティ。高いペナルティにより、繰り返されるトークンが少なくなり、よりランダムな出力が生成されます。

Meta Llamaファミリ・モデルでは、このペナルティはプラスまたはマイナスにできます。正の数はモデルに新しいトークンを使用することを促し、負の数はモデルがトークンを繰り返すことを促します。無効にするには、0に設定します。

プレゼンス・ペナルティ

出力に表示されている各トークンにペナルティが割り当てられ、使用されていないトークンを使用した出力の生成を促します。

シード

トークンを確定的にサンプリングするために最善を尽くすパラメータ。このパラメータに値が割り当てられている場合、大規模言語モデルでは、リクエストに同じシードおよびパラメータを割り当てるときに、繰返しリクエストに対して同じ結果を返すことを目的としています。

指定できる値は整数であり、大きいシード値または小さいシード値を割り当てても結果には影響しません。シード・パラメータに番号を割り当てることは、リクエストに番号を付けてタグ付けすることと似ています。大規模言語モデルは、連続したリクエストで同じ整数に対して同じトークンのセットを生成することを目的としています。この機能は、デバッグおよびテストに特に役立ちます。シード・パラメータにはAPIの最大値がありません。コンソールでは、最大値は9999です。コンソールでシード値を空白のままにするか、APIでnullのままにすると、この機能が無効になります。

警告

OCI生成AIサービスのモデル更新によってシードが無効になる可能性があるため、シード・パラメータによって長時間実行で同じ結果が生成されない可能性があります。

推論のAPIパラメータ

思考

デフォルトでは、cohere.command-a-reasoningモデルの推論機能は、thinkingパラメータを使用して有効化されます。CohereThinkingV2を参照してください。

thinkingパラメータを有効にすると、モデルは複雑な問題を段階的に処理し、問題を内部的に分解してから最終的な回答を提供します。この機能は、いくつかの方法で制御できます。

シンキングはデフォルトで有効になっていますが、無効化できます。無効にすると、推論モデルは内部推論ステップなしで他のLLMと同様に機能します。

token_budget

トークン予算をtoken_budgetパラメータで指定して、モデルが生成するシンキング・トークンの数を制限できます。予算を超過すると、モデルはただちに最終応答を続行します。

思考予算を使用する場合、Cohereは次のことを推奨します。

可能な限り無制限の思考を使用
予算を使用する場合は、応答に少なくとも1000トークンを残してください
最大の推論のために、31,000トークンの予算をお勧めします

APIドキュメントのCohereThinkingContentV2リファレンスおよびCohereThinkingV2リファレンスおよびCohereドキュメントの理由付けガイドを参照してください。

Oracle Cloud Infrastructureドキュメント