Für dedizierte KI-Cluster bezahlen

Sie erhalten die folgenden Vorteile für die Verwendung von dedizierten KI-Clustern in OCI Generative AI:

  • Vorhersehbare Preise, die nicht mit der Nachfrage schwanken.
  • Ideal für Feinabstimmung oder Hosting-Modelle.
  • Minimale Hosting-Verpflichtung: 744 Einheitsstunden pro Hosting-Cluster.
  • Minimale Feinabstimmungsverpflichtung: 1 Stunde pro Fine-Tuning-Job. (Je nach Modell sind für die Feinabstimmung mindestens 2 Einheiten erforderlich).
Hinweis

Unter Basismodelle mit Clustern abgleichen wird beschrieben, welche Modelle für die Feinabstimmung verfügbar sind.

Die folgenden Beispiele berechnen die Kosten für dedizierte KI-Cluster in OCI Generative AI. Informationen zur Berechnung der On-Demand-Inferenzierungskosten finden Sie unter Für On-Demand-Inferenzierung bezahlen.

Modelle mit Preisen für dedizierte Clustereinheiten abgleichen

Wenn Sie grundlegende Modelle hosting oder sie auf dedizierten KI-Clustern optimieren, werden Ihnen die Einheitenstunde und nicht die Transaktion in Rechnung gestellt. In diesem Fall finden Sie in der folgenden Tabelle Informationen zur Berechnung der Kosten für dedizierte KI-Cluster für die Chatmodelle.

Wichtig

Einige vortrainierte Basismodelle von OCI Generative AI, die für den dedizierten Bereitstellungsmodus unterstützt werden, sind jetzt veraltet und werden spätestens 6 Monate nach dem Release des 1. Ersatzmodells in den Ruhestand versetzt. Sie können ein Basismodell hosten oder ein Basismodell optimieren und das fein abgestimmte Modell in einem dedizierten KI-Cluster (dedizierter Bereitstellungsmodus) hosten, bis das Basismodell deaktiviert wird. Informationen zu den Ruhestandsdaten im dedizierten Bereitstellungsmodus finden Sie unter Modelle in den Ruhestand versetzen.

Chatmodelle

Basismodell Fine-Tuning-Cluster Hosting Cluster Preisinformationen Erhöhung des Clusterlimits beantragen
  • Modellname: Meta Llama 4 Maverick
  • OCI-Modellname: meta.llama-4-maverick-17b-128e-instruct-fp8
Nicht für Feinabstimmung verfügbar
  • Einheitengröße: Large Generic 2
  • Erforderliche Einheiten: 1
  • Preisfindungsseite - Produktname: Large Meta - Dedicated
  • Limitname: dedicated-unit-llama2-70-count
  • Beantragen Sie für das Hosting eine Erhöhung des Limits um: 4
  • Modellname: Meta Llama 4 Scout
  • OCI-Modellname: meta.llama-4-scout-17b-16e-instruct
Nicht für Feinabstimmung verfügbar
  • Einheit: Large Generic V2
  • Erforderliche Einheiten: 1
  • Preisfindungsseite - Produktname: Large Meta - Dedicated
  • Limitname: dedicated-unit-llama2-70-count
  • Beantragen Sie für das Hosting eine Erhöhung des Limits um: 2
  • Modellname: Cohere Command A
  • OCI-Modellname: cohere.command-a-03-2025
Nicht für Feinabstimmung verfügbar
  • Einheit: LARGE_COHERE_V3
  • Erforderliche Einheiten: 1
  • Preisfindungsseite - Produktname: Large Cohere - Dedicated
  • Limitname: dedicated-unit-large-cohere-count
  • Beantragen Sie für das Hosting eine Erhöhung des Limits um: 1
  • Modellname: Cohere Command R
  • OCI-Modellname: cohere.command-r-16k (veraltet)
  • Einheitengröße: Small Cohere V2
  • Erforderliche Einheiten: 8
  • Einheitengröße: Small Cohere V2
  • Erforderliche Einheiten: 1
  • Preisfindungsseite - Produktname: Small Cohere - Dedicated
  • Multiplizieren Sie bei der Feinabstimmung den Stückpreis: x8
  • Limitname: dedicated-unit-small-cohere-count
  • Beantragen Sie für das Hosting eine Erhöhung des Limits um: 1
  • Bei der Feinabstimmung erhöhen Sie das Anforderungslimit um: 8
  • Modellname: Command R 08-2024
  • OCI-Modellname: cohere.command-r-08-2024
  • Einheitengröße: Small Cohere V2
  • Erforderliche Einheiten: 8
  • Einheitengröße: Small Cohere V2
  • Erforderliche Einheiten: 1
  • Preisfindungsseite - Produktname: Small Cohere - Dedicated
  • Multiplizieren Sie bei der Feinabstimmung den Stückpreis: x8
  • Limitname: dedicated-unit-small-cohere-count
  • Für Hosting erhöhen Sie das Limit um: 1
  • Bei der Feinabstimmung erhöhen Sie das Anforderungslimit um: 8
  • Modellname: Cohere Command R+
  • OCI-Modellname: cohere.command-r-plus (veraltet)
Nicht für Feinabstimmung verfügbar
  • Einheitengröße: Large Cohere V2_2
  • Erforderliche Einheiten: 1
  • Preisfindungsseite - Produktname: Large Cohere - Dedicated
  • Multiplizieren Sie für das Hosting den Stückpreis: x2
  • Limitname: dedicated-unit-large-cohere-count
  • Beantragen Sie für das Hosting eine Erhöhung des Limits um: 2
  • Modellname: Command R+ 08-2024
  • OCI-Modellname: cohere.command-r-plus-08-2024
Nicht für Feinabstimmung verfügbar
  • Einheitengröße: Large Cohere V2_2
  • Erforderliche Einheiten: 1
  • Produktname der Preisseite: Large Cohere - Dedicated
  • Multiplizieren Sie für das Hosting den Stückpreis: x2
  • Limitname: dedicated-unit-large-cohere-count
  • Beantragen Sie für das Hosting eine Erhöhung des Limits um: 2
  • Modellname: Meta Llama 3.3 (70B)
  • OCI-Modellname: meta.llama-3.3-70b-instruct
  • Einheitengröße: Large Generic
  • Erforderliche Einheiten: 2
  • Einheitengröße: Large Generic
  • Erforderliche Einheiten: 1
  • Preisfindungsseite - Produktname: Large Meta - Dedicated
  • Multiplizieren Sie für das Hosting den Stückpreis: x2
  • Multiplizieren Sie bei der Feinabstimmung den Stückpreis: x4
  • Limitname: dedicated-unit-llama2-70-count
  • Beantragen Sie für das Hosting eine Erhöhung des Limits um: 2
  • Bei der Feinabstimmung erhöhen Sie das Anforderungslimit um: 4
  • Modellname: Meta Llama 3.2 11B Vision
  • OCI-Modellname: meta.llama-3.2-11b-vision-instruct
Nicht für Feinabstimmung verfügbar
  • Einheitengröße: Small Generic V2
  • Erforderliche Einheiten: 1
  • Preisfindungsseite - Produktname: Large Meta - Dedicated
  • Multiplizieren Sie für das Hosting den Stückpreis: x(0,5)
  • Limitname: dedicated-unit-llama2-70-count
  • Beantragen Sie für das Hosting eine Erhöhung des Limits um:1
  • Modellname: Meta Llama 3.2 90B Vision
  • OCI-Modellname: meta.llama-3.2-90b-vision-instruct
Nicht für Feinabstimmung verfügbar
  • Einheitengröße: Large Generic V2
  • Erforderliche Einheiten: 1
  • Preisfindungsseite - Produktname: Large Meta - Dedicated
  • Multiplizieren Sie für das Hosting den Stückpreis: x2
  • Limitname: dedicated-unit-llama2-70-count
  • Beantragen Sie für das Hosting eine Erhöhung des Limits um: 2
  • Modellname: Meta Llama 3.1 (70B)
  • OCI-Modellname: meta.llama-3.1-70b-instruct
  • Einheitengröße: Large Generic
  • Erforderliche Einheiten: 2
  • Einheitengröße: Large Generic
  • Erforderliche Einheiten: 1
  • Preisfindungsseite - Produktname: Large Meta - Dedicated
  • Multiplizieren Sie für das Hosting den Stückpreis: x2
  • Multiplizieren Sie bei der Feinabstimmung den Stückpreis: x4
  • Limitname: dedicated-unit-llama2-70-count
  • Beantragen Sie für das Hosting eine Erhöhung des Limits um: 2
  • Bei der Feinabstimmung erhöhen Sie das Anforderungslimit um: 4
  • Modellname: Meta Llama 3.1 (405B)
  • OCI-Modellname: meta.llama-3.1-405b-instruct
Nicht für Feinabstimmung verfügbar
  • Einheit: Large Generic 2
  • Erforderliche Maßeinheiten: 1
  • Produktname der Preisseite: Large Meta - Dedicated
  • Multiplizieren Sie für das Hosting den Stückpreis: x4
  • Limitname: dedicated-unit-llama2-70-count
  • Beantragen Sie für das Hosting eine Erhöhung des Limits um: 4
  • Modellname: Meta Llama 3
  • OCI-Modellname: meta.llama-3-70b-instruct (veraltet)
  • Einheitengröße: Large Generic
  • Erforderliche Einheiten: 2
  • Einheitengröße: Large Generic
  • Erforderliche Maßeinheiten: 1
  • Produktname der Preisseite: Large Meta - Dedicated
  • Multiplizieren Sie für das Hosting den Stückpreis: x2
  • Multiplizieren Sie bei der Feinabstimmung den Stückpreis: x4
  • Limitname: dedicated-unit-llama2-70-count
  • Für Hosting erhöhen Sie das Limit um: 2
  • Bei der Feinabstimmung erhöhen Sie das Anforderungslimit um: 4
Wichtig

Sie müssen eine Limiterhöhung beantragen, um die folgenden Ressourcen zu verwenden:

Familie Meta Llama

  • Um ein Meta Llama 4 Maverick-Modell zu hosten, müssen Sie anfordern, dass dedicated-unit-llama2-70-count um 4 erhöht wird.

  • Um ein Meta Llama 4 Scout-Modell zu hosten, müssen Sie die Erhöhung von dedicated-unit-llama2-70-count um 2 anfordern.

  • Um ein Meta Llama 3.3 (70B)-Modell zu hosten, müssen Sie eine Erhöhung um 2 durch dedicated-unit-llama2-70-count anfordern.

  • Um ein Meta Llama 3.3 (70B)-Modell zu optimieren, müssen Sie eine Erhöhung um 4 durch dedicated-unit-llama2-70-count anfordern.

  • Um ein Meta Llama 3.2 11B Vision -Modell zu hosten, müssen Sie eine Erhöhung um 1 durch dedicated-unit-llama2-70-count anfordern.

  • Um ein Meta Llama 3.2 90B Vision -Modell zu hosten, müssen Sie eine Erhöhung um 2 durch dedicated-unit-llama2-70-count anfordern.

  • Um ein Meta Llama 3.1 (70B)-Modell zu hosten, müssen Sie eine Erhöhung um 2 durch dedicated-unit-llama2-70-count anfordern.

  • Um ein Meta Llama 3.1 (70B)-Modell zu optimieren, müssen Sie eine Erhöhung um 4 durch dedicated-unit-llama2-70-count anfordern.

  • Um ein Meta Llama 3.1 (405B)-Modell zu hosten, müssen Sie eine Erhöhung um 4 durch dedicated-unit-llama2-70-count anfordern.

Cohere Command-Familie

  • Um ein Cohere Command A-Modell zu hosten, müssen Sie anfordern, dass dedicated-unit-large-cohere-count um 1 erhöht wird.

  • Um ein Cohere Command R-(veraltet-)Modell zu hosten, müssen Sie die Erhöhung von dedicated-unit-small-cohere-count um 1 anfordern.

  • Um ein Cohere Command R-Modell (veraltet) zu optimieren, müssen Sie dedicated-unit-small-cohere-count zur Erhöhung um 8 anfordern.

  • Um ein Cohere Command R 08-2024-Modell zu hosten, müssen Sie eine Erhöhung um 1 durch dedicated-unit-small-cohere-count anfordern.

  • Um ein Cohere Command R 08-2024-Modell zu optimieren, müssen Sie eine Erhöhung um 8 durch dedicated-unit-small-cohere-count anfordern.

  • Um ein Cohere Command R+-(veraltet-)Modell zu hosten, müssen Sie die Erhöhung von dedicated-unit-large-cohere-count um 2 anfordern.

  • Um ein Cohere Command R+ 08-2024-Modell zu hosten, müssen Sie eine Erhöhung um 2 durch dedicated-unit-large-cohere-count anfordern.

Referenzen: Servicelimits für generative KI und Erhöhung des Clusterlimits beantragen

Informationen zu Modellen zur Textgenerierung, -zusammenfassung und -einbettung finden Sie in den Tabellen unter Basismodelle mit Clustern abgleichen.

Hosting eines Basismodells - Beispiel 1

John möchte eine Instanz des Modells Command R+ 08-2024 (cohere.command-r-plus-08-2024) auf einer dedizierten Infrastruktur hosten. John löscht das Cluster nach 40 Tagen und möchte die Kosten des Clusters kennen. Um ein cohere.command-r-plus-08-2024-Modell zu hosten, muss John zuerst die Einheitengröße identifizieren, die das cohere.command-r-plus-08-2024-Modell hosten kann. Die Einheitengröße für das Modell cohere.command-r-plus-08-2024 ist eine Large Cohere V2_2-Einheit. Siehe Basismodelle mit Clustern abgleichen.

John benötigt mindestens eine Large Cohere V2_2-Einheit, um das cohere.command-r-plus-08-2024-Modell zu hosten. Im Folgenden werden die Schritte zum Berechnen der Kosten eines Hostingclusters mit einer Large Cohere V2_2-Einheit beschrieben.

  1. Berechnen Sie die Stunden pro Einheit für 40 Tage.
    40 days x 24 hours per day x 1 unit = 960 unit hours.
  2. Stellen Sie sicher, dass die Stunden pro Einheit die Mindestverpflichtung für das Hosting der Modelle überschreiten.
    960 unit hours > 744 minimum unit hours
  3. Gehen Sie zu KI-Preise und finden Sie unter OCI Generative AI unter Oracle Cloud Infrastructure Generative AI - Large Cohere - Dedicated die Adresse <Large-Cohere-dedicated-unit-per-hour-price>.
  4. Suchen Sie auf der Seite Basismodelle mit Clustern abgleichen den Multiplikator für das Modell cohere.command-r-plus-08-2024:
    For Hosting, Multiply the Unit Price: x 2
  5. Berechnen Sie den Preis für 40 Tage.
    price = (960 unit hours) x $<Large-Cohere-dedicated-unit-per-hour-price> x 2

Hosting eines Basismodells - Beispiel 2

Alice möchte eine Instanz des Modells Command R 08-2024 (cohere.command-r-08-2024) auf einer dedizierten Infrastruktur hosten. Um ein cohere.command-r-08-2024-Modell zu hosten, muss Alice zuerst die Einheitengröße identifizieren, die das Command R 08-2024-Modell hosten kann. Die Einheitengröße für Command R 08-2024 ist eine Small Cohere V2-Einheit. Siehe Basismodelle mit Clustern abgleichen.

Alice beschließt, drei Einheiten von Small Cohere V2 zu kaufen, um ein höheres Anrufvolumen an das Modell zu verarbeiten, als eine einzelne Einheit bereitstellen würde. Alice plant, das Cluster nach fünf Tagen zu löschen. Im Folgenden werden die Schritte zum Berechnen der Kosten eines Hostingclusters mit drei Small Cohere V2-Einheiten für fünf Tage beschrieben.

  1. Berechnen Sie die Stunden pro Einheit.
    5 days x 24 hours per day x 3 units = 360 unit hours. 
  2. Vergleichen Sie die Stunden der Einheit mit der minimalen Verpflichtung für das Hosting der Modelle.
    360 unit hours < 744 minimum unit hours
    Alice is charged for 744 unit hours.
  3. Gehen Sie zu KI-Preise und finden Sie unter OCI Generative AI unter Oracle Cloud Infrastructure Generative AI - Small Cohere - Dedicated die Adresse <Small-Cohere-dedicated-unit-per-hour-price>.
  4. Suchen Sie auf der Seite Basismodelle mit Clustern abgleichen den Multiplikator für das Modell cohere.command-r-08-2024.

    Sie müssen den Preis für das Hosting des cohere.command-r-08-2024-Modells nicht multiplizieren.

  5. Berechnen Sie die Kosten für fünf Tage.
    price = (744 unit hours) x $<Small-Cohere-dedicated-unit-per-hour-price>

Feinabstimmung und Hosting eines Modellbeispiels

Bob möchte ein Command R 08-2024-(cohere.command-r-08-2024-)Modell optimieren. Bob erstellt ein Defined-Tuning-dediziertes KI-Cluster mit dem voreingestellten Wert von acht Small Cohere V2-Einheiten. Bob erstellt ein benutzerdefiniertes Modell im definierten dedizierten KI-Cluster und optimiert das Command R 08-2024-Grundmodell mit Trainingsdaten. Die Feinabstimmung dauert 5 Stunden. Bob schafft jede Woche ein fein abgestimmtes Cluster.

Um ein cohere.command-r-08-2024-Modell zu hosten, muss Bob die Einheitengröße identifizieren, die das cohere.command-r-08-2024-Modell hosten kann. Die Einheitengröße für das Modell cohere.command-r-08-2024 ist eine Small Cohere V2-Einheit. Siehe Basismodelle mit Clustern abgleichen. Bob kann bis zu 50 fein abgestimmte Modelle auf einem einzigen Hosting-Cluster hosten. Hier sind die Schritte, um die monatlichen Kosten für die Optimierung und das Hosting der Modelle zu berechnen.

  1. Berechnen Sie die Stunden pro Einheit für jede Feinabstimmung.
    Each fine-tuning cluster requires 8 units and each cluster is active for 5 hours
    fine-tuning per cluster = 40 unit-hours
  2. Vergleichen Sie die Stunden pro Einheit mit der minimalen Verpflichtung zur Feinabstimmung der Modelle.
    40 unit hours > 1 unit hour
  3. Berechnen Sie die Stunden pro Einheit für das Hosting.
    31 days x 24 hours per day x 1 unit = 744 unit hours
  4. Vergleichen Sie die Stunden der Einheit mit der minimalen Verpflichtung für das Hosting der Modelle.
    744 unit hours = 744 minimum unit hours
  5. Gehen Sie zu KI-Preise und finden Sie unter OCI Generative AI unter Oracle Cloud Infrastructure Generative AI - Small Cohere - Dedicated die Adresse <Small-Cohere-dedicated-unit-per-hour-price>.
  6. Finden Sie den monatlichen Gesamtpreis.
    fine-tuning price = (40 unit hours) per week x (4 weeks) x $<Small-Cohere-dedicated-unit-per-hour-price> 
                                
    fine-tuning price = 160 x <Small-Cohere-dedicated-unit-per-hour-price>
    hosting price = (744 unit hours) x $<Small-Cohere-dedicated-unit-per-hour-price>
    total monthly price = (160 + 744 unit hours) x $<Small-Cohere-dedicated-unit-per-hour-price>
Tipp

Neben der Preisberechnung können Sie die Kosten schätzen, indem Sie die Kategorie KI und maschinelles Lernen auswählen und den Kostenrechner für OCI Generative AI laden.