Generative KI - Konzepte

Um Ihnen bei der Untermauerung von OCI Generative AI zu helfen, lesen Sie einige Konzepte und Begriffe im Zusammenhang mit dem Service.

Modell für generative KI

Ein KI-Modell, das mit großen Datenmengen trainiert wurde und anhand neuer Eingaben neue Inhalte generiert.

Retrieval-Augmented Generation (RAG)

Ein Programm, das Daten aus bestimmten Quellen abruft und LLM-Antworten (Large Language Model) mit den angegebenen Informationen erweitert, um geerdete Antworten zu generieren.

Prompts und Prompt-Entwicklung

Prompts
Textzeichenfolgen in natürlicher Sprache, die zum Anweisen oder Extrahieren von Informationen aus einem großen Sprachmodell verwendet werden. Beispiel:
  • Was ist die Sommersonnenwende?
  • Schreibe ein Gedicht über Bäume, die in der Brise schwanken.
  • Schreibe den vorherigen Text auf lockerere Art um.
Prompt-Entwicklung
Der iterative Prozess der Erstellung bestimmter Anforderungen in natürlicher Sprache, um optimierte Prompts aus einem großen Sprachmodell (LLM) zu extrahieren. Basierend auf der genauen Sprache kann der Prompt-Entwickler das LLM anleiten, bessere oder andere Ausgaben bereitzustellen.

Inferenz

Die Fähigkeit eines großen Sprachmodells (LLM), eine Antwort basierend auf Anweisungen und Kontext zu generieren, die der Benutzer in der Eingabeaufforderung bereitstellt. Ein LLM kann neue Daten generieren, Vorhersagen treffen oder Schlussfolgerungen ziehen, die auf seinen erlernten Mustern und Beziehungen in den Trainingsdaten basieren, ohne explizit programmiert worden zu sein.

Inferenz ist ein wichtiges Feature von Natural Language Processing-(NLP-)Aufgaben, wie Fragen beantworten, Text zusammenfassen und übersetzen. Sie können die grundlegenden Modelle in der generativen KI zur Inferenz verwenden.

Streaming

Generierung von Inhalt durch ein Large Language Model (LLM), bei dem der Benutzer die generierten Token nacheinander sehen kann, anstatt auf die Generierung einer vollständigen Antwort zu warten, bevor die Antwort an den Benutzer zurückgegeben wird.

Einbettung

Eine numerische Darstellung mit der Eigenschaft, die Bedeutung eines Textteils zu erhalten. Bei diesem Text kann es sich um eine Wortgruppe, einen Satz oder einen oder mehrere Absätze handeln. Die Einbettungsmodelle der generativen KI wandeln je nach gewähltem Einbettungsmodell jede eingegebene Wortgruppe, jeden Satz und jeden Absatz in ein Array mit 384 oder 1024 Zahlen um. Mit diesen Einbettungen können Sie nach Ähnlichkeiten in Wortgruppen mit ähnlichem Kontext oder ähnlicher Kategorie suchen. Einbettungen werden in der Regel in einer Vektordatenbank gespeichert. Einbettungen werden hauptsächlich für semantische Suchen verwendet, bei denen sich die Suchfunktion auf die Bedeutung des durchsuchten Textes konzentriert, anstatt Ergebnisse basierend auf Schlüsselwörtern zu finden. Um die Einbettungen zu erstellen, können Sie Formulierungen in Englisch und anderen Sprachen eingeben.

Playground

Eine Schnittstelle in der Oracle Cloud-Konsole, über die Sie gehostete vortrainierte und benutzerdefinierte Modelle untersuchen können, ohne eine einzelne Codezeile zu schreiben. Im Playground können Sie Ihre Anwendungsfälle testen und Prompts und Parameter optimieren. Wenn Sie mit den Ergebnissen zufrieden sind, kopieren Sie den generierten Code, oder verwenden Sie den Endpunkt des Modells, um generative KI in Ihre Anwendungen zu integrieren.

Bedarfsgesteuerter Modus

Sie können die vortrainierten Basismodelle in generativer KI über zwei Modi erreichen: On-Demand und dediziert. Im Folgenden werden die wichtigsten Features für den On-Demand-Modus aufgeführt:
  • Sie zahlen unterwegs für jeden Inferenzaufruf, wenn Sie die Modelle im Playground verwenden oder die Modelle über die API aufrufen.

  • Geringe Barriere für den Einsatz generativer KI.
  • Ideal zum Experimentieren, zum Nachweis von Konzepten und zur Auswertung der Modelle.
  • Verfügbar für die vortrainierten Modelle in Regionen, die nicht als (nur dediziertes KI-Cluster) aufgeführt sind.
Tipp

Um einen zuverlässigen Zugriff auf generative KI-Modelle im On-Demand-Modus sicherzustellen, empfehlen wir die Implementierung einer Back-off-Strategie, bei der Anforderungen nach einer Ablehnung verzögert werden. Ohne eine können wiederholte schnelle Anfragen zu weiteren Ablehnungen im Laufe der Zeit, einer erhöhten Latenz und einer potenziellen vorübergehenden Blockierung des Clients durch den Generative AI-Service führen. Durch die Verwendung einer Back-off-Strategie, wie z. B. einer exponentiellen Back-off-Strategie, können Sie Anforderungen gleichmäßiger verteilen, die Last reduzieren und den Wiederholungserfolg verbessern. Befolgen Sie die Best Practices der Branche, und verbessern Sie die allgemeine Stabilität und Performance Ihrer Integration in den Service.

Dedizierte KI-Cluster

Compute-Ressourcen, mit denen Sie benutzerdefinierte Modelle optimieren oder Endpunkte für grundlegende vortrainierte und benutzerdefinierte Modelle hosten können. Die Cluster werden dediziert für Ihre Modelle bereitgestellt und nicht mit anderen Benutzern geteilt.

Dedizierter Modus

Sie können die vortrainierten Basismodelle in generativer KI über zwei Modi erreichen: On-Demand und dediziert. Im Folgenden werden die wichtigsten Features für den dedizierten Modus aufgeführt:

  • Sie erhalten ein dediziertes Set von GPUs für die dedizierten KI-Cluster.
  • Sie können benutzerdefinierte Modelle in den dedizierten KI-Clustern erstellen, indem Sie eine Teilmenge der vorgeschulten grundlegenden Modelle in generativer KI für die Feinabstimmung optimieren.
  • Sie können Replikate der grundlegenden und fein abgestimmten Modelle in den dedizierten KI-Clustern hosten.
  • Sie schreiben im Voraus fest, wie viele Stunden die dedizierten KI-Cluster verwendet werden. Preise finden Sie auf der Seite Preise.
  • Verfügbar für die vortrainierten Modelle in allen aufgeführten Regionen.
  • Sie erhalten eine vorhersehbare Performance und sind für Produktions-Workloads geeignet.
Tipp

Der dedizierte Modus ist eine einmandantenfähige Verwendung der Modelle, bei denen Sie die Hardware für Ihre Verwendung leasen. Dieser Modus bietet eine vorhersehbare Performance und wird für Produktions-Workloads empfohlen. Unter Clusterperformancebenchmarks können Sie die richtige Größe für Ihre dedizierten Cluster finden.

Hinweis

Ein Modell, das in einem dedizierten KI-Cluster gehostet wird, ist nur in der Region verfügbar, in der sein Endpunkt bereitgestellt ist. Siehe Liste der Regionen für jedes Modell.

Benutzerdefiniertes Modell

Ein Modell, das Sie erstellen, indem Sie ein vortrainiertes Modell als Basis verwenden, und das Sie mit Ihrem eigenen Dataset optimieren können.

Token

Ein Token ist ein Wort, Teil eines Wortes oder ein Satzzeichen. Beispiel: Apfel ist ein Token, und Freundschaft ist zwei Token (Freund und Schiff), und nicht sind zwei Token (Don und nicht). Wenn Sie ein Modell im Playground ausführen, können Sie die maximale Anzahl von Ausgabetoken festlegen. Schätzen Sie vier Zeichen pro Token.

Temperatur

Die Zufälligkeitsebene, die zum Generieren des Ausgabetextes verwendet wird. Verwenden Sie 0, um für einen Prompt bei jeder Ausführung eine ähnliche Ausgabe zu generieren. Um einen zufälligen neuen Text für diesen Prompt zu generieren, müssen Sie die Temperatur erhöhen.

Tipp

Setzen Sie die Temperatur anfangs auf die 0, und erhöhen Sie die Temperatur beim erneutem Generieren der Prompts, um die Ausgabe zu verfeinern. Hohe Temperaturen können Halluzinationen und sachlich falsche Informationen verursachen. Um dasselbe Ergebnis für wiederholte Anforderungen abzurufen, verwenden Sie den Parameter seed.

Top k

Eine Samplingmethode, bei der das Modell das nächste Token zufällig aus den wahrscheinlichsten top k-Token wählt. Ein höherer Wert für k generiert eine eher zufällige Ausgabe, wodurch der Ausgabetext natürlicher klingt. Der Standardwert für k ist 0 für command-Modelle und -1 für Llama-Modelle. Das bedeutet, dass die Modelle alle Token berücksichtigen und diese Methode nicht verwenden sollten.

Top p

Eine Samplingmethode, mit der die kumulative Wahrscheinlichkeit der Top-Token gesteuert wird, die für das nächste Token berücksichtigt werden sollen. Weisen Sie p eine Dezimalzahl zwischen 0 und 1 für die Wahrscheinlichkeit zu. Beispiel: Geben Sie 0,75 für die Top 75 Prozent ein, die berücksichtigt werden sollen. Setzen Sie p auf 1, um alle Token zu berücksichtigen.

Wiederholungen steuern mit "Frequency Penalty"

Eine Strafe, die einem Token zugewiesen wird, wenn dieses Token häufig auftritt. Hohe Strafen begünstigen weniger Wiederholungen von Token und erzeugen eine zufälligere Ausgabe.

Vielfältigere Inhalte mit "Presence Penalty"

Eine Strafe, die jedem Token zugewiesen wird, wenn es in der Ausgabe angezeigt wird, um die Generierung von Ausgaben mit noch nicht verwendeten Token zu fördern.

Wahrscheinlichkeit

Gibt an, wie hoch die Wahrscheinlichkeit für ein Token ist, dass es in der Ausgabe eines Large Language Models (LLM) auf das aktuell generierte Token folgt. Wenn ein LLM ein neues Token für den Ausgabetext generiert, wird allen Token eine Wahrscheinlichkeit zugewiesen, wobei es für Token mit einer höheren Wahrscheinlichkeit wahrscheinlicher ist, dass sie dem aktuellen Token folgen. Beispiel: Dem Wort favorite folgt eher das Wort food oder book als das Wort zebra. Die Wahrscheinlichkeit wird durch eine Zahl zwischen -15 und 0 definiert. Je negativer die Zahl ist, desto unwahrscheinlicher ist es, dass das Token dem aktuellen Token folgt.

Einleitung

Ein anfänglicher Kontext oder eine Leitnachricht für ein Chatmodell. Wenn Sie einem Chatmodell keine Präambel geben, wird die Standardpräambel für dieses Modell verwendet. Die Standardpräambel für die Modelle cohere.command-r-plus und cohere.command-r-16k lautet:

You are Command.
You are an extremely capable large language model built by Cohere. 
You are given instructions programmatically via an API that you follow to the best of your ability.

Es ist optional, eine Präambel zu geben. Wenn Sie Ihre eigene Präambel verwenden möchten, geben Sie für beste Ergebnisse den Modellkontext, Anweisungen und einen Unterhaltungsstil an. Hier finden Sie einige Beispiele:

  • Sie sind ein erfahrener Marketing-Profi mit einem tiefen Verständnis von Verbraucherverhalten und Markttrends. Antworten Sie mit einem freundlichen und informativen Ton und teilen Sie Brancheneinblicke und Best Practices.
  • Sie sind ein Reiseberater, der sich auf lustige Aktivitäten konzentriert. Antwort mit Sinn für Humor und einem Piratenton.
Hinweis

Sie können auch eine Präambel in eine Chatunterhaltung aufnehmen und das Modell direkt bitten, auf eine bestimmte Weise zu antworten. Beispiel: "Antworten Sie die folgende Frage in einem Marketington. Wo ist der beste Ort zum Segeln?"

Modellendpunkt

Ein bestimmter Punkt in einem dedizierten KI-Cluster, an dem ein Large Language Model (LLM) Benutzeranforderungen akzeptieren und Antworten wie den generierten Text des Modells zurücksenden kann.

In OCI Generative AI können Sie Endpunkte für einsatzbereite vortrainierte Modelle und benutzerdefinierte Modelle erstellen. Diese Endpunkte sind im Spielplatz zum Testen der Modelle aufgeführt. Sie können diese Endpunkte auch in Anwendungen referenzieren.

Inhaltsmoderation

Eine Funktion, die giftige, gewalttätige, missbräuchliche, abwertende, hasserfüllte, bedrohliche, beleidigende und belästigende Phrasen aus generierten Antworten in großen Sprachmodellen (LLMs) entfernt. In OCI Generative AI ist die Inhaltsmoderation in die folgenden vier Kategorien unterteilt.
  • Hass und Belästigung, wie Identitätsangriffe, Beleidigungen, Gewaltdrohungen und sexuelle Aggression
  • Selbstverschuldeter Schaden, wie Selbstverletzung und Förderung von Ess-Störungen
  • Ideologischer Schaden, wie Extremismus, Terrorismus, organisierte Kriminalität und Fehlinformationen
  • Ausbeutung, wie Betrug und sexueller Missbrauch

Standardmäßig fügt OCI Generative AI keinen Contentmoderationslayer über den einsatzbereiten vortrainierten Modellen hinzu. Vortrainierte Modelle weisen jedoch eine gewisse Ebene der Contentmoderation auf, mit der die Ausgabeantworten gefiltert werden. Um die Contentmoderation in Modelle zu integrieren, müssen Sie die Contentmoderation aktivieren, wenn Sie einen Endpunkt für ein vortrainiertes oder ein optimiertes Modell erstellen. Siehe Endpunkt in generativer KI erstellen.

Abgelehnte und veraltete Modelle

Rente
Wenn ein Modell eingestellt wird, kann es nicht mehr im generativen KI-Service verwendet werden.
Veraltet
Wenn ein Modell veraltet ist, bleibt es im generativen KI-Service verfügbar, hat jedoch eine definierte Zeit, die es verwendet werden kann, bevor es als veraltet eingestuft wird.

Weitere Informationen finden Sie unter Ablaufen der Modelle.