Konzepte für Modelle in OCI Generative AI
Um OCI Generative AI besser zu verstehen, lesen Sie einige Konzepte und Begriffe im Zusammenhang mit dem Service.
Modell für generative KI
Ein KI-Modell, das mit großen Datenmengen trainiert wurde und anhand neuer Eingaben neue Inhalte generiert.
Retrieval-Augmented Generation (RAG)
Ein Programm, das Daten aus bestimmten Quellen abruft und LLM-Antworten (Large Language Model) um die spezifischen Informationen erweitert, um fundierte Antworten zu generieren.
Prompts und Prompt-Entwicklung
- Prompts
- Textzeichenfolgen in natürlicher Sprache, mit denen Informationen aus einem großen Sprachmodell angewiesen oder daraus extrahiert werden. Beispiel:
- Was ist die Sommersonnenwende?
- Schreibe ein Gedicht über Bäume, die in der Brise schwanken.
- Schreibe den vorherigen Text auf lockerere Art um.
- Prompt-Entwicklung
- Der iterative Prozess der Erstellung bestimmter Anforderungen in natürlicher Sprache zum Extrahieren optimierter Prompts aus einem großen Sprachmodell (LLM). Basierend auf der genauen Wortwahl kann der Prompt-Entwickler das LLM anleiten, bessere oder andere Ausgaben bereitzustellen.
Inferenz
Die Fähigkeit eines großen Sprachmodells (LLM), eine Antwort basierend auf Anweisungen und Kontext zu generieren, die der Benutzer in der Eingabeaufforderung bereitstellt. Ein LLM kann neue Daten generieren, Vorhersagen treffen oder Schlussfolgerungen auf der Grundlage seiner erlernten Muster und Beziehungen in den Trainingsdaten ziehen, ohne explizit programmiert zu sein.
Inferenz ist ein wichtiges Merkmal von Natural Language Processing-(NLP-)Aufgaben, wie Beantwortung von Fragen, Zusammenfassung von Text und Übersetzung. Sie können die grundlegenden Modelle in generativer KI zur Inferenz verwenden.
Streaming
Generierung von Inhalt durch ein großes Sprachmodell (LLM), bei dem der Benutzer die generierten Token nacheinander sehen kann, anstatt darauf zu warten, dass eine vollständige Antwort generiert wird, bevor die Antwort an den Benutzer zurückgegeben wird.
Einbettung
Eine numerische Darstellung, die die Eigenschaft hat, die Bedeutung eines Textstücks zu erhalten. Bei diesem Text kann es sich um eine Wortgruppe, einen Satz oder einen oder mehrere Absätze handeln. Das Einbettungsmodell der generativen KI wandelt jede eingegebene Wortgruppe, jeden Satz oder jeden Absatz in ein Array mit 384 oder 1024 Zahlen um, je nachdem, welches Einbettungsmodell Sie auswählen. Mithilfe dieser Einbettungen können Sie nach Ähnlichkeiten in Phrasen suchen, die im Kontext oder in der Kategorie ähnlich sind. Einbettungen werden in der Regel in einer Vektordatenbank gespeichert. Einbettungen werden hauptsächlich für semantische Suchen verwendet, bei denen sich die Suchfunktion auf die Bedeutung des durchsuchten Textes konzentriert, anstatt Ergebnisse basierend auf Schlüsselwörtern zu finden. Um die Einbettungen zu erstellen, können Sie Phrasen in Englisch und anderen Sprachen eingeben.
Playground
Eine Schnittstelle in der Oracle Cloud-Konsole, über die Sie gehostete vortrainierte und benutzerdefinierte Modelle erläutern können, ohne eine einzelne Codezeile zu schreiben. Im Playground können Sie Ihre Anwendungsfälle testen und Prompts und Parameter optimieren. Wenn Sie mit den Ergebnissen zufrieden sind, können Sie den generierten Code kopieren oder den Endpunkt des Modells verwenden, um generative KI in Ihre Anwendungen zu integrieren.
Bedarfsgesteuerter Modus
-
Sie zahlen unterwegs für jeden Inferenzaufruf, wenn Sie die Modelle im Playground verwenden oder die Modelle über die API aufrufen.
- Geringe Barriere für den Einsatz generativer KI.
- Ideal für Experimente, Proof of Concept und Modellauswertung.
- Verfügbar für die vortrainierten Modelle in Regionen, die nicht als (nur dediziertes KI-Cluster) aufgeführt sind.
Dedizierte KI-Cluster
Compute-Ressourcen, mit denen Sie benutzerdefinierte Modelle optimieren oder Endpunkte für grundlegende, vortrainierte und benutzerdefinierte Modelle hosten können. Die Cluster werden dediziert für Ihre Modelle bereitgestellt und nicht mit anderen Benutzern geteilt.
Dedizierter Modus
Sie können die vortrainierten Basismodelle in generativer KI über zwei Modi erreichen: On-Demand und dediziert. Im Folgenden werden die wichtigsten Features für den dedizierten Modus aufgeführt:
- Sie erhalten ein dediziertes Set von GPUs für die dedizierten KI-Cluster.
- Sie können benutzerdefinierte Modelle in den dedizierten KI-Clustern erstellen, indem Sie eine Teilmenge der angebotenen vortrainierten Basismodelle in generativer KI für die Feinabstimmung optimieren.
- Sie können Replikate der grundlegenden und fein abgestimmten Modelle in den dedizierten KI-Clustern hosten.
- Sie schreiben im Voraus fest, wie viele Stunden die dedizierten KI-Cluster verwendet werden. Preise finden Sie auf der Seite Preise.
- Verfügbar für die vortrainierten Modelle in allen aufgeführten Regionen.
- Sie erhalten eine vorhersehbare Performance und sind für Produktions-Workloads geeignet.
Der dedizierte Modus ist eine einmandantenfähige Verwendung der Modelle, bei denen Sie die Hardware für die Verwendung leasen. Dieser Modus bietet eine vorhersehbare Performance und wird für Produktions-Workloads empfohlen. Unter Clusterperformancebenchmarks wird beschrieben, wie Sie die richtige Größe für die dedizierten Cluster festlegen.
Ein Modell, das in einem dedizierten KI-Cluster gehostet wird, ist nur in der Region verfügbar, in der sein Endpunkt bereitgestellt ist. Siehe Verfügbare Regionen für jedes Modell.
Benutzerdefiniertes Modell
Ein Modell, das Sie mit einem vortrainierten Modell als Basis erstellen und das Sie dann mit Ihrem eigenen Dataset optimieren.
Token
Ein Token ist ein Wort, Teil eines Wortes oder ein Satzzeichen. Beispiel: apple ist ein Token und friendship zwei Token (friend und ship) und don't zwei Token (don und 't). Wenn Sie ein Modell im Playground ausführen, können Sie die maximale Anzahl von Ausgabetoken festlegen. Schätzen Sie vier Zeichen pro Token.
Temperatur
Der Grad der Zufälligkeit, mit dem der Ausgabetext generiert wird. Verwenden Sie 0, um bei jeder Ausführung dieser Eingabeaufforderung eine ähnliche Ausgabe für einen Prompt zu generieren. Um einen zufälligen neuen Text für diesen Prompt zu generieren, müssen Sie die Temperatur erhöhen.
Setzen Sie die Temperatur anfangs auf die 0, und erhöhen Sie die Temperatur beim erneutem Generieren der Prompts, um die Ausgabe zu verfeinern. Hohe Temperaturen können Halluzinationen und sachlich falsche Informationen verursachen. Um dasselbe Ergebnis für wiederholte Anforderungen abzurufen, verwenden Sie den Parameter
seed.Top k
Eine Samplingmethode, bei der das Modell das nächste Token zufällig aus den top k-Token wählt. Ein höherer Wert für k generiert eine zufällige Ausgabe, wodurch der Ausgabetext natürlicher klingt. Der Standardwert für k ist 0 für command-Modelle und -1 für Llama-Modelle. Das bedeutet, dass die Modelle alle Token berücksichtigen und diese Methode nicht verwenden sollten.
Top p
Eine Samplingmethode, mit der die kumulative Wahrscheinlichkeit der Top-Token gesteuert wird, die für das nächste Token zu berücksichtigen sind. Weisen Sie p eine Dezimalzahl zwischen 0 und 1 für die Wahrscheinlichkeit zu. Beispiel: Geben Sie 0,75 für die Top 75 Prozent ein, die berücksichtigt werden sollen. Setzen Sie p auf 1, um alle Token zu berücksichtigen.
Wiederholungen steuern mit "Frequency Penalty"
Eine Strafe, die einem Token zugewiesen wird, wenn dieses Token häufig angezeigt wird. Hohe Strafen fördern weniger wiederholte Token und erzeugen eine zufälligere Ausgabe.
Vielfältigere Inhalte mit "Presence Penalty"
Eine Strafe, die jedem Token zugewiesen wird, wenn es in der Ausgabe angezeigt wird, um die Generierung von Ausgaben mit noch nicht verwendeten Token zu fördern.
Wahrscheinlichkeit
In der Ausgabe eines großen Sprachmodells (LLM), wie wahrscheinlich es ist, dass ein Token dem aktuell generierten Token folgt. Wenn ein LLM ein neues Token für den Ausgabetext generiert, wird allen Tokens eine Wahrscheinlichkeit zugewiesen, wobei es sich bei Token mit einer höheren Wahrscheinlichkeitswert wahrscheinlicher handelt, dass sie dem aktuellen Token folgen. Beispiel: Dem Wort favorite folgt eher das Wort food oder book als das Wort zebra. Die Wahrscheinlichkeit wird durch eine Zahl zwischen -15 und 0 definiert. Je kleiner die negative Zahl ist. Je weniger wahrscheinlich ist es, dass der Token auf das aktuelle Token folgt.
Einleitung
Ein anfänglicher Kontext oder eine Leitnachricht für ein Chatmodell. Wenn Sie einem Chatmodell keine Präambel geben, wird die Standardpräambel für dieses Modell verwendet. Die Standardpräambel für die Modelle cohere.command-r-plus und cohere.command-r-16k lautet:
You are Command.
You are an extremely capable large language model built by Cohere.
You are given instructions programmatically via an API that you follow to the best of your ability.
Es ist optional, eine Präambel zu geben. Wenn Sie Ihre eigene Präambel für beste Ergebnisse verwenden möchten, geben Sie dem Modell Kontext, Anweisungen und einen Unterhaltungsstil. Hier finden Sie einige Beispiele:
- Sie sind ein erfahrener Marketing-Profi mit einem tiefen Verständnis des Verbraucherverhaltens und der Markttrends. Antworten Sie mit einem freundlichen und informativen Ton und teilen Sie Brancheneinblicke und Best Practices.
- Sie sind ein Reiseberater, der sich auf lustige Aktivitäten konzentriert. Antwort mit Sinn für Humor und Piratenton.
Sie können auch eine Präambel in eine Chatunterhaltung aufnehmen und das Modell direkt auf eine bestimmte Weise zur Beantwortung auffordern. Beispiel: "Beantworten Sie die folgende Frage in einem Marketington. Wo ist der beste Ort zum Segeln?"
Modellendpunkt
Ein bestimmter Punkt in einem dedizierten KI-Cluster, an dem ein Large Language Model (LLM) Benutzeranforderungen akzeptieren und Antworten zurücksenden kann, wie den generierten Text des Modells.
In OCI Generative AI können Sie Endpunkte für einsatzbereite, vortrainierte Modelle und benutzerdefinierte Modelle erstellen. Diese Endpunkte sind im Spielplatz zum Testen der Modelle aufgeführt. Sie können diese Endpunkte auch in Anwendungen referenzieren.
Limits
Guardrails sind konfigurierbare Sicherheits- und Compliancekontrollen, mit denen das Modell akzeptiert und produziert werden kann. Im OCI Generative AI-Service enthalten sie drei Schutzmaßnahmen: Inhaltsmoderation, Prompt-Injection-Verteidigung und Verarbeitung personenbezogener Daten (PII).
Inhaltsmoderation
Content Moderation Guardrails tragen dazu bei, dass Modell-Eingaben und -Ausgaben den Nutzungsrichtlinien Ihres Unternehmens entsprechen, indem sie unzulässige oder sensible Inhalte erkennen und verarbeiten. Dazu gehören in der Regel Kategorien wie Hass oder Belästigung, sexuelle Inhalte, Gewalt, Selbstverletzung und anderes politikbeschränktes Material. Wenn sie ausgelöst werden, können Moderationsleitschienen blockieren, verdecken oder warnen und können die Anforderung zur Überprüfung je nach Konfiguration weiterleiten. So können Sie das Risiko schädlicher, unsicherer oder nicht konformer Reaktionen bei Endbenutzererfahrungen reduzieren.
Prompt-Injektion
Prompt-Injection-Schutzschienen wurden entwickelt, um das Modell vor böswilligen oder unbeabsichtigten Anweisungen zu schützen, die in Benutzeraufforderungen oder abgerufenen Inhalten eingebettet sind (z. B. "Vorherige Anweisungen ignorieren", "Systemaufforderungen anzeigen" oder "Secrets herausfiltern"). Diese Leitplanken suchen nach Mustern, die versuchen, das Systemverhalten außer Kraft zu setzen, auf verborgene Anweisungen zuzugreifen oder die Werkzeugnutzung und den Datenzugriff zu manipulieren. Wenn die Anforderung erkannt wird, kann das System die Anforderung ablehnen, die injizierten Anweisungen entfernen oder das Modell einschränken, nur vertrauenswürdige Anweisungen zu befolgen. Dies hilft, die Übereinstimmung mit der beabsichtigten Aufgabe, den Richtlinien und den Zugriffskontrollen beizubehalten.
Persönlich identifizierbare Informationen (PII)
PII-Schutzschienen verhindern, dass sensible personenbezogene Daten unangemessen erfasst, angezeigt oder gespeichert werden, indem sie Identifikatoren wie Namen in Kombination mit Kontaktdaten, Adressen, amtlichen IDs, Finanzkontonummern und anderen Datenelementen erkennen, die eine Person identifizieren können. Je nach Konfiguration können PII-Schutzschienen erkannte Daten maskieren oder verdecken, Antworten blockieren, die sie enthalten, und Benutzer auffordern, persönliche Daten zu entfernen oder zu minimieren. Dies unterstützt Privacy-by-Design-Praktiken und hilft, Risiken und Compliance-Probleme bei der Handhabung von Benutzer- oder Kundeninformationen zu reduzieren.
Standardmäßig fügt OCI Generative AI keinen Guardrail-Layer über den einsatzbereiten vortrainierten Modellen hinzu. Vorgeschulte Modelle haben jedoch ein gewisses Maß an Inhaltsmoderation, das die Ausgabeantworten filtert. Um Guardrails in Modelle zu integrieren, müssen Sie die Inhaltsmoderation aktivieren, wenn Sie einen Endpunkt erstellen für ein vortrainiertes oder ein optimiertes Modell.
Haftungsausschluss
Unsere Content Moderation (CM) und Prompt Injection (PI) Guardrails wurden auf einer Reihe von mehrsprachigen Benchmark-Datensätzen ausgewertet. Die tatsächliche Performance kann jedoch je nach den spezifischen Sprachen, Domains, Datenverteilungen und Nutzungsmustern variieren, die in vom Kunden bereitgestellten Daten vorhanden sind, wenn der Inhalt von KI generiert wird und Fehler oder Auslassungen enthalten kann. Daher ist es nur zu Informationszwecken gedacht, sollte nicht als professionelle Beratung betrachtet werden, und OCI garantiert nicht, dass in allen realen Bereitstellungen identische Leistungsmerkmale beobachtet werden. Das Team von OCI Responsible AI verbessert diese Modelle kontinuierlich.
Unsere Funktionen zur Inhaltsmoderation wurden mit RTPLX verglichen, einem der größten öffentlich verfügbaren mehrsprachigen Benchmarking-Datasets mit mehr als 38 Sprachen. Diese Ergebnisse sollten jedoch mit angemessener Vorsicht interpretiert werden, da der Inhalt von KI generiert wird und Fehler oder Auslassungen enthalten kann. Mehrsprachige Bewertungen sind von Natur aus an den Umfang, die Repräsentativität und die Annotationspraktiken öffentlicher Datensätze gebunden, und die auf RTPLX beobachtete Leistung kann möglicherweise nicht vollständig auf alle realen Kontexte, Domänen, Dialekte oder Nutzungsmuster verallgemeinert werden. Die Ergebnisse sind also nur zu Informationszwecken gedacht und sollten nicht als professionelle Beratung betrachtet werden.
Abgelaufene und veraltete Modelle
- Abgang
- Wenn ein Modell eingestellt wird, ist es nicht mehr für die Verwendung im Service für generative KI verfügbar.
- Veraltet
- Wenn ein Modell veraltet ist, bleibt es im Service für generative KI verfügbar, mit einer definierten Zeit, die es verwendet werden kann, bevor es eingestellt wird.
Weitere Informationen finden Sie unter Ablaufen der Modelle.