Implementieren Sie eine webbasierte Benutzeroberfläche für die Interaktion mit Oracle Cloud Infrastructure Generative AI-Agents

Verwenden Sie Oracle Cloud Infrastructure Generative AI-(OCI Generative AI-)Agents, um eine interaktive Weboberfläche zu implementieren, über die Benutzer Echtzeitunterhaltungen führen können.

OCI Generative AI stellt keine Benutzeroberfläche außerhalb der OCI-Konsole bereit, und Benutzer möchten die API nutzen, um sie in ihre Webprojekte zu integrieren. Diese Referenzarchitektur zeigt eine Webanwendung, die OCI Generative AI-Agents konsumiert, die auch in Echtzeit mit Speech to Text und Text to Speech integriert ist, um eine vollständige Erfahrung zu bieten, ohne die Mandantendaten des Clients zu verlassen. Diese Lösung umfasst eine virtuelle Maschine, die Webanwendung und den OCI Speech-Service über Web-Sockets verbindet.

Mit der Echtzeit-Transkription von OCI Speech wird alles, was der Benutzer sagt, sofort in Text konvertiert und vom KI-Agent verarbeitet. Der AI-Agent generiert dann eine Antwort, die nicht nur auf dem Bildschirm angezeigt, sondern auch über die Text-to-Speech-Funktion von OCI Speech an den Benutzer zurückgegeben wird. Dies schafft eine vollständig immersive, natürliche und dynamische Interaktion, ideal für Kundenservice, virtuelle Assistenten und dialogorientierte KI-Lösungen.

Architektur

Diese Referenzarchitektur basiert auf Oracle Visual Builder als Frontend-Schnittstelle, die sich nahtlos in OCI Generative AI-Agents und OCI Speech integrieren lässt.

  1. Oracle Visual Builder sendet Benutzereingaben über die VM-Bridge mit dem Python-SDK an OCI Speech.
  2. Mit dem Text-zu-Sprache-Feature in OCI Speech können Sie menschenähnliche Sprache aus Text anwendungsübergreifend synthetisieren. Dieses Feature ermöglicht Kundengespräche, mehrsprachige Sprachübersetzungen und eine verbesserte Zugänglichkeit. Wählen Sie aus einer Vielzahl von Stimmen, um die Interaktionen zu verbessern.
  3. Oracle Visual Builder verarbeitet Benutzerinteraktionen und sendet Benutzereingaben über REST-APIs an die OCI Generative AI-Agents und zeigt die Antworten des Agent in Echtzeit an.

    OCI Generative AI-Agents verwenden OCI Generative AI hinter den Kulissen, um den Zugriff auf vortrainierte grundlegende Modelle von Cohere und Meta zu ermöglichen. Es unterstützt dedizierte KI-Cluster mit privaten GPUs für stabile, leistungsstarke Produktions-Workloads, einschließlich Hosting und Feinabstimmung.

    Die Chat-API und der Playground bieten eine interaktive Chat-Erfahrung mit Cohere- und Meta-Modellen über die OCI-Konsole oder -API. Die Integration von LangChain ermöglicht eine flexible Entwicklung von OCI Generative AI-Anwendungen, während die Integration von LlamaIndex die Erstellung von RAG-Lösungen mit benutzerdefinierten Datenquellen ermöglicht. Bei Vorgängen umfasst OCI Generative AI Steuerelemente für die Inhaltsmoderation und unterstützt bald das Austauschen von Modellendpunkten ohne Ausfallzeiten sowie Aktivierungs- und Deaktivierungsfeatures. Es bietet auch Analysen zur Modellnutzung, einschließlich Anrufstatistiken, verarbeiteten Token und Fehleranzahl.

  4. Bei der Sprachausgabe konvertiert der Text-to-Speech-(TTS-)Service von OCI Speech die Antworten des Agent in gesprochenes Audio und verbessert so die Benutzererfahrung.

Das folgende Diagramm veranschaulicht diese Referenzarchitektur.



oci-genai-speech-arch-oracle.zip

Die Architektur umfasst die folgenden Komponenten:

  • Compute

    Mit Oracle Cloud Infrastructure Compute können Sie Compute-Hosts in der Cloud bereitstellen und verwalten. Sie können Compute-Instanzen mit Ausprägungen starten, die Ihre Ressourcenanforderungen für CPU, Speicher, Netzwerkbandbreite und Speicher erfüllen. Nachdem Sie eine Compute-Instanz erstellt haben, können Sie sicher darauf zugreifen, sie neu starten, Volumes anhängen und trennen und sie beenden, wenn Sie sie nicht mehr benötigen.

  • OCI Speech

    OCI Speech ist einer der mehreren Cloud-nativen KI-Services. Mit dem OCI Speech-Service können Sie Audiodateien in lesbaren Text konvertieren, der im JSON-Format gespeichert ist.

    OCI Speech nutzt die Leistungsfähigkeit der gesprochenen Sprache, indem Sie Audiodateien mit menschlicher Sprache einfach in hochgenaue Texttranskriptionen konvertieren können. Der Service ist eine native OCI-Anwendung, auf die Sie über eine Webanwendung, eine REST-API, ein SDK, eine CLI oder eine Konsole zugreifen können.

    OCI Speech verwendet die automatische Spracherkennungstechnologie (ASR), um eine grammatikalisch korrekte Transkription von Video- und Audiodateien bereitzustellen. OCI Speech verarbeitet Audioaufzeichnungen mit geringer Wiedergabetreue und transkribiert herausfordernde Aufzeichnungen wie Besprechungen oder Call Center-Anrufe. Mit Speech können Sie in OCI Object Storage gespeicherte Dateien oder ein Datenasset in genauen, normalisierten, mit Zeitstempel versehenen und profanitätsgefilterten Text umwandeln. Diese Funktionalität ist bei nachgelagerten Services verfügbar. Beispiel: Sie können zusätzliche Services wie Sprache und Prognose verwenden, um die Anrufstimmung zu analysieren, Inhalte für Werbung zu zielen, Ihre Medienordner zu indexieren und eine Mediensuchmaschine mit Oracle Cloud Infrastructure Lakehouse zu erstellen.

  • OCI Generative AI-Agents

    OCI Generative AI-Agents sind ein vollständig verwalteter Service, der die Leistungsfähigkeit großer Sprachmodelle (LLMs) mit einem intelligenten Abrufsystem kombiniert, das darauf abzielt, kontextbezogene Antworten zu erstellen, indem Sie Ihre Wissensdatenbank durchsuchen.

    OCI Generative AI-Agents unterstützen verschiedene Möglichkeiten, Ihre Daten dort zu integrieren, wo Sie und Ihre Kunden über eine Chatschnittstelle oder API mit Ihren Daten interagieren können.

    • Unterstützt mehrere Daten-Onboarding-Methoden und Interaktionskanäle (Chat-Schnittstelle oder API).
    • Erstellt kontextbezogene Antworten, indem Sie Ihre Wissensdatenbank durchsuchen.
    • Gibt die Quellzuordnung für jede Antwort an.
    • Bietet hybride Suchfunktionen (lexikal und semantisch). Enthält Inhaltsmoderationsoptionen für Eingabe und Ausgabe.
    • Unterstützt Multi-Turn-Gespräche, bei denen Benutzer Nachfassfragen stellen und Antworten erhalten können, die den Kontext früherer Fragen und Antworten berücksichtigen.
    • Kann Daten aus zweiachsigen Diagrammen und Referenztabellen in einer PDF interpretieren, ohne dass explizite Beschreibungen der visuellen Elemente erforderlich sind.
    • Alle in PDF-Dokumenten vorhandenen Hyperlinks werden extrahiert und als Hyperlinks in der Chatantwort angezeigt.
  • Oracle Visual Builder

    Oracle Visual Builder ist eine intuitive Entwicklungserfahrung auf einer Entwicklungs- und Hostingplattform, mit der Sie ansprechende reaktionsschnelle Anwendungen erstellen können. Mit dem Fokus auf Benutzerfreundlichkeit und einem visuellen Entwicklungsansatz können Sie auf einfache Weise Anwendungen erstellen, die in der sicheren und skalierbaren Cloud-Plattform von Oracle gehostet werden.

    Visuelle Entwicklungserfahrung

    Oracle Visual Builder bietet einfache, aber leistungsstarke visuelle Entwicklungstools, mit denen Sie responsive Apps erstellen können, ohne dass zusätzliche Software installiert werden muss. Mit diesen umfangreichen visuellen Tools können Sie Ihre App schnell entwerfen, indem Sie UI-Komponenten per Drag-and-Drop verschieben und ihre Attribute anpassen, um das Verhalten zu definieren. Während sich diese Tools an Low-Code-Entwickler eignen, können erfahrene Entwickler genauso einfach auf den zugrunde liegenden Quellcode zugreifen und ihn sogar mit den Standardtechniken HTML5, JavaScript und CSS für komplexe Anforderungen erweitern.

    Einfacher Zugriff auf Daten

    Mit Oracle Visual Builder können Sie ganz einfach über REST-basierte Services auf die Daten Ihrer App zugreifen. So können Sie wiederverwendbare Geschäftsobjekte erstellen, um die Geschäftslogik Ihrer App zu implementieren und ihre Daten zu speichern. Diese können dann über REST-Endpunkte verwaltet werden, die Oracle Visual Builder für Sie generiert, oder Sie können Datenobjekte auswählen, die von Oracle SaaS- oder Oracle Integration-Anwendungen in einem integrierten Katalog von REST-Services bereitgestellt werden. Sie können auch mit wenigen Klicks von jedem externen REST-Service aus auf Daten zugreifen.

    Entwicklungs- und Hosting-Plattform

    Oracle Visual Builder ist ein komplettes Entwicklungstool sowie eine Hostingplattform. Das bedeutet, dass Sie den Lebenszyklus Ihrer Anwendung von der Entwicklung bis zur Test- und endgültigen Veröffentlichung verwalten können. Versionsverwaltung und Datenmigration sind in den Lebenszyklus einer App integriert, sodass Sie Ihre App einfach bereitstellen und veröffentlichen und ihre Daten in jeder Phase verwalten können.

Danksagungen

  • Autor: Jesus Brasero Jimenez
  • Beitragender: Anupama Pundpal