Oracle Cloud Infrastructure Generative AIエージェントと対話するためのWebベースのユーザー・インタフェースの実装

Oracle Cloud Infrastructure Generative AI (OCI Generative AI)エージェントを使用して、ユーザーがリアルタイムの会話に参加できる対話型Webインタフェースを実装します。

OCI生成AIは、OCIコンソールの外部のユーザー・インタフェースを提供せず、ユーザーはAPIを使用してWebプロジェクトに統合したいと考えています。このリファレンス・アーキテクチャは、OCI生成AIエージェントを使用するWebアプリケーションを示しています。このエージェントは、クライアントのテナント・データを残さずに完全なエクスペリエンスを提供するために、リアルタイムの音声からテキストおよびテキストから音声への統合も行います。このソリューションには、Webソケットを介してWebアプリケーションとOCI Speechサービスを接続する仮想マシンが含まれます。

OCI Speechのリアルタイム・トランスクリプションを使用すると、ユーザーの言うことはすべて即時にテキストに変換され、AIエージェントによって処理されます。その後、AIエージェントは、画面に表示されるだけでなく、OCI Speech Text to Speech機能を介してユーザーに返話されるレスポンスを生成します。これにより、顧客サービス、バーチャル・アシスタント、会話型AIソリューションに最適な、完全に没入型で自然なダイナミックなインタラクションを実現します。

アーキテクチャ

このリファレンス・アーキテクチャは、Oracle Visual Builderをフロントエンド・インタフェースとして構築されており、OCI生成AIエージェントおよびOCI Speechとシームレスに統合されています。

  1. Oracle Visual Builderは、Python SDKを使用したVMブリッジを介してユーザー入力をOCI Speechに送信します。
  2. OCI Speechのテキスト読み上げ機能を使用すると、アプリケーション全体でテキストから人間のような音声を合成できます。この機能により、顧客の会話、多言語音声翻訳およびアクセシビリティの向上が可能になります。さまざまな声から選んで、インタラクションを強化しましょう。
  3. Oracle Visual Builderは、ユーザー・インタラクションを処理し、REST APIを介してユーザー入力をOCI生成AIエージェントに送信し、エージェントのレスポンスをリアルタイムで表示します。

    OCI生成AIエージェントは、バックグラウンドでOCI生成AIを使用して、CohereとMetaから事前にトレーニングされた基礎モデルにアクセスできます。プライベートGPUを搭載した専用AIクラスタをサポートし、ホスティングやファインチューニングなど、安定した高パフォーマンスの本番ワークロードを実現します。

    Chat APIおよびPlaygroundは、OCIコンソールまたはAPIを介してCohereおよびMetaモデルとの対話型のチャット・エクスペリエンスを提供します。LangChain統合により、OCI生成AIアプリケーションを柔軟に開発でき、LlamaIndex統合により、カスタム・データ・ソースを使用してRAGソリューションを構築できます。運用の場合、OCI生成AIにはコンテンツ・モデレーション・コントロールが含まれており、まもなくモデル・エンドポイントのダウンタイムなしでのスワッピング、およびアクティブ化機能と非アクティブ化機能がサポートされます。また、コール統計、処理されたトークン、エラー数など、モデルの使用状況に関する分析も提供します。

  4. 音声出力の場合、OCI Speech Text-to-Speech (TTS)サービスはエージェントのレスポンスを音声オーディオに変換し、ユーザー・エクスペリエンスを向上させます。

次の図は、このリファレンス・アーキテクチャを示しています。



oci-genai-speech-arch-oracle.zip

アーキテクチャには次のコンポーネントがあります。

  • コンピュート

    Oracle Cloud Infrastructure Computeを使用すると、クラウド内のコンピュート・ホストをプロビジョニングおよび管理できます。CPU、メモリー、ネットワーク帯域幅およびストレージのリソース要件を満たすシェイプを使用してコンピュート・インスタンスを起動できます。コンピュート・インスタンスを作成したら、セキュアにアクセスし、再起動し、ボリュームをアタッチおよびデタッチして、不要になったら終了できます。

  • OCI音声

    OCI Speechは、複数のクラウドネイティブAIサービスの1つです。OCI Speechサービスを使用して、オーディオ・ファイルをJSON形式で格納されている読取り可能なテキストに変換できます。

    OCI Speechは、人間の音声を含むオーディオ・ファイルを非常に正確なテキスト・トランスクリプションに簡単に変換できるようにすることで、話し言葉の力を活用します。このサービスは、Webアプリケーション、REST API、SDK、CLIまたはコンソールを使用してアクセスできるOCIネイティブ・アプリケーションです。

    OCI Speechは、自動音声認識(ASR)テクノロジを使用して、ビデオおよびオーディオ・ファイルの文法的に正しい文字変換を提供します。OCI Speechは、忠実度の低い音声録音を処理し、会議やコール・センター・コールなどの困難な録音を転写します。Speechを使用すると、OCI Object Storageまたはデータ・アセットに格納されているファイルを、正確で正規化、タイムスタンプ付き、およびプロファニティ・フィルタ済のテキストに変換できます。この機能は、ダウンストリーム・サービスで使用できます。たとえば、言語や予測などの追加サービスを使用して、コール・センチメントの分析、広告のターゲット・コンテンツ、メディア・フォルダの索引付け、Oracle Cloud Infrastructure Lakehouseを使用したメディア検索エンジンの作成を行うことができます。

  • OCI生成AIエージェント

    OCI生成AIエージェントは、大規模言語モデル(LLM)のパワーと、ナレッジ・ベースを検索することで状況に応じた回答を作成することを目的としたインテリジェントな取得システムを組み合せたフルマネージド・サービスです。

    OCI生成AIエージェントは、お客様と顧客がチャット・インタフェースまたはAPIを使用してデータとやり取りできるデータをオンボーディングするためのいくつかの方法をサポートしています。

    • 複数のデータ・オンボーディング方法とインタラクション・チャネル(チャット・インタフェースまたはAPI)をサポートします。
    • ナレッジ・ベースを検索することで、状況に応じた回答を作成します。
    • すべての回答のソース属性を提供します。
    • ハイブリッド検索機能(柔軟性とセマンティック)を提供します。入力および出力のコンテンツ・モデレーション・オプションが含まれます。
    • ユーザーがフォローアップの質問をしたり、以前の質問と回答のコンテキストを考慮した回答を受け取ることができる、複数ターンの会話をサポートします。
    • 視覚要素を明示的に記述することなく、2軸チャートおよび参照表のデータをPDFで解釈できます。
    • PDFドキュメントに存在するすべてのハイパーリンクが抽出され、チャット・レスポンスにハイパーリンクとして表示されます。
  • Oracle Visual Builder

    Oracle Visual Builderは、魅力的なレスポンシブ・アプリケーションを作成できる、開発およびホスティング・プラットフォーム上に、直感的な開発エクスペリエンスです。使いやすさとビジュアル開発のアプローチにより、Oracleのセキュアでスケーラブルなクラウド・プラットフォームでホストされるアプリケーションを簡単に作成できます。

    ビジュアルな開発エクスペリエンス

    Oracle Visual Builderには、レスポンシブ・アプリケーションを作成するためのシンプルで強力なビジュアル開発ツールが用意されており、追加のソフトウェアをインストールする必要はありません。この豊富なビジュアル・ツール・セットにより、UIコンポーネントをドラッグ・アンド・ドロップし、属性をカスタマイズして動作を定義することで、アプリケーションを迅速に設計できます。これらのツールはローコード開発者に適していますが、経験豊富な開発者は基礎となるソース・コードに簡単にアクセスでき、複雑なニーズのために標準のHTML5、JavaScriptおよびCSS技術を使用して拡張することもできます。

    データへの簡単なアクセス

    Oracle Visual Builderを使用すると、RESTベースのサービスを介してアプリケーションのデータに簡単にアクセスできます。そのため、再利用可能なビジネス・オブジェクトを作成してアプリケーションのビジネス・ロジックを実装し、そのデータを格納できます。このビジネス・オブジェクトは、Oracle Visual Builderによって生成されるRESTエンドポイントを介して管理することも、RESTサービスの統合カタログでOracle SaaSまたはOracle Integrationアプリケーションによって公開されるデータ・オブジェクトを選択することもできます。数回クリックするだけで、任意の外部RESTサービスからデータにアクセスすることもできます。

    開発およびホスティング・プラットフォーム

    Oracle Visual Builderは完全な開発ツールであり、ホスティング・プラットフォームでもあります。つまり、開発からテスト、最終公開まで、アプリケーションのライフサイクルを管理できます。バージョン管理とデータ移行は、アプリケーションのライフサイクルに組み込まれているため、アプリケーションをステージングして公開し、すべてのフェーズでデータを管理することが容易になります。

確認

  • 作成者: Jesus Brasero Jimenez
  • コントリビュータ: Anupama Pundpal