音声をテキストに変換し、音声アクションでテキストを音声に合成
Oracle Cloud Infrastructure Speechは、自然言語の音声をテキストに変換し、テキストを音声に合成します。 正確、テキスト正規化、タイムスタンプ付きのトランスクリプション、および合成音声を取得できます。
機能
OCI Speechは、音声をテキストに変換し、テキストを音声に合成できるAIサービスです。
OCI Speechは、人間の音声を含むオーディオ・ファイルを非常に正確なテキスト・トランスクリプションに簡単に変換できるようにすることで、話し言葉の力を活用します。 自動音声認識(ASR)技術を使用して、文法的に正しい転写を提供します。 低忠実度のメディア・レコーディングを処理し、ミーティングやコール・センター通話などの困難なレコーディングを記録できます。
OCI Speechでは、アプリケーション間でテキストを人間のような音声に合成できます。 この機能により、顧客との対話、多言語音声翻訳、アクセシビリティの向上が可能になります。 ニューラルネットワークのディープラーニング技術をベースに、人間の発言の膨大なデータセットから学び、イントネーション、感情、リズムなどの微妙な部分をキャプチャして、自然な人間の表現を密接に模倣するスピーチを生成します。 たとえば、終文後にピリオドが続くと、生成された音声に一時停止が追加されます。 この機能は、視覚障害を持つユーザーのアクセシビリティの向上、ゲーム体験の強化、教育コンテンツの作成の加速など、様々な方法で使用できます。
Oracle Integrationでは、音声アクションとの統合でのOCI Speechの使用がサポートされています。
前提条件
Oracle Cloudコンソールで満たす必要のある前提条件の詳細は、前提条件を参照してください。
統合からのOracle Cloud Infrastructureスピーチの呼出し
- 次のいずれかの方法で、「音声」アクションを統合に追加します:
- キャンバスの横にある「アクション」
をクリックし、「OCIスピーチ」アクションを適切なロケーションにドラッグします。
- OCI Speechアクションを追加するロケーションの
をクリックし、「OCIスピーチ」を選択します。
- キャンバスの横にある「アクション」
- 名前とオプションの説明を入力します。
- 次の情報を選択します。
要素 説明 カテゴリを選択します 次のいずれかのカテゴリを選択します。- テキスト読み上げ
- 音声変換
アクション 「テキスト読み上げ」カテゴリを選択した場合は、実行するトランスクリプション・ジョブを選択します。 トランスクリプション・ジョブを作成、更新または削除できます。 トランスクリプション・ジョブに関する情報を取得したり、コンパートメントで使用可能なトランスクリプション・ジョブをリストすることもできます。
- トランスクリプション・ジョブの作成: このアクションを選択した場合、Oracle Integrationは、コンパートメントID、モデル、入力場所(テキストにトランスクリプションされる音声)および出力場所などの詳細を含むリクエスト・ペイロードを受け入れて、トランスクリプション・ジョブを作成します。 ステップ5の実行時に、「コンパートメント」フィールドにコンパートメントIDを指定することもできます。
- トランスクリプション・ジョブの取得: このアクションを選択すると、Oracle Integrationは、トランスクリプション・ジョブを取得するためのパス・パラメータとして(トランスクリプション・ジョブの)トランスクリプション・ジョブIDを受け入れます。
- トランスクリプション・ジョブのリスト: このアクションを選択した場合、Oracle IntegrationはコンパートメントID (トランスクリプション・ジョブを含む)を問合せパラメータとして受け入れ、コンパートメントで使用可能なトランスクリプション・ジョブのリストを返します。 ステップ5の実行時に、「コンパートメント」フィールドで指定することもできます。
- トランスクリプション・ジョブの更新: このアクションを選択した場合、Oracle Integrationは、パス・パラメータとして(更新するトランスクリプション・ジョブの)トランスクリプション・ジョブIDを受け入れ、表示名、説明などの詳細を含むリクエスト・ペイロードを変更する必要があります。 このアクションは、指定したトランスクリプション・ジョブを、指定した新しい詳細で更新します。
- トランスクリプション・ジョブの削除: このアクションを選択した場合、Oracle Integrationは、パス・パラメータとして(削除するトランスクリプション・ジョブの)トランスクリプション・ジョブIDを受け入れます。 このアクションは、指定されたトランスクリプション・ジョブを削除します(ただし、オブジェクト・ストアの出力ロケーション・バケットに格納されている出力トランスクリプション・ファイルは削除されません)。
「音声のテキスト」カテゴリを選択した場合は、「音声の合成」アクションを選択します。 このアクションを選択すると、Oracle Integrationは、コンパートメントID、モデル名、テキスト(音声に合成されるテキスト)、出力形式などの詳細を含むリクエスト・ペイロードを受け入れます。 ダウンロード可能なストリーム参照を返します。 テキストを使用したスピーチを参照してください。
- 「続行」をクリックします。
- 次の情報を選択し、「続行」をクリックします。
要素 説明 コンパートメント このフィールドは、ステップ3で「トランスクリプション・ジョブの作成」、「トランスクリプション・ジョブのリスト」または「音声の合成」処理を選択した場合にのみ使用できます。
Oracle IntegrationがインストールされているOracle Cloud Infrastructureコンパートメントを選択します。
出力バケット このフィールドは、ステップ3で「トランスクリプション・ジョブの作成」処理を選択した場合にのみ使用できます。
OCI Speechアクションによって生成されたテキスト出力を格納するバケットを選択します。
スピーカ このフィールドは、ステップ3で「音声の合成」処理を選択した場合にのみ使用できます。
ドロップダウン・リストからスピーカー(事前定義済音声)を選択します。
- 「サマリー」ページで「終了」をクリックします。
-
マッパーを開き、ステップ3で選択したアクションに必要なソース要素とターゲット要素の間のマッピングを定義します。
ノート:
オプションで、「コンパートメントID」および「バケット名」をマッパーに指定して、最初に「コンパートメント」および「出力バケット」に対して選択した値を(ステップ5で)それぞれオーバーライドできます。- 「トランスクリプション・ジョブの作成」アクションに対して、次のソースとターゲットのマッピングを実行します:
- ソース「句読点使用可能」をターゲット「句読点使用可能」にマップします。
- ソース「コンパートメントID」をターゲット「コンパートメントID」にマップします。
- ソース「表示名」をターゲット「表示名」にマップします。
- ソース「説明」をターゲット「説明」にマップします。
- ソース「ドメイン」をターゲット「ドメイン」にマップします。
- ソース「言語コード」をターゲット「言語コード」にマップします。
- ソース「モデル・タイプ」をターゲット「モデル・タイプ」にマップします。
- ソース「ダイアライゼーション使用可能」をターゲット「ダイアライゼーション使用可能」にマップします。
- ソース「ロケーション・タイプ」をターゲット「ロケーション・タイプ」にマップします。
- ソース「オブジェクトのロケーション」をターゲット「オブジェクトのロケーション」にマップします。
- ソース「ネームスペース名」をターゲット「ネームスペース名」にマップします。
- ソース「バケット名」をターゲット「バケット名」にマップします。
- ソース「プレフィクス」をターゲット「プレフィクス」にマップします。

- 「トランスクリプション・ジョブの取得」アクションに対して、次のソースとターゲットのマッピングを実行します:
- ソース「記録ジョブID」をターゲット「記録ジョブID」にマップします。

- 「トランスクリプション・ジョブのリスト」アクションに対して、次のソースとターゲットのマッピングを実行します:
- ソース「コンパートメントID」をターゲット「コンパートメントID」にマップします。
オプションで、「ライフサイクルの状態」、「表示名」、Id、「制限」、「ページ」、「ソート順」、「ソート基準」などのターゲット要素を構成できます。

- 「トランスクリプション・ジョブの更新」アクションに対して、次のソースとターゲットのマッピングを実行します:
- ソース「記録ジョブID」をターゲット「記録ジョブID」にマップします。
- ソース「表示名」をターゲット「表示名」にマップします。
- ソース「説明」をターゲット「説明」にマップします。

- 「トランスクリプション・ジョブの削除」アクションに対して、次のソースとターゲットのマッピングを実行します:
- ソース「記録ジョブID」をターゲット「記録ジョブID」にマップします。

- 「Synthesize Speech」アクションに対して次のソースとターゲットのマッピングを実行します。
- ソース「句読点使用可能」をターゲット「句読点使用可能」にマップします。
- ソースの構成タイプをターゲット・構成タイプにマップします。
- ソース「コンパートメントID」をターゲット「コンパートメントID」にマップします。
- ソースのモデル名をターゲット・モデル名にマップします。
- ソースの「音声ID」をターゲットの「音声ID」にマップします。
- ソース・モデル・ファミリをターゲット・モデル・ファミリにマップします。
- ソースの出力形式をターゲット出力形式にマップします。
- ソースのHzのSample RateをターゲットHzのSample Rateにマップします。
- ソースのスピーチ・マーク・タイプをターゲットスピーチ・マーク・タイプにマップします。
- ソースのテキスト・タイプをターゲット・テキスト・タイプにマップします。
- ソースの「ストリーム有効」をターゲットの「ストリーム有効」にマップします。
- ソースのテキストをターゲット・テキストにマップします。

- 「トランスクリプション・ジョブの作成」アクションに対して、次のソースとターゲットのマッピングを実行します:
- マッパーを終了します。
これで音声アクションが構成されました。
ステップ3で選択したアクションに基づいて統合をアクティブ化して実行すると、次のようになります。- トランスクリプション・ジョブの作成: 指定した音声をテキストに変換し、テキスト出力は選択した出力バケットに格納されます。
- トランスクリプション・ジョブの取得: 指定されたIDのトランスクリプション・ジョブを取得します。
- トランスクリプション・ジョブのリスト: 指定されたコンパートメントで使用可能なトランスクリプション・ジョブのリストを返します。
- トランスクリプション・ジョブの更新: 指定したトランスクリプション・ジョブを、指定した新しい詳細で更新します。
- トランスクリプション・ジョブの削除: 指定されたトランスクリプション・ジョブを削除します(ただし、オブジェクト・ストアの出力ロケーション・バケットに格納されている出力トランスクリプション・ファイルは削除されません)。
- 音声の合成: 指定したテキストを音声に変換します。 応答から出力ファイルをダウンロードできます。