言語アクションを使用したテキスト分析および翻訳の実行

機能

OCI Languageは、REST APIとSDKを使用してインテリジェントなアプリケーションを構築できるクラウド・ベースのAIサービスであり、言語検出、テキスト分類、名前付きエンティティの認識、キー・フレーズ抽出、センチメント分析、テキスト翻訳、個人を特定できる情報の検出のための非構造化テキストを処理します。 OCI Languageでは、100を超える言語をテキストで識別できます。また、組織および製品の名前を含む少なくとも18のエンティティ・タイプも自動的に認識されます。これにより、大量のテキスト・データに対するテキスト分析が容易になります。 Oracle Integrationでは、言語アクションとの統合でのOCI言語の使用がサポートされています。

「AI言語」を参照してください。

前提条件

Oracle Cloudコンソールで満たす必要のある前提条件の詳細は、前提条件を参照してください。

統合からのOracle Cloud Infrastructure言語の起動

次のいずれかの方法で、「言語」アクションを統合に追加します:
- キャンバスの横にある「アクション」をクリックし、「OCI言語」アクションを適切なロケーションにドラッグします。
- OCI Languageアクションを追加するロケーションにあるをクリックし、「OCI言語」を選択します。

名前とオプションの説明を入力します。次の情報を選択し、「続行」をクリックします。

要素	説明
カテゴリを選択します	次のいずれかのカテゴリを選択します。アクションジョブ「アクション」カテゴリを使用すると、非構造化テキストに対して分析および翻訳を実行できます。「テキスト」ターゲット要素を使用して、マッパーで処理するテキストを指定する必要があります。「ジョブ」カテゴリでは、非同期言語ジョブを作成できるようにすることで、非構造化テキスト・データを大規模に分析できます。また、言語ジョブに関する情報を取得したり、言語ジョブをリストできます。大量のテキスト情報を処理できます。オブジェクト・ストレージで処理するドキュメントを指定する必要があります。また、言語ジョブを更新、削除またはキャンセルすることもできます。
アクション	「アクション」カテゴリを選択した場合は、実行する次のいずれかのアクションを選択します。アクション名を入力してリストをフィルタできます。言語の検出: 提供されたテキストに基づいて言語を検出し、信頼度スコアを含めます。 OCI Languageは言語を検出し、検出された言語を関連する信頼度スコア(0から1)とともに返します。レコードのバッチを指定することもできます。名前付きエンティティ認識: 共通エンティティ、個人、ロケーション、ロケーション、Eメールなどを識別します。 OCI Languageは、テキスト・レコードのエンティティを抽出します。各エンティティのタイプ/サブタイプおよび信頼度スコア(0から1)を返します。キー・フレーズ抽出: テキストのブロックから重要なフレーズ・セットを抽出します。 OCI Languageは、テキストからキー・フレーズを抽出します。キー・フレーズごとに、テキストのコンテキストにおけるキー・フレーズの重要度を強調表示するスコア(0から1)を返します。感情分析: テキストのトーンを識別し、テキスト内の式を正、負、中性、または混合極性に分類します。 OCI Languageでは、アスペクト・ベースのセンチメント分析とセンテンス・ベースのセンチメント分析の両方をサポートしています。たとえば、トピック、個人、エンティティに対する、意見、評価、感情または態度です。分析後、各クラスの信頼度スコア(正、負、中性または混合)を返します。個人識別可能情報(PII)/プライベート・ヘルス情報(PHI): 非構造化テキストで個人情報を識別、分類および非識別化します。また、医療記録を処理し、医療保険プランIDや医療記録番号などの個人の健康情報を検出することもできます。 OCI Languageでは、PIIのマスキングがサポートされています。銀行口座番号、電話番号、年齢などのエンティティのマスキングを構成できます。構成可能なエンティティは、MASKING要素の下のマッパーで使用できます。マスキング・オプションを指定して、マスキング文字、PIIを開始/終了からマスク解除するかどうか、およびマスク解除したままにする文字数を指定することもできます。 OCI Languageは、名前、年齢、住所、電子メール、電話番号などの個人を識別可能な情報を識別して分類するのに役立ちます。識別および分類された情報を返します。テキスト分類: テキストが属する文書カテゴリおよびサブカテゴリを識別します。 OCI Languageでは、テキストを分析し、あらかじめ決められたカテゴリとサブカテゴリのセットに自動的に分類します。分類された各レコードについて、この情報が返されます。テキスト翻訳: テキストを選択した言語に翻訳します。 OCI Languageでは、ソース言語から指定した言語に指定したテキストが翻訳されます。翻訳されたテキストを返します。医療機関: 電子医療記録(EHR)、進捗ノート、臨床試験ドキュメントなどの医療記録から医療機関を検出および抽出します。医療NLPモデルおよび医療NLPモデルを使用した医療データの分析を参照してください。モデルをホストするには、Oracle Cloudコンソールでプロジェクトを作成する必要があります。モデルを作成する必要があります。モデルにアクセスするには、Oracle Cloudコンソールでモデルのエンドポイントを作成する必要があります。「ジョブ」カテゴリを選択した場合は、実行する次のジョブのいずれかを選択します。ジョブの作成: 新しい非同期言語ジョブを作成します。オブジェクト・ストレージからドキュメントを読み取り、分析の結果をジョブIDとともに返します。ジョブの取得: 指定したジョブIDを使用して言語ジョブのステータスを取得します。このアクションは言語ジョブのステータスを返します。ジョブのリスト: 指定されたコンパートメントの言語ジョブのリストを返します。ジョブの更新: 指定された言語ジョブをリクエスト・ペイロードで指定された詳細で更新します。ジョブの削除: 指定した言語ジョブを削除します。ジョブの取消し: 指定した言語ジョブ(そのタスクを含む)を取り消します。

要素

説明

カテゴリを選択します

次のいずれかのカテゴリを選択します。

アクション
ジョブ

「アクション」カテゴリを使用すると、非構造化テキストに対して分析および翻訳を実行できます。「テキスト」ターゲット要素を使用して、マッパーで処理するテキストを指定する必要があります。

「ジョブ」カテゴリでは、非同期言語ジョブを作成できるようにすることで、非構造化テキスト・データを大規模に分析できます。また、言語ジョブに関する情報を取得したり、言語ジョブをリストできます。大量のテキスト情報を処理できます。オブジェクト・ストレージで処理するドキュメントを指定する必要があります。また、言語ジョブを更新、削除またはキャンセルすることもできます。

アクション

「アクション」カテゴリを選択した場合は、実行する次のいずれかのアクションを選択します。アクション名を入力してリストをフィルタできます。

言語の検出: 提供されたテキストに基づいて言語を検出し、信頼度スコアを含めます。

OCI Languageは言語を検出し、検出された言語を関連する信頼度スコア(0から1)とともに返します。レコードのバッチを指定することもできます。
名前付きエンティティ認識: 共通エンティティ、個人、ロケーション、ロケーション、Eメールなどを識別します。

OCI Languageは、テキスト・レコードのエンティティを抽出します。各エンティティのタイプ/サブタイプおよび信頼度スコア(0から1)を返します。
キー・フレーズ抽出: テキストのブロックから重要なフレーズ・セットを抽出します。
OCI Languageは、テキストからキー・フレーズを抽出します。キー・フレーズごとに、テキストのコンテキストにおけるキー・フレーズの重要度を強調表示するスコア(0から1)を返します。
感情分析: テキストのトーンを識別し、テキスト内の式を正、負、中性、または混合極性に分類します。

OCI Languageでは、アスペクト・ベースのセンチメント分析とセンテンス・ベースのセンチメント分析の両方をサポートしています。たとえば、トピック、個人、エンティティに対する、意見、評価、感情または態度です。分析後、各クラスの信頼度スコア(正、負、中性または混合)を返します。
個人識別可能情報(PII)/プライベート・ヘルス情報(PHI): 非構造化テキストで個人情報を識別、分類および非識別化します。また、医療記録を処理し、医療保険プランIDや医療記録番号などの個人の健康情報を検出することもできます。 OCI Languageでは、PIIのマスキングがサポートされています。

銀行口座番号、電話番号、年齢などのエンティティのマスキングを構成できます。構成可能なエンティティは、MASKING要素の下のマッパーで使用できます。

マスキング・オプションを指定して、マスキング文字、PIIを開始/終了からマスク解除するかどうか、およびマスク解除したままにする文字数を指定することもできます。

OCI Languageは、名前、年齢、住所、電子メール、電話番号などの個人を識別可能な情報を識別して分類するのに役立ちます。識別および分類された情報を返します。
テキスト分類: テキストが属する文書カテゴリおよびサブカテゴリを識別します。

OCI Languageでは、テキストを分析し、あらかじめ決められたカテゴリとサブカテゴリのセットに自動的に分類します。分類された各レコードについて、この情報が返されます。
テキスト翻訳: テキストを選択した言語に翻訳します。

OCI Languageでは、ソース言語から指定した言語に指定したテキストが翻訳されます。翻訳されたテキストを返します。
医療機関: 電子医療記録(EHR)、進捗ノート、臨床試験ドキュメントなどの医療記録から医療機関を検出および抽出します。医療NLPモデルおよび医療NLPモデルを使用した医療データの分析を参照してください。
- モデルをホストするには、Oracle Cloudコンソールでプロジェクトを作成する必要があります。
- モデルを作成する必要があります。
- モデルにアクセスするには、Oracle Cloudコンソールでモデルのエンドポイントを作成する必要があります。

「ジョブ」カテゴリを選択した場合は、実行する次のジョブのいずれかを選択します。

ジョブの作成: 新しい非同期言語ジョブを作成します。オブジェクト・ストレージからドキュメントを読み取り、分析の結果をジョブIDとともに返します。
ジョブの取得: 指定したジョブIDを使用して言語ジョブのステータスを取得します。このアクションは言語ジョブのステータスを返します。
ジョブのリスト: 指定されたコンパートメントの言語ジョブのリストを返します。
ジョブの更新: 指定された言語ジョブをリクエスト・ペイロードで指定された詳細で更新します。
ジョブの削除: 指定した言語ジョブを削除します。
ジョブの取消し: 指定した言語ジョブ(そのタスクを含む)を取り消します。

「アクション」カテゴリおよびアクションを選択した場合は、次の情報を選択します。

要素	説明
コンパートメント	Oracle IntegrationがインストールされているOracle Cloud Infrastructureコンパートメントを選択します。このフィールドは、「ヘルス・エンティティ」処理を選択した場合には適用されません。
エンドポイントID	このフィールドは、「ヘルス・エンティティ」アクションを選択した場合にのみ使用できます。推論に使用するエンドポイントIDを指定します。ステップ2でOracle Cloudコンソールで作成したモデル・エンドポイントのID (OCID)を指定する必要があります。
レベル	このフィールドは、「センチメント分析」アクションを選択した場合にのみ使用できます。実行するセンチメント分析のレベルを「使用可能なオプション」リストから選択し、「選択したオプション」リストに移動します。センテンス: テキストの各センテンスに対して、センテンス・レベルのセンチメント分析を信頼度スコアで実行できます。アスペクト: 入力ドキュメント内の個々のアスペクトを抽出し、各アスペクトを1つの極性クラス(正、負、混合または中性)に分類できます。各アスペクトの予測センチメントにより、各クラスの信頼度スコアおよび入力内の対応するオフセットも提供されます。 1に近い信頼度スコアは、ラベルの分類に対する信頼度が高いことを示し、スコアが低いほど信頼度が低いことを示します。各クラスの信頼度スコアの範囲は0から1で、4つのクラスのすべての累積スコアの合計は1です。このオプションは、デフォルトで「選択オプション」リストで使用できます。必要に応じて、いずれかのオプションまたは両方のオプションを選択できます。マッパーの`基準`ターゲット要素を使用して、`"SENTENCE"`または"ASPECT"オプションを指定することもできます。
検出対象のエンティティ	このフィールドは、「個人識別可能情報(PII)/プライベート・ヘルス情報(PHI)」アクションを選択した場合にのみ使用できます。検出するエンティティを、ドロップダウン・リストで使用可能なエンティティのリスト(「個人名」、「住所」、「年齢」など)から選択します。すべてのエンティティを検出する場合は、ドロップダウン・リストから「すべて」を選択できます。
マスキング構成(オプション)	このフィールドは、「個人識別可能情報(PII)/プライベート・ヘルス情報(PHI)」アクションを選択した場合にのみ使用できます。 PIIマスキングでは、必要に応じて次のようなマスキング・モードを選択できます。マスク: PIIをマスク(非表示)して、'***'、'X'などのマスキング文字を使用するか、情報の一部(たとえば、最後の4文字)を表示します。マスキング文字(オプション): 使用するマスキング文字を入力します。マスクされていないままにする文字数(オプション): 情報の一部のみを表示する場合は、マスクされていないままにする文字数を入力します。マスク解除オプション: 「最初から」または「最後から」を選択します。置換: このオプションを選択した場合、「置換先」フィールドでPIIを置換する文字を指定します。 REMOVE: 出力テキストからPIIエンティティを削除します。また、リクエスト・ペイロードでマスキング・モードおよびマスキング・オプションを指定することもできます。リクエスト・ペイロードで指定されたオプションは、ウィザードで指定されたオプションをオーバーライドします。

「ジョブ」カテゴリおよび「ジョブの作成」処理を選択した場合は、次の情報を選択します。

要素	説明
コンパートメント	Oracle IntegrationがインストールされているOracle Cloud Infrastructureコンパートメントを選択します。
機能タイプ	次の機能タイプのいずれかを選択します。事前トレーニング済言語検出事前トレーニング済センチメント分析事前トレーニング済キーフレーズ抽出事前トレーニング済言語piiエンティティ事前トレーニング済言語翻訳事前トレーニング済名前付きエンティティの認識事前トレーニング済テキスト分類テキスト分類名前付きエンティティの認識事前トレーニング済モデルは、リクエスト・ペイロードで指定したテキストに対して選択したタスク(機能タイプ)を実行するすぐに使用できるAIモデルです。
構成	このフィールドは、「事前トレーニング済センチメント分析」機能タイプを選択した場合にのみ使用できます。「使用可能なオプション」リストからセンチメント分析オプションを選択し、「選択したオプション」リストに移動します。センテンス: テキストの各センテンスに対して、センテンス・レベルのセンチメント分析を信頼度スコアで実行できます。アスペクト: 入力ドキュメント内の個々のアスペクトを抽出し、各アスペクトを1つの極性クラス(正、負、混合または中性)に分類できます。各アスペクトの予測センチメントにより、各クラスの信頼度スコアおよび入力内の対応するオフセットも提供されます。 1に近い信頼度スコアは、ラベルの分類に対する信頼度が高いことを示し、スコアが低いほど信頼度が低いことを示します。各クラスの信頼度スコアの範囲は0から1で、4つのクラスのすべての累積スコアの合計は1です。このオプションは、デフォルトで「選択オプション」リストで使用できます。マッパーの`基準`ターゲット要素を使用して、`"SENTENCE"`または"ASPECT"オプションを指定することもできます。
検出対象のエンティティ	このフィールドは、「事前トレーニング済言語のpiiエンティティ」機能タイプを選択した場合にのみ使用できます。ドロップダウン・リストから「すべて」を選択します。
マスキング構成(オプション)	このフィールドは、「事前トレーニング済言語のpiiエンティティ」機能タイプを選択した場合にのみ使用できます。 PIIマスキングでは、必要に応じて次のようなマスキング・モードを選択できます。マスク: PIIをマスク(非表示)して、'***'、'X'などのマスキング文字を使用するか、情報の一部(たとえば、最後の4文字)を表示します。マスキング文字(オプション): 使用するマスキング文字を入力します。マスクされていないままにする文字数(オプション): 情報の一部のみを表示する場合は、マスクされていないままにする文字数を入力します。マスク解除オプション: 「最初から」または「最後から」を選択します。 REPLACE: PIIを指定された一連の文字に置き換えます。 REMOVE: 出力テキストからPIIエンティティを削除します。また、リクエスト・ペイロードでマスキング・モードおよびマスキング・オプションを指定することもできます。リクエスト・ペイロードで指定されたオプションは、ウィザードで指定されたオプションをオーバーライドします。
ソース言語。	このフィールドは、「事前トレーニング済言語翻訳」機能タイプに対してのみ使用できます。翻訳するテキストのソース言語をドロップダウン・リストから選択します。
ターゲット言語	このフィールドは、「事前トレーニング済言語翻訳」機能タイプに対してのみ使用できます。「使用可能なオプション」リストから1つ以上のターゲット言語を選択し、「選択したオプション」リストに移動して、ソース言語から選択したターゲット言語にテキストを翻訳します。
ドキュメント・タイプ	次のいずれかのドキュメント・タイプを選択します。 TXT: このオプションを使用して、テキスト・ファイルを入力ファイルとして指定します。 CSV: このオプションを使用して、入力ファイルとしてカンマ区切り値(CSV)ファイルを指定します。このフィールドは、「事前トレーニング済言語翻訳」機能タイプには使用できません。
入力バケット	分析するドキュメントを含む入力ストレージ・バケットを選択します。ノート: TXTドキュメント・タイプの場合は、バケット内のすべてのテキスト・ファイルが処理対象として選択されます。 CSVドキュメント・タイプの場合、リクエスト・ペイロードで使用する特定のCSVファイルを、他のパラメータ(行/列の詳細など)とともに指定する必要があります。 DocumentsConfigurationリファレンスを参照してください。「事前トレーニング済言語翻訳」機能タイプでは、リクエスト・ペイロードで使用する特定のテキストまたはCSVファイルを指定できます。
入力プリフィクス(オプション)	このフィールドは、記入票タイプ [TXT]を選択した場合にのみ使用できます。オプションで、入力プリフィクス(フォルダ名に類似)を指定できます。このフィールドは、「事前トレーニング済言語翻訳」機能タイプでも使用できます。
出力バケット	結果を格納する出力ストレージ・バケットを選択します。
出力接頭辞(オプション)	オプションで、出力接頭辞(フォルダ名に類似)を指定できます。

「ジョブ」カテゴリおよび「ジョブのリスト」処理を選択した場合は、次の情報を選択します。

要素	説明
コンパートメント	Oracle IntegrationがインストールされているOracle Cloud Infrastructureコンパートメントを選択します。

「続行」をクリックします。

「サマリー」ページで「終了」をクリックします。
適切なソース要素をターゲット要素にマッピングして、マッパーを開き、構成を完了します。
1. ステップ2で「アクション」カテゴリを選択した場合:
  「言語検出」、「キー・フレーズ抽出」、「センチメント分析」、「テキスト分類」、「テキスト翻訳」および「名前付きエンティティ認識」アクションでは、次のステップを実行します。
  1. 「ターゲット」セクションで最上位ノードを展開します。
  2. そのノード内で、「リクエスト・ラッパー」を展開し、「Body」を展開し、「ドキュメント」を展開します。
  3. 「キー」を右クリックし、「ターゲット・ノードの作成」を選択します。
  4. 式ビルダーで「設計ビュー」をクリックします。
  5. 式ビルダーで、「キー」の値を指定します。
    
    ノート:
    キーは、リクエスト内のドキュメントを区別するために使用される識別子です。このリクエスト内で一意である必要があります。
  6. 「ターゲット」セクションの「ドキュメント」で、「テキスト」を右クリックし、「ターゲット・ノードの作成」を選択します。
  7. 式ビルダーで、ステップ2で選択したアクションを実行するテキストを指定します。
  ステップ2で「個人識別可能情報(PII)/プライベート・ヘルス情報(PHI)」アクションを選択した場合は、適切なソース要素を「ドキュメント」ターゲット要素にマップします。また、適切なソースエレメントを [プロファイル]ターゲットエレメントにマッピングする必要があります。式ビルダーを使用して、プロファイル要素の属性の値を指定します。プロファイル・リファレンスを参照してください。特定のマスキング・エンティティ(BANK ACCOUNT NUMBER、AGE、EMAILなど)の場合は、必要に応じて、「モード」、「終了からマスク解除」、「マスク解除された文字を残す」、「マスキング文字」および「置換」などのターゲット要素のマッピングを完了します。または、すべてのエンティティを構成するには、適切なソース要素を「ターゲット」セクションの「マスキング」内の「すべて」ターゲット要素にマップし、必要に応じて次のいずれかのマッピングを完了します。
  - Mode、Is Unmasked From End、および Leave Characters Unmaskedターゲット要素のマッピング。
  - 「モード」および「置換」ターゲット要素のマッピング。
  - モード・ターゲット要素のマッピング。
  ステップ2で「ヘルス・エンティティ」処理を選択した場合は、適切なソース要素を「ドキュメント」および「エンドポイントID」ターゲット要素にマップします。オプションで、「アサーションの検出」や「関係の検出」など、他のターゲット要素のマッピングを実行することもできます。 BatchDetectHealthEntityDetailsリファレンスを参照してください。
  
  ノート:
  オプションで、マッパーで「コンパートメントID」を指定して、ステップ4でコンパートメントに最初に選択した値をオーバーライドできます。
2. 「ジョブ」カテゴリを選択した場合は、次のステップを実行します。
  「ジョブの作成」処理を選択した場合は、適切なソース要素を「コンパートメントID」、「入力場所」、「モデル・メタデータ詳細」および「出力場所」ターゲット要素にマップします。 CreateJobDetailsリファレンスを参照してください。
  
  「ジョブのリスト」アクションを選択した場合は、適切なソース要素を「コンパートメントID」ターゲット要素にマップします。
  
  「ジョブの取得」、「ジョブの削除」、「ジョブの取消」または「ジョブの更新」処理を選択した場合は、適切なソース要素を「ジョブID」ターゲット要素にマップします。
  ノート:
  - 「ジョブの取得」、「ジョブの削除」または「ジョブの取消」処理を選択した場合は、パス・パラメータとして(アクションを実行する)ジョブIDを指定する必要があります。
  - 「ジョブ」カテゴリおよび「ジョブの更新」処理を選択した場合は、パス・パラメータとしてジョブIDを指定し、リクエスト・ペイロードで更新を指定する必要があります。
  「ジョブ・リファレンス」、CreateJob、UpdateJob、GetJob、ListJobs、DeleteJobおよびCancelJobを参照してください。
マッパーを終了します。
言語アクションが構成されました。

例

次のテキスト、マスキング構成およびプロファイル・ドメイン値をリクエスト・ペイロードに送信します。

テキスト: ユーザー・パスポートはA123456789、電子メールexample@example.com、年齢は25年、IFSC_CODEはI12345です。

リクエスト・ペイロード:

{
"compartmentId": "ocid1.compartment.oc1..aaaaakxpkqgmdmspdcf2smlvkph7memlu3gwe5c7aj7pqozyndlwy5a",
"documents": [
{
"key": "doc1",
"text": "User passport is A123456789, email example@example.com, age is 25 years, IFSC_CODE is I12345.",
"languageCode": "en"
}
],
"masking": {
"PASSPORT_NUMBER_US": { "mode": "MASK", "maskingCharacter": "*", "leaveCharactersUnmasked": 3, "isUnmaskedFromEnd": true },
"EMAIL": { "mode": "REMOVE" },
"AGE": { "mode": "REPLACE", "replaceWith": "30 years" }
},
"profile": {
   "domain": "ALL"
}
}

「Personal Identifiable information (PII)/Private Health Information (PHI)」アクションを選択します。
必要に応じてマッパー構成を完了します。
言語アクションは、パスポート番号が部分的にマスクされたテキスト(最後の3文字のみを表示)、電子メールが削除され、年齢が指定されたテキストに置き換えられたテキストを返します。