UTL_TO_TEXT

入力ドキュメント(PDF、DOC、JSON、XML、HTMLなど)をプレーン・テキストに変換するには、DBMS_VECTOR_CHAIN.UTL_TO_TEXTチェーン可能ユーティリティ関数を使用します。

用途

Oracle AI DatabaseのOracle Textコンポーネント(CONTEXT)を使用して、ファイルからテキストへの変換を実行します。

構文

DBMS_VECTOR_CHAIN.UTL_TO_TEXT (
    DATA          IN CLOB | BLOB,
    PARAMS        IN JSON default NULL
) return CLOB;

データ

この関数は、入力データ型をCLOBまたはBLOBとして受け入れます。ドキュメントは、リモートの場所から、またはデータベース表にローカルに格納されているファイルから読み取ることができます。

ドキュメントのプレーン・テキスト・バージョンをCLOBとして返します。

Oracle Textでは、約150種類のファイル・タイプがサポートされています。サポートされているすべてのドキュメント形式の完全なリストは、『Oracle Textリファレンス』を参照してください。

PARAMS

次の入力パラメータをJSON形式で指定します。

{
    "plaintext": "true or false",
    "charset": "UTF8 | EUCJP | <other_valid_charset>",
    "format": "BINARY | TEXT | IGNORE"
}

表12-32 パラメータの詳細

パラメータ 説明

plaintext

プレーン・テキストの出力。

このパラメータのデフォルト値はtrueです。そのため、デフォルトの出力形式はプレーン・テキストになります。

ドキュメントがプレーン・テキストとして返されないようにする場合は、このパラメータをfalseに設定します。それをfalseに設定すると、ドキュメントがプレーン・テキストではなくHTMLマークアップとして返されます。

charset

文字セットのエンコーディング。このパラメータのデフォルト値は、現在のデータベース文字セットです。つまり、デフォルトでは、入力でデータベースと同じ文字セットが使用されているとみなされます。入力で別の文字セットを使用する場合は、このパラメータを使用してその文字セットを指定します。

format

処理するコンテンツのフォーマット・タイプ。有効な値は次のとおりです:
  • BINARY: PDFやWordなどのリッチ・コンテンツの場合。formatパラメータのデフォルト値です。
  • TEXT: プレーン・テキストの場合
  • IGNORE: 変換なし

select DBMS_VECTOR_CHAIN.UTL_TO_TEXT (
    t.blobdata, 
    json('{
            "plaintext": "true",
            "charset"  : "UTF8",
            "format"   : "TEXT"
          }')
) from tab t;

エンドツーエンドの例:

この関数を使用してエンドツーエンドのシナリオ例を実行するには、「Oracle AI Database内でのファイルからテキスト、チャンク、埋込みへの変換」を参照してください。