UTL_TO_TEXT

入力ドキュメント(PDF、DOC、JSON、XML、HTMLなど)をプレーン・テキストに変換するには、DBMS_VECTOR_CHAIN.UTL_TO_TEXTチェーン可能ユーティリティ関数を使用します。

用途

Oracle DatabaseのOracle Textコンポーネント(CONTEXT)を使用して、ファイルからテキストへの変換を実行します。

構文

DBMS_VECTOR_CHAIN.UTL_TO_TEXT (
    DATA          IN CLOB | BLOB,
    PARAMS        IN JSON default NULL
) return CLOB;

データ

この関数は、入力データ型をCLOBまたはBLOBとして受け入れます。ドキュメントは、リモートの場所から、またはデータベース表にローカルに格納されているファイルから読み取ることができます。

ドキュメントのプレーン・テキスト・バージョンをCLOBとして返します。

Oracle Textでは、約150種類のファイル・タイプがサポートされています。サポートされているすべてのドキュメント形式の完全なリストは、『Oracle Textリファレンス』を参照してください。

PARAMS

次の入力パラメータをJSON形式で指定します。

{ 
    "plaintext" : "true or false",
    "charset"   : "UTF8" 
}

表12-31 パラメータの詳細

パラメータ 説明

plaintext

プレーン・テキストの出力。

このパラメータのデフォルト値はtrueです。そのため、デフォルトの出力形式はプレーン・テキストになります。

ドキュメントがプレーン・テキストとして返されないようにする場合は、このパラメータをfalseに設定します。

charset

文字セットのエンコーディング。

現在はUTF8のみがサポートされています。

select DBMS_VECTOR_CHAIN.UTL_TO_TEXT (
    t.blobdata, 
     json('{
            "plaintext": "true",
            "charset"  : "UTF8" 
           }')
) from tab t;

エンドツーエンドの例:

この関数を使用してエンドツーエンドのシナリオ例を実行するには、「ファイルからテキスト、チャンク、Oracle Database内の埋込みへの変換」を参照してください。