UTL_TO_TEXT
入力ドキュメント(PDF、DOC、JSON、XML、HTMLなど)をプレーン・テキストに変換するには、DBMS_VECTOR_CHAIN.UTL_TO_TEXTチェーン可能ユーティリティ関数を使用します。
用途
Oracle AI DatabaseのOracle Textコンポーネント(CONTEXT)を使用して、ファイルからテキストへの変換を実行します。
構文
DBMS_VECTOR_CHAIN.UTL_TO_TEXT (
DATA IN CLOB | BLOB,
PARAMS IN JSON default NULL
) return CLOB;データ
この関数は、入力データ型をCLOBまたはBLOBとして受け入れます。ドキュメントは、リモートの場所から、またはデータベース表にローカルに格納されているファイルから読み取ることができます。
ドキュメントのプレーン・テキスト・バージョンをCLOBとして返します。
Oracle Textでは、約150種類のファイル・タイプがサポートされています。サポートされているすべてのドキュメント形式の完全なリストは、『Oracle Textリファレンス』を参照してください。
PARAMS
次の入力パラメータをJSON形式で指定します。
{
"plaintext": "true or false",
"charset": "UTF8 | EUCJP | <other_valid_charset>",
"format": "BINARY | TEXT | IGNORE"
}表12-32 パラメータの詳細
| パラメータ | 説明 |
|---|---|
|
|
プレーン・テキストの出力。 このパラメータのデフォルト値は ドキュメントがプレーン・テキストとして返されないようにする場合は、このパラメータを |
|
|
文字セットのエンコーディング。このパラメータのデフォルト値は、現在のデータベース文字セットです。つまり、デフォルトでは、入力でデータベースと同じ文字セットが使用されているとみなされます。入力で別の文字セットを使用する場合は、このパラメータを使用してその文字セットを指定します。 |
|
|
処理するコンテンツのフォーマット・タイプ。有効な値は次のとおりです:
|
例
select DBMS_VECTOR_CHAIN.UTL_TO_TEXT (
t.blobdata,
json('{
"plaintext": "true",
"charset" : "UTF8",
"format" : "TEXT"
}')
) from tab t;エンドツーエンドの例:
この関数を使用してエンドツーエンドのシナリオ例を実行するには、「Oracle AI Database内でのファイルからテキスト、チャンク、埋込みへの変換」を参照してください。
親トピック: DBMS_VECTOR_CHAIN