Oracle Textの多言語機能

D Oracle Textの多言語機能

この付録では、Oracle Textの多言語機能について説明します。次の内容について説明します。

D.1 概要

この付録では、Oracle Textの主要な多言語機能の概要を説明します。

Oracleのグローバリゼーション・サポート言語および文字セット・サポートの完全なリストは、『Oracle Databaseグローバリゼーション・サポート・ガイド』を参照してください。

ノート:

Oracle Textでは、NLS_COMPおよびNLS_SORTパラメータはサポートされていません。Oracle Textで生成される検索結果は、これらのパラメータの値と無関係です。

Oracle Database 12c リリース2 (12.2)では、Oracle Text索引は、宣言された照合BINARY、USING_NLS_COMP、USING_NLS_SORTまたはUSING_NLS_SORT_CSを使用する列に対してのみ作成できます。Oracle Textの動作は、すべてのサポートされる照合で同様です。

D.2 索引付け

次の各項目で、多言語索引付け機能について説明します。

D.2.1 Oracle Textの索引タイプの多言語機能

次の各項目で、Oracle Textの索引タイプでサポートされている多言語機能について説明します。

D.2.1.1 CONTEXT索引タイプ

CONTEXT索引タイプは、言語および文字セット列の使用を含めて、多言語機能を完全にサポートしています。

次のレクサーをサポートしています。

AUTO_LEXER
MULTI_LEXER
USER_LEXER
WORLD_LEXER

CHINESE_LEXER
CHINESE_VGRAM_LEXER
JAPANESE_LEXER
JAPANESE_VGRAM_LEXER
KOREAN_MORPH_LEXER

D.2.1.2 CTXCAT索引タイプ

CTXCATは、テーマの索引付けを除いたBASIC_LEXERの多言語機能をサポートしており、次の追加レクサーをサポートしています。

USER_LEXER
WORLD_LEXER

また、CTXCATは次のレクサーもサポートしています。

CHINESE_LEXER
CHINESE_VGRAM_LEXER
JAPANESE_LEXER
JAPANESE_VGRAM_LEXER
KOREAN_MORPH_LEXER

D.2.1.3 CTXRULE索引タイプ

CTXRULE索引タイプは、ABOUT演算子およびSTEM演算子を含むBASIC_LEXERの多言語機能をサポートします。また、日本語、中国語および韓国語もサポートします(SVM_CLASSIFIERで使用される場合)。

D.2.2 レクサー型

Oracle Textでは、索引付け処理時にレクサーを選択可能にすることにより、異なる言語の索引付けをサポートしています。採用したレクサーにより、索引付けできる言語が決定します。表D-1は、サポートされているレクサーを示しています。

表D-1 Oracle Textのレクサー型

レクサー	サポートされている言語
`BASIC_LEXER`	空白のデリミタ付きワードを使用する英語およびほとんどの西ヨーロッパ言語。
`MULTI_LEXER`	英語、ドイツ語および日本語など、異なる複数言語のドキュメントを含む表の索引付けに使用するレクサー。
`CHINESE_VGRAM`	中国語テキストからのトークンの抽出に使用するレクサー。
`CHINESE_LEXER`	中国語テキストからのトークンの抽出に使用するレクサー。このレクサーは、`CHINESE_VGRAM`と比較して次の利点があります。小型の索引の生成問合せ応答時間の短縮実ワード・トークンの生成による問合せ精度の向上ストップワードのサポート
`JAPANESE_VGRAM`	日本語テキストからのトークンの抽出に使用するレクサー。
`JAPANESE_LEXER`	日本語テキストからのトークンの抽出に使用するレクサー。このレクサーは、`JAPANESE_VGRAM`レクサーと比較して次の利点があります。小型の索引の生成問合せ応答時間の短縮実ワード・トークンの生成による精度の向上
`KOREAN_MORPH_LEXER`	韓国語テキストからのトークンの抽出に使用するレクサー。
`USER_LEXER`	特定言語を索引付けするために作成するレクサー。
`WORLD_LEXER`	異なる複数言語のドキュメントを含む表の索引付けに使用する、ドキュメントの言語を自動検出するレクサー。

D.2.3 基本レクサー機能

次の機能は、BASIC_LEXERのプリファレンスでサポートされています。これらの機能は、BASIC_LEXERの属性で有効にします。検索結果の精度を上げるために、代替スペル、コンポジットおよび基本文字などの機能を同時に有効にできます。

D.2.3.1 テーマ索引

CONTEXT索引タイプを持つABOUT演算子が含まれるドキュメントの概念に索引付けを行い、その後の問合せを可能にします。これらの概念は、Oracle Textのナレッジ・ベースから導出されます。この機能は、英語とフランス語でサポートされています。

この機能は、CTXCAT索引タイプではサポートされていません。

D.2.3.2 代替スペル

この機能により、ワードを代替スペルで検索できます。たとえば、ドイツ語で代替スペルを有効にすると、grossを検索した場合、großおよびgrossが含まれているドキュメントが戻されます。

この機能は、ドイツ語、デンマーク語およびスウェーデン語でサポートされています。

さらに、ドイツ語は、従来のスペルと改良された(新規の)スペルの両方の規則に基づいて索引付けできます。

D.2.3.3 基本文字変換

この機能により、ティルデ、アクセントおよびウムラウトなどの発音区別記号が含まれているワードおよび含まれていないワードの両方を問い合せることができます。たとえば、スペイン語の基本文字索引を使用すると、energiaを検索した場合、energíaおよびenergiaの両方が含まれているドキュメントが検索されます。

この機能は、英語およびサポートされているその他すべての空白のデリミタ付き言語でサポートされています。英語およびフランス語では、基本レクサーを使用してテーマの索引付けを使用可能にできます。

D.2.3.4 コンポジット

この機能により、指定した語句が複合語の要素として含まれているワードを検索できます。STEM($)演算子を使用する必要があります。この機能は、ドイツ語とオランダ語でサポートされています。

たとえば、ドイツ語で$registerを検索した場合、BruttoregistertonneおよびRegistertonneが含まれているドキュメントが検索されます。

D.2.3.5 索引の語幹

この機能により、語幹索引付けのステマーを指定できます。索引付け時に、トークンが通常の形式に加えて、単一の基本形にステミングされます。語幹索引付けを指定することによって、ステミング問合せ(例: $computed)の問合せパフォーマンスが向上します。

この機能は、英語、オランダ語、フランス語、ドイツ語、イタリア語およびスペイン語でサポートされています。

D.2.4 マルチレクサー機能

MULTI_LEXERレクサーは、異なる複数の言語のドキュメントを含む列の索引付けを可能にします。索引付け時に、Oracle Textは言語列を調べ、言語固有のレクサーに切り替えた後、ドキュメントを処理します。索引付けを実行する前に、各言語のレクサー・プリファレンスを定義します。

マルチレクサーを使用すると、言語ごとに異なるプリファレンスを設定できます。たとえば、ドイツ語のドキュメントではcompositeをTRUEに設定し、オランダ語のドキュメントではcompositeをFALSEに設定できます。

D.2.5 Worldレクサー機能

MULTI_LEXERと同様にWORLD_LEXERレクサーは、異なる複数の言語を含むドキュメントの索引付けを可能にします。ドキュメントの言語を自動的に検出するため、元表に言語列を作成する必要がありません。

WORLD_LEXERは、すべてのデータベース文字セットをサポートしており、Unicode 5.0標準をサポートしています。複数言語を使用するドキュメントでWORLD_LEXERを有効に活用するには、AL32UTF-8またはUTF8 Oracle文字セット・エンコーディングを指定する必要があります。これには、補完、またはサロゲート・ペア文字も含まれます。

表D-2および表D-3に、WORLD_LEXERでサポートされる言語を示します。このリストはUnicode標準の変更に伴って変更される可能性があります。いずれにしても完全なリストとは考えないようにする必要があります。(言語は一般的なグループ分けではなく、Unicodeの言語システムに対応してグループ分けされています。)

表D-2 Worldレクサーでサポートされている言語(空白で区切られる言語)

言語グループ	含まれる言語
アラビア語	アラビア語、ファルシ語、クルド語、パシュトー語、シンド語、ウルドゥー語
アルメニア語	アルメニア語
ベンガル語	アッサム語、ベンガル語
Bopomofo	客家(ハッカ)語、ビンナン語
キリル語	ベラルーシ語、ブルガリア語、マケドニア語、モルダビア語、ロシア語、セルビア語、セルビア・クロアチア語、ウクライナ語を含む50以上の言語
デーヴァナーガリー文字	ボジュプリー語、ビハール語、ヒンディー語、カシミール語、マラーティー語、ネパール語、パーリ語、サンスクリット語
エチオピア語	アムハラ語、ゲーズ語、ティグリニャ語、ティグレ語
ジョージア語	ジョージア語
ギリシャ語	ギリシャ語
グジャラト語	グジャラート語、カッチ語
グルムキー語	パンジャブ語
ヘブライ語	ヘブライ語、ラディノ語、イディッシュ語
カガンガ文字	レジャン語
カンナダ語	カナラ語、カンナダ語
韓国語	韓国語、ハンジャ・ハングル語
ラテン語	アフリカーンス語、アルバニア語、バスク語、ブルトン語、カタロニア語、クロアチア語、チェコ語、デンマーク語、オランダ語、英語、エスペラント語、エストニア語、フェロー語、フィジー語、フィンランド語、フラマン語、フランス語、フリジア語、ドイツ語、ハワイ語、ハンガリー語、アイスランド語、インドネシア語、アイルランド語、イタリア語、ラップ語、古典ラテン語、ラトビア語、リトアニア語、マレー語、マルタ語、中国標準語(ピンイン表記)、マオリ語、ノルウェー語、ポーランド語、ポルトガル語、プロヴァンス語、ルーマニア語、サモア語、ゲール語(スコットランド)、スロバキア語、スロベニア語、ソルビア語、スペイン語、スワヒリ語、スウェーデン語、タガログ語、トルコ語、ベトナム語、ウェールズ語
マラヤーラム語	マラヤーラム語
モンゴル語	モンゴル語
オリヤー語	オリヤー語
シンハラ語	パーリ語、シンハラ語
シリア語	アラム語、シリア語
タミル語	タミル語
テルグ語	テルグ語
ターナ語	ディベヒ語、モルディブ語

表D-3 Worldレクサーでサポートされている言語(空白で区切られない言語)

言語グループ	含まれる言語
中国語	広東語、中国標準語、ピンイン表音文字
日本語	日本語(ひらがな、漢字、カタカナ)
クメール語	カンボジア語、クメール語
ラオ語	ラオ語
ミャンマー語	ビルマ語
タイ語	タイ語
チベット語	ゾンカ語、チベット語

表D-4に、Worldレクサーでサポートされていない言語を示します。

表D-4 Worldレクサーでサポートされていない言語

言語グループ	含まれる言語
ブヒッド語	ブヒッド語
カナダ音節文字	ブラックフット語、カリエール語、クリー語、ダケール語、イヌイット語、イヌクティトゥト語、ナスカピ語、ヌナヴィク語、ヌナブト語、オジブウェー語、サリッシュ語、スレーベイ語
チェロキー語	チェロキー語
キプロス方言	キプロス方言
リンブ語	リンブ語
オガム文字	オガム文字
ルーン語	ルーン語
タイ・ルー語	タイ・ルー語
ウガリット語	ウガリット語
イ語	イ語
易経の六線星形	易経

D.3 問合せ

Oracle Textでは、様々な問合せ演算子の使用をサポートしています。一部の演算子は、ご使用の言語にあわせて動作するよう設定できます。この項では、これらの演算子の多言語問合せ機能の概要を説明します。

ABOUT演算子を使用して概念を問い合せます。システムは、索引のテーマ・コンポーネントの概念情報を検索します。この機能は、CONTEXT索引を持つ英語とフランス語でサポートされています。
FUZZY演算子を使用すると、指定したワードと類似したスペルを持つワードを検索できます。Oracle Textでは、英語、フランス語、ドイツ語、イタリア語、オランダ語、スペイン語、ポルトガル語、日本語、光学式文字認識(OCR)および自動言語識別について、FUZZYをサポートしています。
STEM演算子を使用して、指定した語句と同じ語根を持つ語を検索できます。たとえば、$singというステムは、sang、sung、singという語の問合せに拡張されます。Oracle Textのステマーは、英語、フランス語、スペイン語、イタリア語、ドイツ語、日本語およびオランダ語をサポートしています。

D.4 提供されるストップリスト

ストップリストは、索引付けされないワードのリストです。これらは通常、たとえば英語におけるthis、thatおよびcanなどのような、一般的な語です。

Oracle Textでは、英語、中国語(繁体字および簡体字)、デンマーク語、オランダ語、フィンランド語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語およびスウェーデン語に対して、デフォルトのストップリストが提供されています。「Oracle Textで提供されるストップリスト」に、様々な言語のストップリストを掲載しています。

D.5 ナレッジ・ベース

Oracle Textのナレッジ・ベースは、索引付け、ABOUT問合せ、およびドキュメント・サービスの導出テーマに使用される概念の階層ツリーです。

Oracle Textで提供されているナレッジ・ベースは、英語とフランス語のみです。これらのナレッジ・ベースはデフォルトでインストールされます。

シングルバイトの空白で区切られた言語の独自のナレッジ・ベースをロードして、スペイン語など、英語やフランス語以外の言語に対してテーマ機能を拡張できます。

D.6 多言語機能のマトリックス

次の表に、サポートされている言語の多言語機能の概要を示します。

表D-5 サポートされている言語の多言語機能

言語	代替スペル	ファジー・マッチング	言語固有レクサー	デフォルト・ストップリスト	ステミング
英語	該当なし	はい	はい	はい	はい
ドイツ語	はい	はい	はい	はい	はい
日本語	該当なし	はい	はい	いいえ	はい
フランス語	該当なし	はい	はい	はい	はい
スペイン語	該当なし	はい	はい	はい	はい
イタリア語	該当なし	はい	はい	はい	はい
オランダ語	該当なし	はい	はい	はい	はい
ポルトガル語	該当なし	はい	はい	はい	はい
韓国語	該当なし	いいえ	はい	いいえ	はい
中国語(簡体字)	該当なし	いいえ	はい	はい	はい
中国語(繁体字)	該当なし	いいえ	はい	はい	はい
デンマーク語	はい	いいえ	はい	いいえ	はい
スウェーデン語	はい	いいえ	はい	はい	はい
フィンランド語	該当なし	いいえ	はい	いいえ	はい
アラビア語	該当なし	いいえ	はい	いいえ	はい
ギリシャ語	該当なし	いいえ	はい	いいえ	はい
ノルウェー語(ブークモール)	該当なし	いいえ	はい	いいえ	はい
ポーランド語	該当なし	いいえ	はい	いいえ	はい
ロシア語	該当なし	いいえ	はい	いいえ	はい
スロベニア語	該当なし	いいえ	はい	いいえ	はい
タイ語	該当なし	いいえ	はい	いいえ	はい
カタロニア語	該当なし	いいえ	はい	いいえ	はい
クロアチア語	該当なし	いいえ	はい	いいえ	はい
ヘブライ語	該当なし	いいえ	はい	いいえ	はい
ノルウェー語(ニーノシュク)	該当なし	いいえ	はい	いいえ	はい
セルビア語	該当なし	いいえ	はい	いいえ	はい
トルコ語	該当なし	いいえ	はい	いいえ	はい
チェコ語	該当なし	いいえ	はい	いいえ	はい
ハンガリー語	該当なし	いいえ	はい	いいえ	はい
ペルシア語	該当なし	いいえ	はい	いいえ	はい
スロバキア語	該当なし	いいえ	はい	いいえ	はい