ヘッダーをスキップ
Oracle Textリファレンス
11g リリース1(11.1)
E05789-02
  目次
目次
索引
索引

戻る
戻る
次へ
次へ
 

D Oracle Textの多言語機能

この付録では、Oracle Textの多言語機能について説明します。この章の内容は次のとおりです。

D.1 概要

この付録では、Oracle Textの主要な多言語機能の概要を説明します。

Oracleのグローバリゼーション・サポート言語およびキャラクタ・セット・サポートの完全なリストは、『Oracle Databaseグローバリゼーション・サポート・ガイド』を参照してください。

D.2 索引付け

次の各項目で、多言語索引付け機能について説明します。

D.2.1 Oracle Textの索引タイプの多言語機能

次の各項目で、Oracle Textの索引タイプでサポートされている多言語機能について説明します。


関連項目:


使用可能なレクサーについては、「レクサー型」を参照してください。

D.2.1.1 CONTEXT索引タイプ

CONTEXT索引タイプは、言語およびキャラクタ・セット列の使用を含めて、多言語機能を完全にサポートしています。次のレクサーをサポートしています。

  • AUTO_LEXER

  • MULTI_LEXER

  • USER_LEXER

  • WORLD_LEXER

CONTEXTでは、中国語、日本語および韓国語の次のレクサーもサポートしています。

  • CHINESE_LEXER

  • CHINESE_VGRAM_LEXER

  • JAPANESE_LEXER

  • JAPANESE_VGRAM_LEXER

  • KOREAN_MORPH_LEXER

D.2.1.2 CTXCAT索引タイプ

CTXCATは、テーマの索引付けを除いたBASIC_LEXERの多言語機能をサポートしており、次の追加レクサーをサポートしています。

  • AUTO_LEXER

  • USER_LEXER

  • WORLD_LEXER

また、CTXCATは次のレクサーもサポートしています。

  • CHINESE_LEXER

  • CHINESE_VGRAM_LEXER

  • JAPANESE_LEXER

  • JAPANESE_VGRAM_LEXER

  • KOREAN_MORPH_LEXER

D.2.1.3 CTXRULE索引タイプ

CTXRULE索引タイプは、ABOUTおよびSTEM演算子を含め、BASIC_LEXERの多言語機能をサポートしています。また、日本語、中国語および韓国語をサポートしています(SVM_CLASSIFIERを使用)。

D.2.2 レクサー型

Oracle Textでは、索引付け処理時にレクサーを選択可能にすることにより、異なる言語の索引付けをサポートしています。採用したレクサーにより、索引付けできる言語が決定します。表D-1は、サポートされているレクサーを示しています。

表D-1 Oracle Textのレクサー型

レクサー サポート対象言語

AUTO_LEXER

異なる複数言語のドキュメントを含む列の索引付けに使用するレクサー。

BASIC_LEXER

空白のデリミタ付きワードを使用する英語およびほとんどの西ヨーロッパ言語。

MULTI_LEXER

英語、ドイツ語および日本語など、異なる複数言語のドキュメントを含む表の索引付けに使用するレクサー。

CHINESE_VGRAM

中国語テキストからのトークンの抽出に使用するレクサー。

CHINESE_LEXER

中国語テキストからのトークンの抽出に使用するレクサー。このレクサーは、CHINESE_VGRAMと比較して次の利点があります。

  • 小型の索引の生成

  • 問合せ応答時間の短縮

  • 実ワード・トークンの生成による問合せ精度の向上

  • ストップワードのサポート

JAPANESE_VGRAM

日本語テキストからのトークンの抽出に使用するレクサー。

JAPANESE_LEXER

日本語テキストからのトークンの抽出に使用するレクサー。このレクサーは、JAPANESE_VGRAMレクサーと比較して次の利点があります。

  • 小型の索引の生成

  • 問合せ応答時間の短縮

  • 実ワード・トークンの生成による精度の向上

KOREAN_MORPH_LEXER

韓国語テキストからのトークンの抽出に使用するレクサー。

USER_LEXER

特定言語を索引付けするために作成するレクサー。

WORLD_LEXER

異なる複数言語のドキュメントを含む表の索引付けに使用する、ドキュメントの言語を自動検出するレクサー。


D.2.3 自動レクサー機能

AUTO_LEXERは、ドキュメント言語を自動的に識別し、言語の識別、ワードのセグメンテーションおよびステミングを実行します。 AUTO_LEXERでは、これらのコンポーネントのカスタマイズも可能です。


関連項目:


「AUTO_LEXER」

D.2.4 基本レクサー機能

次の機能は、BASIC_LEXERのプリファレンスでサポートされています。これらの機能は、BASIC_LEXERの属性で有効にします。検索結果の精度を上げるために、代替スペル、コンポジットおよび基本文字などの機能を同時に有効にできます。

D.2.4.1 テーマの索引付け

CONTEXT索引タイプを持つABOUT演算子が含まれるドキュメントの概念に索引付けを行い、その後の問合せを可能にします。これらの概念は、Oracle Textのナレッジ・ベースから導出されます。この機能は、英語とフランス語でサポートされています。

この機能は、CTXCAT索引タイプではサポートされていません。

D.2.4.2 代替スペル

この機能により、ワードを代替スペルで検索できます。 たとえば、ドイツ語で代替スペルを有効にすると、grossを検索した場合、großおよびgrossが含まれているドキュメントが戻されます。

この機能は、ドイツ語、デンマーク語およびスウェーデン語でサポートされています。

さらに、ドイツ語は、従来のスペルと改良された(新規の)スペルの両方の規則に基づいて索引付けできます。

D.2.4.3 基本文字変換

この機能により、ティルデ、アクセントおよびウムラウトなどの発音区別記号が含まれているワードおよび含まれていないワードの両方を問い合せることができます。 たとえば、スペイン語の基本文字索引を使用すると、energiaを検索した場合、energíaおよびenergiaの両方が含まれているドキュメントが検索されます。

この機能は、英語およびサポートされているその他すべての空白のデリミタ付き言語でサポートされています。英語およびフランス語では、基本レクサーを使用してテーマの索引付けを使用可能にできます。

D.2.4.4 コンポジット

この機能により、指定した語句が複合語の要素として含まれているワードを検索できます。STEM($)演算子を使用する必要があります。この機能は、ドイツ語とオランダ語でサポートされています。

たとえば、ドイツ語で$registerを検索した場合、BruttoregistertonneおよびRegistertonneが含まれているドキュメントが検索されます。

D.2.4.5 索引の語幹

この機能により、語幹索引付けのステマーを指定できます。索引付け時に、トークンが通常の形式に加えて、単一の基本形にステミングされます。語幹索引付けを指定することによって、ステミング問合せ(例: $computed)の問合せパフォーマンスが向上します。

この機能は、英語、オランダ語、フランス語、ドイツ語、イタリア語およびスペイン語でサポートされています。

D.2.5 マルチレクサー機能

MULTI_LEXERレクサーは、異なる複数の言語のドキュメントを含む列の索引付けを可能にします。索引付け時に、Oracle Textは言語列を調べ、言語固有のレクサーに切り替えた後、ドキュメントを処理します。索引付けを実行する前に、各言語のレクサー・プリファレンスを定義します。

マルチレクサーを使用すると、言語ごとに異なるプリファレンスを設定できます。たとえば、ドイツ語のドキュメントではcompositeTRUEに設定し、オランダ語のドキュメントではcompositeFALSEに設定できます。

D.2.6 Worldレクサー機能

MULTI_LEXERと同様に、WORLD_LEXERレクサーも、異なる言語が含まれているドキュメントの索引付けを可能にします。ドキュメント内の言語を自動的に検出するため、元表に言語列を作成する必要がありません。

WORLD_LEXERは、すべてのデータベース・キャラクタ・セットをサポートしており、Unicode 5.0標準をサポートしています。複数言語を使用するドキュメントでWORLD_LEXERを有効に活用するには、AL32UTF-8またはUTF8 Oracleキャラクタ・セット・エンコーディングを指定する必要があります。これには、補完、またはサロゲート・ペア文字も含まれます。

表D-2および表D-3に、WORLD_LEXERでサポートされている言語を示します。このリストは、Unicode標準の変更にあわせて変更される可能性があり、完全なリストではありません(言語は、自然言語グループではなく、Unicodeの表記システムによってグループ化されています)。

表D-2 Worldレクサーでサポートされている言語(空白で区切られる言語)

言語グループ 含まれる言語

アラビア語

アラビア語、ファルシ語、クルド語、パシュトー語、シンド語、ウルドゥー語

アルメニア語

アルメニア語

ベンガル語

アッサム語、ベンガル語

Bopomofo

客家(ハッカ)語、ビンナン語

キリル語

ベラルーシ語、ブルガリア語、マケドニア語、モルダビア語、ロシア語、セルビア語、セルビア・クロアチア語、ウクライナ語を含む50以上の言語

デーヴァナーガリー文字

ボジュプリー語、ビハール語、ヒンディー語、カシミール語、マラーティー語、ネパール語、パーリ語、サンスクリット語

エチオピア語

アムハラ語、ゲーズ語、ティグリニャ語、ティグレ語

グルジア語

グルジア語

ギリシャ語

ギリシャ語

グジャラート語

グジャラート語、カッチ語

グルムキー語

パンジャブ語

ヘブライ語

ヘブライ語、ラディノ語、イディッシュ語

カガンガ文字

レジャン語

カンナダ語

カナラ語、カンナダ語

韓国語

韓国語、ハンジャ・ハングル語

ラテン語

アフリカーンス語、アルバニア語、バスク語、ブルトン語、カタロニア語、クロアチア語、チェコ語、デンマーク語、オランダ語、英語、エスペラント語、エストニア語、フェロー語、フィジー語、フィンランド語、フラマン語、フランス語、フリジア語、ドイツ語、ハワイ語、ハンガリー語、アイスランド語、インドネシア語、アイルランド語、イタリア語、ラップ語、古典ラテン語、ラトビア語、リトアニア語、マレー語、マルタ語、中国標準語(ピンイン表記)、マオリ語、ノルウェー語、ポーランド語、ポルトガル語、プロヴァンス語、ルーマニア語、サモア語、ゲール語(スコットランド)、スロバキア語、スロベニア語、ソルビア語、スペイン語、スワヒリ語、スウェーデン語、タガログ語、トルコ語、ベトナム語、ウェールズ語

マラヤーラム語

マラヤーラム語

モンゴル語

モンゴル語

オリヤー語

オリヤー語

シンハラ語

パーリ語、シンハラ語

シリア語

アラム語、シリア語

タミル語

タミル語

テルグ語

テルグ語

ターナ文字

ディベヒ語、モルディブ語


表D-3 Worldレクサーでサポートされている言語(空白で区切られない言語)

言語グループ 含まれる言語

中国語

広東語、中国標準語、ピンイン表音文字

日本語

日本語(ひらがな、漢字、カタカナ)

クメール語

カンボジア語、クメール語

ラオ語

ラオ語

ミャンマー語

ビルマ語

タイ語

タイ語

チベット語

ゾンカ語、チベット語


表D-4に、Worldレクサーでサポートされていない言語を示します。

表D-4 Worldレクサーでサポートされていない言語

言語グループ 含まれる言語

ブヒッド語

ブヒッド語

カナダ音節文字

ブラックフット語、カリエール語、クリー語、ダケール語、イヌイット語、イヌクティトゥト語、ナスカピ語、ヌナヴィク語、ヌナブト語、オジブウェー語、サリッシュ語、スレーベイ語

チェロキー語

チェロキー語

キプロス方言

キプロス方言

リンブ語

リンブ語

オガム文字

オガム文字

ルーン語

ルーン語

タイ・ルー語

タイ・ルー語

ウガリット語

ウガリット語

イ語

イ語

易経の六線星形

易経


D.3 問合せ

Oracle Textでは、様々な問合せ演算子の使用をサポートしています。一部の演算子は、ご使用の言語にあわせて動作するよう設定できます。この項では、これらの演算子の多言語問合せ機能の概要を説明します。

D.3.1 ABOUT演算子

ABOUT演算子を使用して概念を問い合せます。システムは、索引のテーマ・コンポーネントの概念情報を検索します。

この機能は、CONTEXT索引を持つ英語とフランス語でサポートされています。

D.3.2 FUZZY演算子

この演算子を使用すると、指定したワードと類似したスペルを持つワードを検索できます。Oracle Textでは、英語、フランス語、ドイツ語、イタリア語、オランダ語、スペイン語、ポルトガル語、日本語、光学式文字認識(OCR)および自動言語識別について、FUZZYをサポートしています。

D.3.3 STEM演算子

この演算子を使用して、指定した語句と同じ語根を持つ語を検索できます。たとえば、$singというステムは、sang、sung、singという語の問合せに拡張されます。Oracle Textのステマーは、英語、フランス語、スペイン語、イタリア語、ドイツ語、日本語およびオランダ語をサポートしています。

D.4 提供されるストップリスト

ストップリストは、索引付けされないワードのリストです。これらは通常、たとえば英語におけるthisthatおよびcanなどのような、一般的な語です。

Oracle Textでは、英語、中国語(繁体字および簡体字)、デンマーク語、オランダ語、フィンランド語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語およびスウェーデン語に対して、デフォルトのストップリストが提供されています。付録E「Oracle Textで提供されるストップリスト」に、様々な言語のストップリストを掲載しています。

D.5 ナレッジ・ベース

Oracle Textのナレッジ・ベースは、索引付け、ABOUT問合せ、およびドキュメント・サービスの導出テーマに使用される概念の階層ツリーです。

Oracle Textで提供されているナレッジ・ベースは、英語とフランス語のみです。

D.5.1 ナレッジ・ベースの拡張

シングルバイトの空白で区切られた言語の独自のナレッジ・ベースをロードして、スペイン語など、英語やフランス語以外の言語に対してテーマ機能を拡張します。

D.6 多言語機能のマトリックス

次の表に、サポートされている言語の多言語機能の概要を示します。「自動識別」列は、その言語がAUTO_LEXERで自動的に識別可能かどうかを示しています。

表D-5 サポートされている言語の多言語機能

言語 自動識別 代替スペル ファジー・マッチング 言語固有レクサー デフォルト・ストップリスト ステミング

英語

はい

該当なし

はい

はい

はい

はい

ドイツ語

はい

はい

はい

はい

はい

はい

日本語

はい

該当なし

はい

はい

いいえ

はい

フランス語

はい

該当なし

はい

はい

はい

はい

スペイン語

はい

該当なし

はい

はい

はい

はい

イタリア語

はい

該当なし

はい

はい

はい

はい

オランダ語

はい

該当なし

はい

はい

はい

はい

ポルトガル語

はい

該当なし

はい

はい

はい

はい

韓国語

はい

該当なし

いいえ

はい

いいえ

はい

中国語(簡体字)

はい

該当なし

いいえ

はい

はい

はい

中国語(繁体字)

はい

該当なし

いいえ

はい

はい

はい

デンマーク語

はい

はい

いいえ

はい

いいえ

はい

スウェーデン語

はい

はい

いいえ

はい

はい

はい

フィンランド語

はい

該当なし

いいえ

はい

いいえ

はい

アラビア語

はい

該当なし

いいえ

はい

いいえ

はい

ギリシャ語

はい

該当なし

いいえ

はい

いいえ

はい

ノルウェー語(ブークモール)

はい

該当なし

いいえ

はい

いいえ

はい

ポーランド語

はい

該当なし

いいえ

はい

いいえ

はい

ロシア語

はい

該当なし

いいえ

はい

いいえ

はい

スロベニア語

はい

該当なし

いいえ

はい

いいえ

はい

タイ語

はい

該当なし

いいえ

はい

いいえ

はい

カタロニア語

はい

該当なし

いいえ

はい

いいえ

はい

クロアチア語

はい

該当なし

いいえ

はい

いいえ

はい

ヘブライ語

はい

該当なし

いいえ

はい

いいえ

はい

ノルウェー語(ニーノシュク)

はい

該当なし

いいえ

はい

いいえ

はい

セルビア語

はい

該当なし

いいえ

はい

いいえ

はい

トルコ語

はい

該当なし

いいえ

はい

いいえ

はい

チェコ語

はい

該当なし

いいえ

はい

いいえ

はい

ハンガリー語

はい

該当なし

いいえ

はい

いいえ

はい

ペルシア語

はい

該当なし

いいえ

はい

いいえ

はい

スロバキア語

はい

該当なし

いいえ

はい

いいえ

はい