テキストの言語の検出

Integrator ETLには、入力テキストの言語を自動的に検出するための機能が用意されています。

Language Detectorを使用すると、入力レコードのテキスト・フィールドを評価して、レコードの言語が判別されます。

Language Detectorで入力テキストの評価と言語の判別を行う際には、Oracle Language Technology (OLT)が使用されます。Language Detectorでは、Endeca Serverでサポートされているすべての言語を検出できます。詳細は、Oracle Endeca Server開発者ガイドのサポートされている言語に関する説明を参照してください。

各レコードの指定テキスト・フィールドの内容がOLTに渡され、評価されます。Language Detectorを使用するには、OLTをインストールする必要があります。Language Detector用のOLTのインストールの詳細は、『Oracle Endeca Information Discovery Integrator ETLインストレーション・ガイド』のOracle Language Technology (OLT)のインストールに関する説明を参照してください。OLTによりテキストの一連のスコアが評価および判別されます。サポートされている言語のうちスコアが最も高いものがテキストの言語として報告されます。コンポーネントの構成で指定した名前のフィールドに、該当する言語の言語コードが出力されます。

指定したフィールドの入力テキストがコンポーネントでサポートされている言語と一致しない場合は、「unknown」と出力されます。指定したフィールドの値がnullであるか、空白文字またはアルファベット以外の文字のみで構成されている場合は、「non language characters」と出力されます。

評価できるフィールドは、Language Detectorコンポーネントのインスタンスごとに1つのみです。複数のフィールドを評価する場合は、評価する言語のフィールドごとにLanguage Detectorコンポーネントのインスタンスを1つずつ追加する必要があります。