Language Detectorコンポーネントを使用して、長いテキスト文字列の言語を自動的に検出します。
Language Detectorコンポーネントでは、Oracle Language Technology (OLT)を使用して、入力文字列を評価し、文字列の言語を判断します。このコンポーネントでは、Endeca Serverでサポートされている次の言語を検出できます。サポートされている言語の詳細は、Oracle Endeca Server開発者ガイドのサポートされている言語に関する説明を参照してください。
文字列が評価される場合、テキスト内の言語情報に基づいてスコアが付けられます。最も高いスコアが付けられた言語がテキストの言語であると判断され、その言語の名前がコンポーネントによって出力されます。テキストがOLTでサポートされている言語であると判断されなかった場合は、コンポーネントによって「unknown language」と出力されます。入力文字列がアルファベット以外の文字で構成されている場合、コンポーネントによって「non-language characters」と出力されます。文字列処理時にエラーが発生すると、コンポーネントによって「error」と出力されます。
Text Enrichmentコンポーネントのメタデータ・スキーマは修正されません。
次の表は、Language Detectorコンポーネントで使用可能な構成プロパティを示しています。
名前 | 説明 | 有効な値 | 例 |
---|---|---|---|
入力フィールド | 言語を判断するためにテキストを評価する入力ソース・レコード内のソース・フィールドの名前 | フィールド名 | survey_responses |
出力言語フィールド | 検出された言語の名前の出力先となるフィールドの名前。
出力メタデータにはこのフィールドが含まれている必要があります。 |
String | Language |
レコード・キー | レコードのキー。エラーの記録に使用されます。nullを指定できます。 | ||
スレッド | 言語処理に使用するスレッドの数。
デフォルトは8です。 様々な要素が処理パフォーマンスに影響します。システムで最適な結果を得るために、このプロパティの値を調整する必要がある場合があります。 |
整数 | 8 |