言語の検出

言語検出モジュールでは、入力テキストの言語を検出できます。

言語検出モジュールでは、複数の言語が含まれている場合でも、プレーン・テキスト入力でプライマリ言語を正確に検出およびレポートできます。入力テキストのサイズは、サンプリングされた値の80%を超える35から30,000の単語の間である必要があります。

言語検出モジュールでは、Dgraphでサポートされているすべての言語を検出できます。モジュールは、指定されたテキスト・フィールドの内容を解析して、テキストのスコア・セットを判別します。スコアの最も高いサポート言語がテキストの言語として報告されます。

指定したフィールドの入力テキストがサポートされている言語と一致しない場合、モジュールは言語の値として不明を出力します。指定されたフィールドの値がNULLであるか、空白または英字以外の文字のみで構成される場合、コンポーネントは言語としてUnknownも出力します。

構成オプション

このモジュールには構成オプションがありません。両方ともデータ処理サンプリング操作の一部として実行される場合と、Studioの「変換」から実行する場合です。

出力

有効な言語が検出されると、このモジュールは、ISO 639言語コード(英語の場合は"en"、フランス語の場合は"fr"など)を持つ個別の属性を出力します。 NULLが返される場合は、次の2つの特殊なケースがあります:

出力属性の名前は<attribute>_langです。