言語検出モジュールでは、入力テキストの言語を検出できます。
言語検出モジュールでは、複数の言語が含まれている場合でも、プレーン・テキスト入力でプライマリ言語を正確に検出およびレポートできます。 入力テキストのサイズは、サンプリングされた値の80%を超える35から30,000の単語の間である必要があります。
言語検出モジュールでは、Dgraphでサポートされているすべての言語を検出できます。 モジュールは、指定されたテキスト・フィールドの内容を解析して、テキストのスコア・セットを判別します。 スコアの最も高いサポート言語がテキストの言語として報告されます。
指定したフィールドの入力テキストがサポートされている言語と一致しない場合、モジュールは言語の値として不明を出力します。 指定されたフィールドの値がNULLであるか、空白または英字以外の文字のみで構成される場合、コンポーネントは言語としてUnknownも出力します。
構成オプション
このモジュールには構成オプションがありません。両方ともデータ処理サンプリング操作の一部として実行される場合と、Studioの「変換」から実行する場合です。
出力
出力属性の名前は<attribute>_lang
です。