言語検出

言語検出モジュールは、入力テキストの言語を検出できます。

言語検出モジュールは、プレーン・テキスト入力に複数の言語が含まれる場合でも、この入力内の主な言語を正確に検出してレポートできます。入力テキストのサイズは、35から30,000個のトークンである必要があります。

言語検出モジュールは、Dgraphでサポートされているすべての言語を検出できます。このモジュールは、特定のテキスト・フィールドのコンテンツを解析し、このテキストの一連のスコアを決定します。サポートされている言語のうちスコアが最も高いものがテキストの言語として報告されます。

指定したフィールドの入力テキストがサポートされている言語と一致しない場合は、言語値として"Unknown"が出力されます。指定したフィールドの値がnullであるか、空白文字またはアルファベット以外の文字のみで構成されている場合も、言語として"Unknown"が出力されます。

構成可能性

Studioから実行されるデータ処理サンプリング操作や変換操作用の構成オプションはありません。

出力

有効な言語が検出された場合、このモジュールは、ISO 639言語コード(英語を表す"en"や、フランス語を表す"fr"など)が使用された個別属性を出力します。Nullが返される特別な事例が2つ存在します。
  • 入力がNullである場合、出力はNullです。
  • 有効な入力テキストは存在するが、モジュールが言語を決定できない場合、出力はNullです。

出力属性の名前は<colname>_langです。