プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceデータ処理ガイド

E65369-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

言語の検出

言語検出モジュールでは、入力テキストの言語を検出できます。

言語検出モジュールでは、複数の言語が含まれている場合でも、プレーン・テキスト入力でプライマリ言語を正確に検出およびレポートできます。 入力テキストのサイズは、サンプリングされた値の80%を超える35から30,000の単語の間である必要があります。

言語検出モジュールでは、Dgraphでサポートされているすべての言語を検出できます。 モジュールは、指定されたテキスト・フィールドの内容を解析して、テキストのスコア・セットを判別します。 スコアの最も高いサポート言語がテキストの言語として報告されます。

指定したフィールドの入力テキストがサポートされている言語と一致しない場合、モジュールは言語の値として不明を出力します。 指定されたフィールドの値がNULLであるか、空白または英字以外の文字のみで構成される場合、コンポーネントは言語としてUnknownも出力します。

構成オプション

このモジュールには構成オプションがありません。両方ともデータ処理サンプリング操作の一部として実行される場合と、Studioの「変換」から実行する場合です。

出力

有効な言語が検出されると、このモジュールは、ISO 639言語コード(英語の場合は"en"、フランス語の場合は"fr"など)を持つ個別の属性を出力します。 NULLが返される場合は、次の2つの特殊なケースがあります:
  • 入力がNULLの場合、出力はNULLになります。
  • 有効な入力テキストがあっても、モジュールが言語を決定できない場合、出力はNULLになります。

出力属性の名前は<attribute>_langです。