音声ハッシュ

音声ハッシュ・モジュールは、入力文字列のハッシュ値が含まれる文字列属性を返します。

語句の音声ハッシュは、スペルではなく発音に基づいています。このモジュールは、小さいテキスト・ブロック(名前など)を、12個の子音の組合せで構成されたスペルに依存しないハッシュに変換する音声コーディング・アルゴリズムを使用しています。このため、音が似た語句は同じハッシュを持つ傾向があります。たとえば、"purple"という語句とそのミススペルの一種である"pruple"は同じハッシュ値(PRPL)を持ちます。

たとえば、音声ハッシュを使用すると、データ列にノイズ(人物名のミススペルなど)があるデータ・セットを正規化できます。

このモジュールは、ホワイトスペース言語でのみ機能します。

構成可能性

このモジュールはデータ処理サンプリング操作中は実行されないため、このような操作用の構成オプションはありません。

Studioでは、このモジュールは「変換」ページで実行できますが、入力文字列以外の引数はとりません。

出力

このモジュールは、<colname>_phonetic_hashと呼ばれる単一割当出力属性で語句の音声ハッシュを返します。この属性の値は、グループ化条件としてのみ役に立ちます。