プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceデータ処理ガイド

E65369-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

音声ハッシュ

音声ハッシュ・モジュールは、入力文字列のハッシュ値を含む文字列属性を返します。

発音ハッシュという単語は、スペルではなく、その発音に基づいています。 このモジュールは、小さなテキスト・ブロック(名前など)を、12個子音を組み合せた綴りの独立したハッシュに変換する表音コーディング・アルゴリズムを使用します。 そのため、類似する音の単語も同じハッシュを持つ傾向があります。 たとえば、紫とスペル・ミスのあるprupleという用語は、同じハッシュ値(PRPL)を持ちます。

たとえば、カナのハッシングを使用して、データ列がノイ(人の氏名のスペル・ミスなど)にあるデータ・セットを正規化できます。

このモジュールは、空白言語でのみ機能します。

構成オプション

このモジュールは、データ処理のサンプリング操作中には自動的に実行されないため、構成オプションはありません。

Studioでは、「変換」内でモジュールを実行できますが、入力文字列以外の引数は取得できません。

出力

このモジュールは、<attribute>_phonetic_hashという名前の単一割当てDgraph属性で用語の音声ハッシュを返します。 属性の値は、グループ化条件としてのみ有用です。