機械翻訳について

データ・プロファイルとセマンティック推奨

データ・セットの作成後、データ・セットでは列レベルのプロファイリングを実行し、データの修正またはエンリッチに関する一連のセマンティック推奨事項を生成します。 これらの推奨事項は、プロファイル・ステップで特定のセマンティク型が自動的に検出されるシステムに基づいています。

都市名で識別される地理的なロケーション、クレジット・カード番号やEメール・アドレスなどの特定のパターン、日付などの特定のデータ型、ハイフンで連結されたフレーズなどのデータ内の繰返しパターンなど、様々なタイプのセマンティク型があります。

セマンティク型カテゴリ

プロファイリングは様々なセマンティク型に適用されます。

セマンティック・タイプのカテゴリがプロファイルされ、次のものが識別されます:

  • 市区町村名などの地理的なロケーション。
  • クレジット・カード番号またはEメール・アドレスで見つかったパターンなど。
  • ハイフンで連結された句のデータなどの繰返しパターン。

セマンティク型の推奨事項

データ・セットを修復、強化またはエンリッチするための推奨事項は、データのタイプによって決まります。

セマンティク型の推奨の例:

  • 「エンリッチメント」 - 地理的なロケーションなど、検出された特定のタイプに対応するデータへの新しい列の追加。 たとえば、都市の人口データを追加します。
  • 「列の連結」 - データ・セット内で2つの列が検出されたときに、1つ目の名前と姓を含む列がある場合は、名前を1つの列に連結することが推奨されます。 たとえば、first_name_last_name列などです。
  • 「セマンティック抽出」 - セマンティック・タイプがサブタイプ(たとえば、領域コードを含むus_phone番号)で構成されている場合は、サブタイプを独自の列に抽出することが推奨されます。
  • 「部品抽出」 - データ内で汎用パターン・セパレータが検出されると、そのパターンの部分を抽出することが推奨されます。 たとえば、データ内で繰返しのハイフンが検出された場合は、部分を個別の列に抽出して、データの分析をより有効にすることをお薦めします。
  • 「日付の抽出」 - 日付が検出されると、データの分析を増強する可能性がある日付の部分の抽出が推奨されます。 たとえば、請求書または購入日から曜日を抽出できます。
  • 「完全および部分的なObfuscation/Masking/Delete」 - クレジット・カード番号などの機密フィールドが検出されると、その列の完全または部分マスキングが推奨されるか、削除も行われます。

認識されたパターン・ベースのセマンティク型

セマンティク型は、データ内で検出されたパターンに基づいて識別されます。

これらのセマンティク型について、推奨事項が提供されます:

  • 日付(30を超える書式)
  • US社会保障番号(SSN)
  • クレジット・カード番号
  • クレジット・カード属性(CVVおよび有効期限)
  • 電子メール・アドレス
  • 北米プラン電話番号
  • 名(米国の代表的な名)
  • 姓(米国の代表的な姓)
  • 米国の住所

参照ベースのセマンティク型

セマンティク型の認識は、ロードされた参照ナレッジ(サービスを含む)によって決定されます。

参照ベースの推奨は、次のセマンティク型に対して提供されます:

  • 国名
  • 国コード
  • 都道府県名(地域)
  • 状態コード
  • 郡名(管轄区域)
  • 市区町村名(ローカライズされた名前)
  • 郵便番号

推奨されるエンリッチメント

推奨エンリッチメントは、セマンティク型に基づいています。

エンリッチメントは、地理的なロケーションの階層に基づいて決定されます:

  • 州(都道府県)
  • 管轄区域(郡)
  • Longitude
  • 緯度
  • 人口
  • 選択(従量制)
  • タイムゾーン
  • ISO国コード
  • 連邦情報処理シリーズ(FIPS)
  • 国名
  • Capital
  • 大陸
  • GeoNames ID
  • 使用されている言語
  • 電話国コード
  • 郵便番号形式
  • 郵便番号パターン
  • 電話国コード
  • 通貨名
  • 通貨の略称
  • 地理的最上位ドメイン(GeoLTD)
  • 正方形KM

必須のしきい値

プロファイリング・プロセスでは、特定のしきい値を使用して特定のセマンティク型についてディシジョンを行います。

一般的なルールとして、システムで分類を決定するには、列のデータ値の85%が単一のセマンティク型の基準を満たす必要があります。 その結果、列に70%の名と"その他"の30%が含まれ、しきい値要件を満たさないため、推奨事項は行われません。