機械翻訳について

データ・プロファイルとセマンティック推奨

データ・セットの作成後、データ・セットでは列レベルのプロファイリングを実行し、データの修正またはエンリッチに関する一連のセマンティック推奨事項を生成します。 これらの推奨事項は、プロファイル・ステップで特定のセマンティク型が自動的に検出されるシステムに基づいています。

都市名で識別される地理的なロケーション、クレジット・カード番号やEメール・アドレスなどの特定のパターン、日付などの特定のデータ型、ハイフンで連結されたフレーズなどのデータ内の繰返しパターンなど、様々なタイプのセマンティク型があります。

セマンティク型カテゴリ

プロファイリングは様々なセマンティク型に適用されます。

セマンティック・タイプのカテゴリがプロファイルされ、次のものが識別されます:

  • 市区町村名などの地理的なロケーション。
  • クレジット・カード番号またはEメール・アドレスで見つかったパターンなど。
  • ハイフンで連結された句のデータなどの繰返しパターン。

セマンティク型の推奨事項

データ・セットを修復、強化またはエンリッチするための推奨事項は、データのタイプによって決まります。

セマンティク型の推奨の例:

  • 「エンリッチメント」 - 地理的なロケーションなど、特定の検出されたタイプに対応するデータに新しい列を追加します。たとえば、都市の人口データを追加します。
  • 「列の連結」 - データ・セットで2つの列が検出された場合、1つの列が姓を含む一方で姓が含まれている場合、その名前を1つの列に連結することをお薦めします。たとえば、first_name_last_name列のようになります。
  • 「セマンティック抽出」 - 市外局番を含むus_phone番号などのサブタイプでセマンティク型が構成される場合は、市外局番を独自の列に抽出することをお薦めします。
  • 「部品抽出」 - データ内で汎用パターン・セパレータが検出されると、そのパターンの部分を抽出することが推奨されます。 たとえば、データ内で繰返しのハイフンが検出された場合は、部分を個別の列に抽出して、データの分析をより有効にすることをお薦めします。
  • 「日付の抽出」 - 日付が検出された場合、請求書または購入日から曜日を抽出するなど、データの分析を強化する可能性がある日付の部分を抽出することが推奨されます。
  • 「完全および部分的な不明瞭化/マスキング」 - クレジット・カード番号などの機密フィールドが検出された場合は、列の完全または部分的なマスキングが推奨されます。
  • 「削除」 - クレジット・カード番号などの機密フィールドが検出された場合は、機密データが公開されないように、列を削除することをお薦めします。

認識されたパターン・ベースのセマンティク型

セマンティク型は、データ内で検出されたパターンに基づいて識別されます。

これらのセマンティク型について、推奨事項が提供されます:

  • 日付(30を超える書式)
  • US社会保障番号(SSN)
  • クレジット・カード番号
  • クレジット・カード属性(CVVおよび有効期限)
  • 電子メール・アドレス
  • 北米プラン電話番号
  • 名(米国の代表的な名)
  • 姓(米国の代表的な姓)
  • 米国の住所

参照ベースのセマンティク型

セマンティク型の認識は、ロードされた参照ナレッジ(サービスを含む)によって決定されます。

参照ベースの推奨は、次のセマンティク型に対して提供されます:

  • 国名
  • 国コード
  • 都道府県名(地域)
  • 状態コード
  • 郡名(管轄区域)
  • 市区町村名(ローカライズされた名前)
  • 郵便番号

推奨されるエンリッチメント

推奨エンリッチメントは、セマンティク型に基づいています。

エンリッチメントは、地理的なロケーションの階層に基づいて決定されます:

  • 州(都道府県)
  • 管轄区域(郡)
  • Longitude
  • Latitude
  • 人口
  • 選択(従量制)
  • タイムゾーン
  • ISO国コード
  • 連邦情報処理シリーズ(FIPS)
  • 国名
  • Capital
  • 大陸
  • GeoNames ID
  • 使用されている言語
  • 電話国コード
  • 郵便番号形式
  • 郵便番号パターン
  • 電話国コード
  • 通貨名
  • 通貨の略称
  • 地理的最上位ドメイン(GeoLTD)
  • 正方形KM

必須のしきい値

プロファイリング・プロセスでは、特定のしきい値を使用して特定のセマンティク型についてディシジョンを行います。

一般的なルールとして、システムで分類を決定するには、列のデータ値の85%が単一のセマンティク型の基準を満たす必要があります。 その結果、列に70%の名と"その他"の30%が含まれ、しきい値要件を満たさないため、推奨事項は行われません。