データ・プロファイルおよびセマンティク推奨

データ・セットの作成後、データ・セットに対して列レベルのプロファイリングが行われ、データを修復またはエンリッチするための一連のセマンティック推奨が生成されます。これらの推奨は、プロファイル・ステップで特定のセマンティク・タイプを自動的に検出するシステムに基づきます。

セマンティック・タイプには、市区町村名で識別される地理的な位置、クレジット・カード番号または電子メールなどの特定のパターン、日付などの特定のデータ型またはハイフン付きフレーズなどのデータ内の繰返しパターンといった様々なカテゴリがあります。

トピック:

セマンティク・タイプのカテゴリ

プロファイリングは様々なセマンティク・タイプに適用されます。

セマンティク・タイプのカテゴリは、次のことを識別するためにプロファイリングされます。

市区町村名などの地理的な位置。
クレジット・カード番号や電子メール・アドレスで見つかるようなパターン。
ハイフン付きフレーズ・データなどの繰返しパターン。

セマンティク・タイプの推奨

データ・セットの修正、拡張またはエンリッチの推奨事項は、データのタイプによって異なります。

セマンティク・タイプの推奨の例を次に示します。

エンリッチメント - 地理的な位置などの特定の検出済タイプに対応するデータに新規列を追加することです。たとえば、市区町村の人口データの追加などです。
列の連結 - データ・セットに2つの列が検出され、1つが名を含む列、もう1つが姓を含む列である場合、名前を単一列に連結することが推奨されます。たとえば、first_name_last_name列のようにします。
セマンティック抽出 - セマンティック・タイプが市外局番を含むus_phone番号などのサブタイプで構成されている場合、サブタイプをそれ自体の列に抽出することが推奨されます。
部分抽出: データ内で一般的なパターン・セパレータを検出した場合、そのパターンの一部を抽出することを推奨します。たとえば、データ内で繰返しのハイフネーションを検出した場合、データがより分析に役立つように、その部分を別々の列に抽出することを推奨します。
データ抽出 - 日付が検出された場合、日付の一部を抽出することが推奨されます。これによってデータの分析が拡張される可能性があります。たとえば、請求日または購入日から曜日を抽出できます。
全体および一部の難読化/マスキング/削除 - クレジット・カード番号などの機密フィールドが検出された場合、列の全体または一部のマスキング、あるいは削除も推奨されます。

認識されるパターン・ベースのセマンティク・タイプ

セマンティク・タイプは、データ内で見つかったパターンに基づいて識別されます。

次のセマンティク・タイプについて推奨が提供されています。

日付(30を超える書式)
米国社会保障番号(SSN)
クレジット・カード番号
クレジット・カード属性(CVVおよび有効期限)
電子メール・アドレス
北米計画電話番号
名(米国で一般的な名前)
姓(米国で一般的な名字)
米国住所

参照ベースのセマンティク・タイプ

セマンティック・タイプの認識は、サービスに付属して提供されるロード済の参照ナレッジによって決まります。

次のセマンティク・タイプについては参照ベースの推奨が提供されています。

国名
国コード
都道府県名
都道府県コード
郡名(管轄)
市区町村名(ローカライズされた名前)
郵便番号

推奨エンリッチメント

推奨エンリッチメントは、セマンティク・タイプに基づいています。

エンリッチメントは、地理的位置の階層に基づいて決定されます。

国
都道府県
管轄(群)
経度
緯度
人口
標高(メートル)
タイムゾーン
ISO国コード
米国連邦情報処理標準(FIPS)
国名
首都
大陸
GeoName ID
使用言語
電話国コード
郵便番号形式
郵便番号パターン
電話国コード
通貨名
通貨略称
地理的トップ・レベル・ドメイン(GeoLTD)
平方KM

必須しきい値

プロファイリング・プロセスでは、特定のしきい値を使用して特定のセマンティク・タイプに関する決定を行います。

通常、システムにおいて分類が決定されるには、列内のデータ値の85%が単一セマンティック・タイプの基準を満たしている必要があります。そのため、70%が名、30%がその他のデータである列はしきい値要件を満たさないため、推奨事項が提示されません。