データ・プロファイルおよびセマンティク推奨
セマンティク・タイプのカテゴリ
市区町村名などの地理的な位置。 クレジット・カード番号や電子メール・アドレスで見つかるようなパターン。 ハイフン付きフレーズ・データなどの繰返しパターン。
セマンティク・タイプの推奨
エンリッチメント - 地理的な位置などの特定の検出済タイプに対応するデータに新規列を追加することです。 たとえば、市区町村の人口データの追加などです。 列の連結 - データセットに2つの列が検出され、1つが名を含む列、もう1つが姓を含む列である場合、名前を単一列に連結することが推奨されます。 たとえば、first_name_last_name列のようにします。 セマンティック抽出 - セマンティック・タイプが市外局番を含むus_phone番号などのサブタイプで構成されている場合、サブタイプをそれ自体の列に抽出することが推奨されます。 部分抽出 - データ内で一般的なパターン・セパレータを検出した場合、そのパターンの一部を抽出することを推奨します。 たとえば、データ内で繰返しのハイフネーションを検出した場合、データがより分析に役立つように、その部分を別々の列に抽出することを推奨します。 データ抽出 - 日付が検出された場合、日付の一部を抽出することが推奨されます。これによってデータの分析が拡張される可能性があります。 たとえば、請求日または購入日から曜日を抽出できます。 全体および一部の難読化/マスキング/削除 - クレジット・カード番号などの機密フィールドが検出された場合、列の全体または一部のマスキング、あるいは削除も推奨されます。
認識されるパターン・ベースのセマンティク・タイプ
日付(30を超える書式) 米国社会保障番号(SSN) クレジット・カード番号 クレジット・カード属性(CVVおよび有効期限) 電子メール・アドレス 北米計画電話番号 米国住所
参照ベースのセマンティク・タイプ
国名 国コード 都道府県名 都道府県コード 郡名(管轄) 市区町村名(ローカライズされた名前) 郵便番号
推奨エンリッチメント
国 都道府県 管轄(群) 経度 緯度 人口 標高(メートル) タイムゾーン ISO国コード 米国連邦情報処理標準(FIPS) 国名 首都 大陸 GeoName ID 使用言語 電話国コード 郵便番号形式 郵便番号パターン 電話国コード 通貨名 通貨略称 地理的トップ・レベル・ドメイン(GeoLTD) 平方KM