データ・プロファイルおよびセマンティク推奨
データセットを作成する際、Oracle Analyticsでは、列レベルのプロファイリングが実行され、データを修復またはエンリッチするためのセマンティック推奨セットが生成されます。ワークブックの作成時、データ・パネルからナレッジ・エンリッチメントを追加することで、これをビジュアライゼーションに含めることもできます。
これらの推奨は、プロファイル・ステップで特定のセマンティク・タイプを自動的に検出するシステムに基づきます。たとえば、ローカル・サブジェクト領域をベースとするデータセットは、シンプルな上位Nサンプルを使用してプロファイリングされます。
セマンティック・タイプには、市区町村名で識別される地理的な位置、クレジット・カード、電子メール・アドレスおよび社会保障番号などにあるような認識可能なパターン、日付、および繰返しパターンなどのカテゴリがあります。独自のカスタム・セマンティック・タイプを作成することもできます。
セマンティク・タイプのカテゴリ
プロファイリングは様々なセマンティク・タイプに適用されます。
セマンティク・タイプのカテゴリは、次のことを識別するためにプロファイリングされます。
- 市区町村名などの地理的な位置。
- クレジット・カード番号や電子メール・アドレスで見つかるようなパターン。
- ハイフン付きフレーズ・データなどの繰返しパターン。
セマンティク・タイプの推奨
データセットの修正、拡張またはエンリッチの推奨事項は、データのタイプによって異なります。
セマンティク・タイプの推奨の例を次に示します。
- エンリッチメント - 地理的な位置などの特定の検出済タイプに対応するデータに新規列を追加することです。たとえば、市区町村の人口データの追加などです。
- 列の連結 - データセットに2つの列が検出され、1つが名を含む列、もう1つが姓を含む列である場合、名前を単一列に連結することが推奨されます。たとえば、first_name_last_name列のようにします。
- セマンティック抽出 - セマンティック・タイプが市外局番を含むus_phone番号などのサブタイプで構成されている場合、サブタイプをそれ自体の列に抽出することが推奨されます。
- 部分抽出 - データ内で一般的なパターン・セパレータを検出した場合、そのパターンの一部を抽出することを推奨します。たとえば、データ内で繰返しのハイフネーションを検出した場合、データがより分析に役立つように、その部分を別々の列に抽出することを推奨します。
- データ抽出 - 日付が検出された場合、日付の一部を抽出することが推奨されます。これによってデータの分析が拡張される可能性があります。たとえば、請求日または購入日から曜日を抽出できます。
- 全体および一部の難読化/マスキング/削除 - クレジット・カード番号などの機密フィールドが検出された場合、列の全体または一部のマスキング、あるいは削除も推奨されます。
認識されるパターン・ベースのセマンティク・タイプ
セマンティック・タイプは、データで検出されたパターンに基づいて識別されます。
次のセマンティク・タイプについて推奨が提供されています。
- 日付(30を超える書式)
- 米国社会保障番号(SSN)
- クレジット・カード番号
- クレジット・カード属性(CVVおよび有効期限)
- 電子メール・アドレス
- 北米計画電話番号
- 米国住所
参照ベースのセマンティク・タイプ
セマンティック・タイプの認識は、サービスに付属して提供されるロード済の参照ナレッジによって決まります。
次のセマンティク・タイプについては参照ベースの推奨が提供されています。
- 国名
- 国コード
- 都道府県名
- 都道府県コード
- 郡名(管轄)
- 市区町村名(ローカライズされた名前)
- 郵便番号
推奨エンリッチメント
推奨エンリッチメントは、セマンティク・タイプに基づいています。
エンリッチメントは、地理的位置の階層に基づいて決定されます。
- 国
- 都道府県
- 管轄(群)
- 経度
- 緯度
- 人口
- 標高(メートル)
- タイムゾーン
- ISO国コード
- 米国連邦情報処理標準(FIPS)
- 国名
- 首都
- 大陸
- GeoName ID
- 使用言語
- 電話国コード
- 郵便番号形式
- 郵便番号パターン
- 電話国コード
- 通貨名
- 通貨略称
- 地理的トップ・レベル・ドメイン(GeoLTD)
- 平方KM
必須しきい値
プロファイリング・プロセスでは、固有のしきい値を使用して特定のセマンティック・タイプに関する決定を行います。
通常、システムにおいて分類が決定されるには、列内のデータ値の85%が単一セマンティック・タイプの基準を満たしている必要があります。そのため、70%が名、30%がその他のデータである列はしきい値要件を満たさないため、推奨事項が提示されません。