データ・プロファイルとセマンティック推奨
データセットを作成する際、Oracle Analyticsでは、列レベルのプロファイリングが実行され、データを修復またはエンリッチするためのセマンティック推奨セットが生成されます。 ワークブックの作成時、データ・パネルからナレッジ・エンリッチメントを追加することで、これをビジュアライゼーションに含めることもできます。
ノート:
ナレッジ・エンリッチメントは、通常デフォルトで有効化されていますが、ワークブック・エディタは、所有しているか編集権限のあるデータセットに関してはこれを有効化または無効化できます。 Oracle Analyticsは、データ・フローから生成されたデータセットに対してエンリッチメント推奨を自動的に提供しません。 この場合、データセットの所有者または管理者は、最初にデータセットのナレッジ・エンリッチメント・オプションを有効にする必要があります。 「データセットのナレッジ・エンリッチメントの有効化」を参照してください。これらの推奨事項は、プロファイル・ステップで特定のセマンティク型が自動的に検出されるシステムに基づいています。 たとえば、ローカル・サブジェクト領域をベースとするデータセットは、シンプルな上位Nサンプルを使用してプロファイリングされます。
セマンティック・タイプには、市区町村名で識別される地理的な位置、クレジット・カード、電子メール・アドレスおよび社会保障番号などにあるような認識可能なパターン、日付、および繰返しパターンなどのカテゴリがあります。 独自のカスタム・セマンティック・タイプを作成することもできます。
セマンティク型カテゴリ
プロファイリングは様々なセマンティク型に適用されます。
セマンティック・タイプのカテゴリがプロファイルされ、次のものが識別されます:
- 市区町村名などの地理的なロケーション。
- クレジット・カード番号または電子メール・アドレスで見つかったパターンなど。
- ハイフンで連結された句のデータなどの繰返しパターン。
セマンティク型の推奨事項
データセットを修復、拡張またはエンリッチするための推奨事項は、データのタイプによって決まります。
セマンティク型の推奨の例:
- 「エンリッチメント」 - 地理的なロケーションなど、検出された特定のタイプに対応するデータへの新しい列の追加。 たとえば、都市の人口データを追加します。
- 「列の連結」 - データセットで2つの列が検出され、1つには名が含まれ、もう1つには姓が含まれる場合は、名前を1つの列に連結することをお勧めします。 たとえば、first_name_last_name列などです。
- 「セマンティック抽出」 - セマンティック・タイプがサブタイプ(たとえば、領域コードを含むus_phone番号)で構成されている場合は、サブタイプを独自の列に抽出することが推奨されます。
- 「部品抽出」 - データ内で汎用パターン・セパレータが検出されると、そのパターンの部分を抽出することが推奨されます。 たとえば、データ内で繰返しのハイフンが検出された場合は、部分を個別の列に抽出して、データの分析をより有効にすることをお薦めします。
- 「日付の抽出」 - 日付が検出されると、データの分析を増強する可能性がある日付の部分の抽出が推奨されます。 たとえば、請求書または購入日から曜日を抽出できます。
- 「完全および部分的なObfuscation/Masking/Delete」 - クレジット・カード番号などの機密フィールドが検出されると、その列の完全または部分マスキングが推奨されるか、削除も行われます。
認識されたパターン・ベースのセマンティク型
セマンティック・タイプは、データで検出されたパターンに基づいて識別されます。
これらのセマンティク型について、推奨事項が提供されます:
- 日付(30を超える書式)
- US社会保障番号(SSN)
- クレジット・カード番号
- クレジット・カード属性(CVVおよび有効期限)
- 電子メール・アドレス
- 北米プラン電話番号
- 米国の住所
参照ベースのセマンティク型
セマンティク型の認識は、ロードされた参照ナレッジ(サービスを含む)によって決定されます。
参照ベースの推奨は、次のセマンティク型に対して提供されます:
- 国名
- 国コード
- 都道府県名(地域)
- 状態コード
- 郡名(管轄区域)
- 市区町村名(ローカライズされた名前)
- 郵便番号
推奨されるエンリッチメント
推奨エンリッチメントは、セマンティク型に基づいています。
エンリッチメントは、地理的なロケーションの階層に基づいて決定されます:
- 国
- 州(都道府県)
- 管轄区域(郡)
- 経度
- 緯度
- 人口
- 選択(従量制)
- タイムゾーン
- ISO国コード
- 連邦情報処理シリーズ(FIPS)
- 国名
- Capital
- 大陸
- GeoNames ID
- 使用されている言語
- 電話国コード
- 郵便番号形式
- 郵便番号パターン
- 電話国コード
- 通貨名
- 通貨の略称
- 地理的最上位ドメイン(GeoLTD)
- 正方形KM
必須のしきい値
プロファイリング・プロセスでは、固有のしきい値を使用して特定のセマンティック・タイプに関する決定を行います。
一般的に、Oracle Analyticsが分類を決定するためには、列のデータ値の85%が単一のセマンティック・タイプの基準を満たす必要があります。 たとえば、列の70%が名で30%がその他の場合、しきい値要件を満たさないため、推奨は行われません。
カスタム・ナレッジの推奨
カスタム・ナレッジの推奨事項を使用して、Oracle Analyticsシステム知識を強化します。 カスタム・ナレッジにより、Oracle Analyticsセマンティック・プロファイラは、ビジネス固有のセマンティック・タイプをより多く識別し、関連性の高い、制御されたエンリッチメント推奨を作成できます。 たとえば、処方薬をUSP医薬品カテゴリの鎮痛薬または麻酔薬に分類するカスタム・ナレッジ参照を追加する場合があります。
管理者にカスタム・ナレッジ・ファイルをOracle Analyticsにアップロードするように依頼します。 データセットをエンリッチすると、Oracle Analyticsは、このセマンティック・データに基づいてエンリッチメントの推奨事項を表示します。 ワークブックの作成時、データ・パネルからナレッジ・エンリッチメントを追加することで、これをビジュアライゼーションに含めることもできます。
独自のカスタム・ナレッジ・ファイルの作成
独自のセマンティック・ファイルを作成できます。 次のガイドラインに従ってください。
- データ・ファイルをCSVまたはMicrosoft Excel (XLSX)形式で作成します。 アップロードできる最大ファイル・サイズは250 MBです。
- 最初の列にキーを移入し、他の列にエンリッチメント値を移入します。 たとえば、キーは「日付」列にあり、エンリッチメント値は「会計年度」列にあり、会計年度別にデータを分析できます。
Date,Fiscal_Year 2022-07-01,2023 2022-10-15,2023 2023-01-01,2023 2023-04-30,2023 2023-07-01,2024
管理者にカスタム・ナレッジ・ファイルをOracle Analyticsにアップロードするように依頼します。
例 - ビジネス時間枠をデータに統合
この例では、営業時間枠を販売データに追加し、元のデータセットに会計データが含まれていない場合に会計年度別売上分析を有効にする方法を示します。




