データ・プロファイルとセマンティック推奨

データセットを作成する際、Oracle Analyticsでは、列レベルのプロファイリングが実行され、データを修復またはエンリッチするためのセマンティック推奨セットが生成されます。ワークブックの作成時、データ・パネルからナレッジ・エンリッチメントを追加することで、これをビジュアライゼーションに含めることもできます。

注:

ナレッジ・エンリッチメントは、通常デフォルトで有効化されていますが、ワークブック・エディタは、所有しているか編集権限のあるデータセットに関してはこれを有効化または無効化できます。Oracle Analyticsでは、データ・フローから生成されたデータセットに対するエンリッチメント推奨は自動的には提供されません。この場合、データセットの所有者または管理者は、最初にデータセットのナレッジ・エンリッチメント・オプションを有効にする必要があります。データセットのナレッジ・エンリッチメントの有効化を参照してください。

これらの推奨は、システムによるプロファイル・ステップ時の特定のセマンティック・タイプの自動検出に基づきます。たとえば、ローカル・サブジェクト領域をベースとするデータセットは、シンプルな上位Nサンプルを使用してプロファイリングされます。

セマンティック・タイプには、市区町村名で識別される地理的な位置、クレジット・カード、電子メール・アドレスおよび社会保障番号などにあるような認識可能なパターン、日付、および繰返しパターンなどのカテゴリがあります。独自のカスタム・セマンティック・タイプを作成することもできます。

トピック:

セマンティック・タイプのカテゴリ

プロファイリングは様々なセマンティック・タイプに適用されます。

セマンティック・タイプのカテゴリは、次を識別するようにプロファイルされています。

市区町村名などの地理的な位置。
クレジット・カード番号または電子メール・アドレスで見つかるようなパターン。
ハイフン付きフレーズ・データなどの繰返しパターン。

セマンティック・タイプの推奨

データセットを修復、拡張またはエンリッチするための推奨事項は、データのタイプによって異なります。

セマンティック・タイプの推奨の例:

エンリッチメント - 地理的な位置などの特定の検出済タイプに対応するデータに新規列を追加することです。たとえば、市区町村の人口データの追加などです。
列の連結 - データセットに2つの列が検出され、1つが名を含む列、もう1つが姓を含む列である場合、名前を単一列に連結することが推奨されます。たとえば、first_name_last_name列のようにします。
セマンティック抽出 - セマンティック・タイプが市外局番を含むus_phone番号などのサブタイプで構成されている場合、サブタイプをそれ自体の列に抽出することが推奨されます。
一部抽出 - データに一般的なパターン区切り文字が検出された場合、そのパターンの一部を抽出することが推奨されます。たとえば、データに繰返しのハイフネーションが検出された場合、データがより分析に役立つように、その部分を別々の列に抽出することが推奨されます。
データ抽出 - 日付が検出された場合、日付の一部を抽出することが推奨されます。これによってデータの分析が拡張される可能性があります。たとえば、請求日または購入日から曜日を抽出できます。
全体および一部の難読化/マスキング/削除 - クレジット・カード番号などの機密フィールドが検出された場合、列の全体または一部のマスキング、あるいは削除も推奨されます。

認識されるパターンベースのセマンティック・タイプ

セマンティック・タイプは、データで検出されたパターンに基づいて識別されます。

これらのセマンティック・タイプには、推奨事項が用意されています。

日付(30を超える書式)
米国社会保障番号(SSN)
クレジット・カード番号
クレジット・カード属性(CVVおよび有効期限)
電子メール・アドレス
北米計画電話番号
米国の住所

参照ベースのセマンティック・タイプ

セマンティック・タイプの認識は、サービスに付属して提供されるロード済の参照ナレッジによって決まります。

これらのセマンティック・タイプには、参照ベースの推奨事項が用意されています。

国名
国コード
都道府県名(州)
都道府県コード
郡名(管轄)
市区町村名(ローカライズされた名前)
郵便番号

推奨エンリッチメント

推奨エンリッチメントはセマンティック・タイプに基づいています。

エンリッチメントは、次の地理的な位置階層に基づいて決定されます。

国
州(都道府県)
管轄(郡)
経度
緯度
人口
標高(メートル)
タイム・ゾーン
ISO国コード
連邦情報処理規格(FIPS)
国名
首都
大陸
GeoNames ID
使用言語
電話国コード
郵便番号書式
郵便番号パターン
電話国コード
通貨名
通貨略称
地理的トップ・レベル・ドメイン(GeoTLD)
平方KM

必須しきい値

プロファイリング・プロセスでは、固有のしきい値を使用して特定のセマンティック・タイプに関する決定を行います。

一般に、Oracle Analyticsで分類を決定するためには、列内のデータ値の85%が単一セマンティック・タイプの基準を満たしている必要があります。たとえば、列の70%が名で30%がその他の場合、しきい値要件を満たさないため、推奨は行われません。

カスタム・ナレッジの推奨

カスタム・ナレッジの推奨を使用して、Oracle Analyticsシステム・ナレッジを拡張します。カスタム・ナレッジを使用すると、Oracle Analyticsセマンティック・プロファイラでさらに多くのビジネス固有のセマンティック・タイプを識別し、さらに多くの関連する管理対象エンリッチメントの推奨を作成できます。たとえば、処方薬をUSP医薬品カテゴリの鎮痛薬または麻酔薬に分類するカスタム・ナレッジ参照を追加する場合があります。

チュートリアル

管理者にカスタム・ナレッジ・ファイルをOracle Analyticsにアップロードするように依頼します。データセットをエンリッチすると、Oracle Analyticsでは、このセマンティック・データに基づいてエンリッチメントの推奨が提示されます。ワークブックの作成時、データ・パネルからナレッジ・エンリッチメントを追加することで、これをビジュアライゼーションに含めることもできます。

独自のカスタム・ナレッジ・ファイルの作成

セマンティック・ファイルを作成する場合、次のガイドラインに従います:

データ・ファイルをCSVまたはMicrosoft Excel (XLSX)形式で作成します。アップロードできる最大ファイル・サイズは250MBです。
最初の列にキーを移入します。Oracle Analyticsでは、これを使用してデータをプロファイルします。たとえば、データを会計年度別に分析できるように、キーに日単位の粒度を持つ日付を使用できます。
他の列にエンリッチメント値を移入します。

管理者にカスタム・ナレッジ・ファイルをOracle Analyticsにアップロードするように依頼します。

例 - ビジネス時間枠をデータに統合

この例では、ビジネス時間枠を売上データに追加し、元のデータセットに会計データが含まれていない場合に会計年度別の売上分析を有効にする方法を示します。

このビジュアライゼーションの例は、2019年、2020年、2021年、2022年および2023年における四半期別の売上を示しています(ここでは、各年は異なる色で表されています)。ソース売上データに会計データがないため、会計データをデータセットに追加するために追加のカスタム・ナレッジをデプロイします。

.pngの説明

最初に、会計データをFiscal Calendar.xlsxファイルに準備します。ファイルには、日付(mm-dd-yyyy)、会計年度、会計月および会計週が含まれています。たとえば、ソース・ファイルには、日付列に01-23-2025、会計年度列に2025、および残りの列を完成するための属性を含めることができます。

.pngの説明

コンソールのカスタム・ナレッジ領域にFiscal Calendar.xlsxをアップロードするように管理者に依頼してください。

.pngの説明

次に、「Sales」および「ORDER_DATE」を含むデータセットを作成し、データセット・エディタで、エンリッチメント推奨の「Enrich ORDER_DATE WITH Fiscal Year」および「Enrich ORDER_DATE with Fiscal Month」を選択します。Oracle Analyticsによって、これら2つのエンリッチメントがデータセットに追加されます。

.pngの説明

最後に、ワークブックを作成し、(ORDER_DATEの下にある)「Fiscal Year」および「Fiscal Qtr」と、「Sales」をビジュアライゼーションに追加します。ノート: 元の「ORDER_DATE」列を追加せずに、「Fiscal Year」および「Fiscal Qtr」を直接追加できます。

.pngの説明