エンリッチおよび変換リファレンス

このリファレンス情報を使用すると、データのエンリッチおよび変換に役立ちます。

変換リファレンス

変換エディタでアクセスできるデータ変換オプションについて説明します。たとえば、レースのラップ・タイムをデータセット列に分類するには、「ビン」オプションを使用できます。

変換エディタで変換オプションを選択するには、データセットを開き、「オプション」(データ列の右上にある省略記号省略記号)をクリックし、オプション(たとえば、「ビン」「名前変更」「テキストに変換」など)を選択します。


GUID-48DD220C-19D2-4614-9E6B-ABE498632724-default.pngの説明が続きます
.pngの説明

オプション 説明
ビン 数値範囲に対して独自のカスタム・グループを作成します。たとえば、カスタム要件に基づいて、13歳未満、若年成人、成人または高齢者にビン化した年齢範囲を使用して、年齢列のビンを作成できます。
期間の計算 2つの日付または時刻の間の期間を計算します。たとえば、オーダー配送時間を分析するには、ORDER_DATEとDELIVERY_DATEの間の日数を計算します。
日付に変換 列のデータ型を日付に変更し、日付ではないすべての値を列から削除します。
数値に変換 列のデータ型を数値に変更することで、数値ではないすべての値を列から削除します。
テキストに変換 列のデータ型をテキストに変更します。
作成 関数に基づいて列を作成します。
複製 選択した列と同じコンテンツで列を作成します。
編集 列詳細を変更します。たとえば、名前の変更、別の列の選択または関数の更新が可能です。
日付の抽出 一連の日付と時刻の情報をタイムスタンプから抽出します。たとえば、年を2024、日付を23、または時刻を03 PMとして抽出できます。
グループ、条件付きグループ 「グループ」を選択して、独自のカスタム・グループを作成します。たとえば、都道府県をカスタム地域とグループ化したり、ドルの金額を小、中、大を示すグループに分類できます。
非表示 「データ・パネル」およびビジュアライゼーションで列を非表示にします。非表示の列を表示する必要がある場合は、ページ・フッターで「非表示列」 (ゴースト・アイコン)をクリックします。その後、個々の列を表示するか、一度にすべての非表示列を表示できます。
対数 式の自然対数を計算します。
小文字 列のコンテンツをすべて小文字の値に更新します。
累乗 列の値を指定した指数で累乗します。デフォルトの指数は2です。
名前変更 列の名前を変更します。
置換 選択した列内の特定のテキストを、指定した任意の値に変更します。たとえば、MisterのすべてのインスタンスをMr.に変更できます。
文の先頭大文字 列のコンテンツを、文の最初の語の最初の文字が大文字になるように更新します。
分割 列値をいくつかの部分に分割します。たとえば、名前という列を名と姓に分割できます。
平方根 選択した列内の値の平方根が移入された列を作成します。
大文字 列のコンテンツをすべて大文字の値に更新します。

データ・プロファイルとセマンティック推奨

データセットを作成する際、Oracle Analyticsでは、列レベルのプロファイリングが実行され、データを修復またはエンリッチするためのセマンティック推奨セットが生成されます。ワークブックの作成時、データ・パネルからナレッジ・エンリッチメントを追加することで、これをビジュアライゼーションに含めることもできます。

これらの推奨は、システムによるプロファイル・ステップ時の特定のセマンティック・タイプの自動検出に基づきます。たとえば、ローカル・サブジェクト領域をベースとするデータセットは、シンプルな上位Nサンプルを使用してプロファイリングされます。

セマンティック・タイプには、市区町村名で識別される地理的な位置、クレジット・カード、電子メール・アドレスおよび社会保障番号などにあるような認識可能なパターン、日付、および繰返しパターンなどのカテゴリがあります。独自のカスタム・セマンティック・タイプを作成することもできます。

セマンティック・タイプのカテゴリ

プロファイリングは様々なセマンティック・タイプに適用されます。

セマンティック・タイプのカテゴリは、次を識別するようにプロファイルされています。

  • 市区町村名などの地理的な位置。
  • クレジット・カード番号または電子メール・アドレスで見つかるようなパターン。
  • ハイフン付きフレーズ・データなどの繰返しパターン。

セマンティック・タイプの推奨

データセットを修復、拡張またはエンリッチするための推奨事項は、データのタイプによって異なります。

セマンティック・タイプの推奨の例:

  • エンリッチメント - 地理的な位置などの特定の検出済タイプに対応するデータに新規列を追加することです。たとえば、市区町村の人口データの追加などです。
  • 列の連結 - データセットに2つの列が検出され、1つが名を含む列、もう1つが姓を含む列である場合、名前を単一列に連結することが推奨されます。たとえば、first_name_last_name列のようにします。
  • セマンティック抽出 - セマンティック・タイプが市外局番を含むus_phone番号などのサブタイプで構成されている場合、サブタイプをそれ自体の列に抽出することが推奨されます。
  • 一部抽出 - データに一般的なパターン区切り文字が検出された場合、そのパターンの一部を抽出することが推奨されます。たとえば、データに繰返しのハイフネーションが検出された場合、データがより分析に役立つように、その部分を別々の列に抽出することが推奨されます。
  • データ抽出 - 日付が検出された場合、日付の一部を抽出することが推奨されます。これによってデータの分析が拡張される可能性があります。たとえば、請求日または購入日から曜日を抽出できます。
  • 全体および一部の難読化/マスキング/削除 - クレジット・カード番号などの機密フィールドが検出された場合、列の全体または一部のマスキング、あるいは削除も推奨されます。

認識されるパターンベースのセマンティック・タイプ

セマンティック・タイプは、データで検出されたパターンに基づいて識別されます。

これらのセマンティック・タイプには、推奨事項が用意されています。

  • 日付(30を超える書式)
  • 米国社会保障番号(SSN)
  • クレジット・カード番号
  • クレジット・カード属性(CVVおよび有効期限)
  • 電子メール・アドレス
  • 北米計画電話番号
  • 米国の住所

参照ベースのセマンティック・タイプ

セマンティック・タイプの認識は、サービスに付属して提供されるロード済の参照ナレッジによって決まります。

これらのセマンティック・タイプには、参照ベースの推奨事項が用意されています。

  • 国名
  • 国コード
  • 都道府県名(州)
  • 都道府県コード
  • 郡名(管轄)
  • 市区町村名(ローカライズされた名前)
  • 郵便番号

推奨エンリッチメント

推奨エンリッチメントはセマンティック・タイプに基づいています。

エンリッチメントは、次の地理的な位置階層に基づいて決定されます。

  • 州(都道府県)
  • 管轄(郡)
  • 経度
  • 緯度
  • 人口
  • 標高(メートル)
  • タイム・ゾーン
  • ISO国コード
  • 連邦情報処理規格(FIPS)
  • 国名
  • 首都
  • 大陸
  • GeoNames ID
  • 使用言語
  • 電話国コード
  • 郵便番号書式
  • 郵便番号パターン
  • 電話国コード
  • 通貨名
  • 通貨略称
  • 地理的トップ・レベル・ドメイン(GeoTLD)
  • 平方KM

必須しきい値

プロファイリング・プロセスでは、固有のしきい値を使用して特定のセマンティック・タイプに関する決定を行います。

一般に、システムで分類を決定するには、列のデータ値の85%が1つのセマンティック・タイプの基準を満たしている必要があります。結果として、70%の名および30%の"その他"を含む列はしきい値要件を満たさないため、推奨は行われません。

カスタム・ナレッジの推奨

カスタム・ナレッジの推奨を使用して、Oracle Analyticsシステム・ナレッジを拡張します。カスタム・ナレッジを使用すると、Oracle Analyticsセマンティック・プロファイラでさらに多くのビジネス固有のセマンティック・タイプを識別し、さらに多くの関連する管理対象エンリッチメントの推奨を作成できます。たとえば、処方薬をUSP医薬品カテゴリの鎮痛薬または麻酔薬に分類するカスタム・ナレッジ参照を追加する場合があります。

チュートリアル・アイコン チュートリアル

Unsupervised Semantic Parsing (USP)ファイルなどの既存のセマンティック・ファイルを使用するか、独自のセマンティック・ファイルを作成できます。管理者にカスタム・ナレッジ・ファイルをOracle Analyticsにアップロードするように依頼します。データセットをエンリッチすると、Oracle Analyticsでは、このセマンティック・データに基づいてエンリッチメントの推奨が提示されます。ワークブックの作成時、データ・パネルからナレッジ・エンリッチメントを追加することで、これをビジュアライゼーションに含めることもできます。

独自のカスタム・ナレッジ・ファイルの作成

独自のセマンティック・ファイルを作成する場合、次のガイドラインに従います:

  • データ・ファイルをCSVまたはMicrosoft Excel (XLSX)形式で作成します。アップロードできる最大ファイル・サイズは250MBです。
  • 最初の列にキーを移入します。Oracle Analyticsでは、これを使用してデータをプロファイルします。
  • 他の列にエンリッチメント値を移入します。

管理者にカスタム・ナレッジ・ファイルをOracle Analyticsにアップロードするように依頼します。

一般的なカスタム書式文字列

一般的なカスタム書式文字列を使用して、時間または日付のカスタム書式を作成できます。

表に、一般的なカスタム書式文字列および表示される結果を示します。これらを使用すると、ユーザーのロケールで日付および時間フィールドを表示できます。

一般的な書式文字列 結果

[FMT:dateShort]

ロケールの短い日付書式で日付を書式設定します。[FMT:date]と入力することもできます。

[FMT:dateLong]

ロケールの長い日付書式で日付を書式設定します。

[FMT:dateInput]

システムで入力に対して許容される書式で日付を書式設定します。

[FMT:time]

ロケールの時間書式で時間を書式設定します。

[FMT:timeHourMin]

ロケールの時間書式で時間を書式設定しますが、秒を省略します。

[FMT:timeInput]

システムで入力に対して許容される書式で時間を書式設定します。

[FMT:timeInputHourMin]

システムで入力に対して許容される書式で時間を書式設定しますが、秒を省略します。

[FMT:timeStampShort]

[FMT:dateShort] [FMT:time]と入力するのと同じです。ロケールの短い日付書式で日付を書式設定し、ロケールの時間書式で時間を書式設定します。[FMT:timeStamp]と入力することもできます。

[FMT:timeStampLong]

[FMT:dateLong] [FMT:time]と入力するのと同じです。ロケールの長い日付書式で日付を書式設定し、ロケールの時間書式で時間を書式設定します。

[FMT:timeStampInput]

[FMT:dateInput] [FMT:timeInput]と同等です。システムで入力に対して許容される書式で日付と時間を書式設定します。

[FMT:timeHour]

ロケールの書式で時間フィールドのみを書式設定します(8 PMなど)。

YYまたはyy

年の最後の2桁を表示します。たとえば、2011年の場合は11です。

YYYまたはyyy

年の最後の3桁を表示します。たとえば、2011年の場合は011です。

YYYYまたはyyyy

4桁の年を表示します。たとえば、2011です。

M

月の数値を表示します(たとえば、2月の場合、2)。

MM

1桁の月の場合は左側にゼロ詰めをして、月の数値を表示します(たとえば、2月の場合、02)。

MMM

ユーザーのロケールで月の略称を表示します(たとえば、Feb)。

MMMM

ユーザーのロケールで月のフル・ネームを表示します(たとえば、February)。

Dまたはd

月の通算日を表示します(たとえば、1)。

DDまたはdd

通算日が1桁の場合は左側にゼロ詰めをして、月の通算日を表示します(たとえば、01)。

DDDまたはddd

ユーザーのロケールで曜日の略称を表示します(たとえば、ThursdayのThu)。

DDDDまたはdddd

ユーザーのロケールで曜日のフル・ネームを表示します(たとえば、Thursday)。

DDDDDまたはddddd

ユーザーのロケールで曜日の最初の文字を表示します(たとえば、ThursdayのT)。

r

年の通算日を表示します(たとえば、1)。

rr

年の通算日が1桁の場合は左側にゼロ詰めをして、年の通算日を表示します(たとえば、01)。

rrr

年の通算日が1桁の場合は左側にゼロ詰めをして、年の通算日を表示します(たとえば、001)。

w

年の通算週を表示します(たとえば、1)。

ww

通算週が1桁の場合は左側にゼロ詰めをして、年の通算週を表示します(たとえば、01)。

q

年の四半期を表示します(たとえば、4)。

h

時間を12時間制で表示します(たとえば、2)。

H

時間を24時間制で表示します(たとえば、23)。

hh

時間が1桁の場合は左側にゼロ詰めをして、時間を12時間制で表示します(たとえば、01)。

HH

時間が1桁の場合は左側にゼロ詰めをして、時間を24時間制で表示します(たとえば、23)。

m

分を表示します(たとえば、7)。

mm

分が1桁の場合は左側にゼロ詰めをして、分を表示します(たとえば、07)。

s

秒を表示します(たとえば、2)。

文字列に、s.#やs.00などのように、小数点を含めることもできます(#はオプションの桁数を示し、0は必須桁数を示します)。

ss

秒が1桁の場合は左側にゼロ詰めをして、秒を表示します(たとえば、02)。

文字列に、ss.#やss.00などのように、小数点を含めることもできます(#はオプションの桁数を示し、0は必須桁数を示します)。

S

秒を表示します(たとえば、2)。

SS

ミリ秒が1桁の場合は左側にゼロ詰めをして、ミリ秒を表示します(たとえば、02)。

SSS

ミリ秒が1桁の場合は左側にゼロ詰めをして、ミリ秒を表示します(たとえば、002)。

tt

ユーザーのロケールで午前または午後を表す略語を表示します(たとえば、pm)。

gg

ユーザーのロケールで年代を表示します。