エンリッチおよび変換リファレンス
このリファレンス情報を使用すると、データのエンリッチおよび変換に役立ちます。
変換リファレンス
変換エディタでアクセスできるデータ変換オプションについて説明します。たとえば、レースのラップ・タイムをデータセット列に分類するには、「ビン」オプションを使用できます。
変換エディタで変換オプションを選択するには、データセットを開き、「オプション」(データ列の右上にある省略記号)をクリックして、オプション(「ビン」、「名前変更」、「テキストに変換」など)を選択します。
図prepare-data-using-column-options.pngの説明
オプション | 説明 |
---|---|
ビン | 数値範囲に対して独自のカスタム・グループを作成します。たとえば、カスタム要件に基づいて、13歳未満、若年成人、成人または高齢者にビン化した年齢範囲を使用して、年齢列のビンを作成できます。 |
期間の計算 | 2つの日付または時刻の間の期間を計算します。たとえば、オーダー配送時間を分析するには、ORDER_DATEとDELIVERY_DATEの間の日数を計算します。 |
日付に変換 | 列のデータ型を日付に変更し、日付ではないすべての値を列から削除します。 |
数値に変換 | 列のデータ型を数値に変更することで、数値ではないすべての値を列から削除します。 |
テキストに変換 | 列のデータ型をテキストに変更します。 |
作成 | 関数に基づいて列を作成します。 |
複製 | 選択した列と同じコンテンツで列を作成します。 |
編集 | 列詳細を変更します。たとえば、名前の変更、別の列の選択、または関数の更新ができます。 |
日付の抽出 | 一連の日付と時刻の情報をタイムスタンプから抽出します。たとえば、年を2024、日付を23、または時刻を03 PMとして抽出できます。 |
グループ、条件付きグループ | 「グループ」を選択して、独自のカスタム・グループを作成します。たとえば、都道府県をカスタム地域を使用してグループ化したり、ドルの金額を、小、中および大を示すグループに分類したりできます。 |
非表示 | 「データ・パネル」およびビジュアライゼーションで列を非表示にします。非表示の列を表示する必要がある場合は、ページ・フッターで「非表示列」(ゴースト・アイコン)をクリックします。その後、個別の列の非表示を解除するか、すべての非表示列を一度に表示できます。 |
ログ | 式の自然対数を計算します。 |
小文字 | 列のコンテンツをすべて小文字の値に更新します。 |
累乗 | 列の値を指定の値で累乗します。デフォルトの指数は2です。 |
名前変更 | 列の名前を変更します。 |
置換 | 選択した列の特定のテキストを指定した値に変更します。たとえば、MisterのすべてのインスタンスをMr.に変更できます。 |
文の先頭大文字 | 列のコンテンツを、文の最初の語の最初の文字が大文字になるように更新します。 |
分割 | 列値をいくつかの部分に分割します。たとえば、名前という列を名と姓に分割できます。 |
平方根 | 選択した列内の値の平方根が移入された列を作成します。 |
大文字 | 列のコンテンツをすべて大文字の値に更新します。 |
データ・プロファイルおよびセマンティク推奨
データセットを作成する際、Oracle Analyticsでは、列レベルのプロファイリングが実行され、データを修復またはエンリッチするためのセマンティック推奨セットが生成されます。ワークブックの作成時、データ・パネルからナレッジ・エンリッチメントを追加することで、これをビジュアライゼーションに含めることもできます。
これらの推奨は、プロファイル・ステップで特定のセマンティク・タイプを自動的に検出するシステムに基づきます。たとえば、ローカル・サブジェクト領域をベースとするデータセットは、シンプルな上位Nサンプルを使用してプロファイリングされます。
セマンティック・タイプには、市区町村名で識別される地理的な位置、クレジット・カード、電子メール・アドレスおよび社会保障番号などにあるような認識可能なパターン、日付、および繰返しパターンなどのカテゴリがあります。独自のカスタム・セマンティック・タイプを作成することもできます。
セマンティク・タイプのカテゴリ
プロファイリングは様々なセマンティク・タイプに適用されます。
セマンティク・タイプのカテゴリは、次のことを識別するためにプロファイリングされます。
- 市区町村名などの地理的な位置。
- クレジット・カード番号や電子メール・アドレスで見つかるようなパターン。
- ハイフン付きフレーズ・データなどの繰返しパターン。
セマンティク・タイプの推奨
データセットの修正、拡張またはエンリッチの推奨事項は、データのタイプによって異なります。
セマンティク・タイプの推奨の例を次に示します。
- エンリッチメント - 地理的な位置などの特定の検出済タイプに対応するデータに新規列を追加することです。たとえば、市区町村の人口データの追加などです。
- 列の連結 - データセットに2つの列が検出され、1つが名を含む列、もう1つが姓を含む列である場合、名前を単一列に連結することが推奨されます。たとえば、first_name_last_name列のようにします。
- セマンティック抽出 - セマンティック・タイプが市外局番を含むus_phone番号などのサブタイプで構成されている場合、サブタイプをそれ自体の列に抽出することが推奨されます。
- 部分抽出 - データ内で一般的なパターン・セパレータを検出した場合、そのパターンの一部を抽出することを推奨します。たとえば、データ内で繰返しのハイフネーションを検出した場合、データがより分析に役立つように、その部分を別々の列に抽出することを推奨します。
- データ抽出 - 日付が検出された場合、日付の一部を抽出することが推奨されます。これによってデータの分析が拡張される可能性があります。たとえば、請求日または購入日から曜日を抽出できます。
- 全体および一部の難読化/マスキング/削除 - クレジット・カード番号などの機密フィールドが検出された場合、列の全体または一部のマスキング、あるいは削除も推奨されます。
認識されるパターン・ベースのセマンティク・タイプ
セマンティック・タイプは、データで検出されたパターンに基づいて識別されます。
次のセマンティク・タイプについて推奨が提供されています。
- 日付(30を超える書式)
- 米国社会保障番号(SSN)
- クレジット・カード番号
- クレジット・カード属性(CVVおよび有効期限)
- 電子メール・アドレス
- 北米計画電話番号
- 米国住所
参照ベースのセマンティク・タイプ
セマンティック・タイプの認識は、サービスに付属して提供されるロード済の参照ナレッジによって決まります。
次のセマンティク・タイプについては参照ベースの推奨が提供されています。
- 国名
- 国コード
- 都道府県名
- 都道府県コード
- 郡名(管轄)
- 市区町村名(ローカライズされた名前)
- 郵便番号
推奨エンリッチメント
推奨エンリッチメントは、セマンティク・タイプに基づいています。
エンリッチメントは、地理的位置の階層に基づいて決定されます。
- 国
- 都道府県
- 管轄(群)
- 経度
- 緯度
- 人口
- 標高(メートル)
- タイムゾーン
- ISO国コード
- 米国連邦情報処理標準(FIPS)
- 国名
- 首都
- 大陸
- GeoName ID
- 使用言語
- 電話国コード
- 郵便番号形式
- 郵便番号パターン
- 電話国コード
- 通貨名
- 通貨略称
- 地理的トップ・レベル・ドメイン(GeoLTD)
- 平方KM
必須しきい値
プロファイリング・プロセスでは、固有のしきい値を使用して特定のセマンティック・タイプに関する決定を行います。
通常、システムにおいて分類が決定されるには、列内のデータ値の85%が単一セマンティック・タイプの基準を満たしている必要があります。そのため、70%が名、30%がその他のデータである列はしきい値要件を満たさないため、推奨事項が提示されません。
カスタム・ナレッジの推奨
カスタム・ナレッジの推奨を使用して、Oracle Analyticsシステム・ナレッジを拡張します。カスタム・ナレッジを使用すると、Oracle Analyticsセマンティック・プロファイラでさらに多くのビジネス固有のセマンティック・タイプを識別し、さらに多くの関連する管理対象エンリッチメントの推奨を作成できます。たとえば、処方薬をUSP医薬品カテゴリの鎮痛薬または麻酔薬に分類するカスタム・ナレッジ参照を追加する場合があります。
Unsupervised Semantic Parsing (USP)ファイルなどの既存のセマンティック・ファイルを使用するか、独自のセマンティック・ファイルを作成できます。管理者にカスタム・ナレッジ・ファイルをOracle Analyticsにアップロードするように依頼します。データセットをエンリッチすると、Oracle Analyticsでは、このセマンティック・データに基づいてエンリッチメントの推奨が提示されます。ワークブックの作成時、データ・パネルからナレッジ・エンリッチメントを追加することで、これをビジュアライゼーションに含めることもできます。
独自のカスタム・ナレッジ・ファイルの作成
独自のセマンティック・ファイルを作成する場合、次のガイドラインに従います:
- データ・ファイルをCSVまたはMicrosoft Excel (XLSX)形式で作成します。アップロードできる最大ファイル・サイズは250MBです。
- 最初の列にキーを移入します。Oracle Analyticsでは、これを使用してデータをプロファイルします。
- 他の列にエンリッチメント値を移入します。
管理者にカスタム・ナレッジ・ファイルをOracle Analyticsにアップロードするように依頼します。
一般的なカスタム書式設定文字列
一般的なカスタム書式文字列を使用して、時間または日付のカスタム書式を作成できます。
表に、一般的なカスタム書式設定文字列と、それによって表示される結果を示します。これらによって、日付と時間のフィールドをユーザーのロケールで表示できます。
一般的な書式設定文字列 | 結果 |
---|---|
[FMT:dateShort] |
ロケールの短い日付書式で日付を書式設定します。[FMT:date]とも入力できます。 |
[FMT:dateLong] |
ロケールの長い日付書式で日付を書式設定します。 |
[FMT:dateInput] |
システムで入力に対して許容される書式で日付を書式設定します。 |
[FMT:time] |
ロケールの時間書式で時間を書式設定します。 |
[FMT:timeHourMin] |
ロケールの時間書式で時間を書式設定しますが、秒を省略します。 |
[FMT:timeInput] |
システムで入力に対して許容される書式で時間を書式設定します。 |
[FMT:timeInputHourMin] |
システムで入力に対して許容される書式で時間を書式設定しますが、秒を省略します。 |
[FMT:timeStampShort] |
[FMT:dateShort] [FMT:time]と入力するのと同じです。ロケールの短い日付書式で日付を書式設定し、ロケールの時間書式で時間を書式設定します。[FMT:timeStamp]とも入力できます。 |
[FMT:timeStampLong] |
[FMT:dateLong] [FMT:time]と入力するのと同じです。ロケールの長い日付書式で日付を書式設定し、ロケールの時間書式で時間を書式設定します。 |
[FMT:timeStampInput] |
[FMT:dateInput] [FMT:timeInput]と同じです。システムで入力に対して許容される書式で日付と時間を書式設定します。 |
[FMT:timeHour] |
ロケールの書式で時間フィールドのみを書式設定します(8 PMなど)。 |
YYまたはyy |
年の最後の2桁を表示します。たとえば、2011年の場合は11です。 |
YYYまたはyyy |
年の最後の3桁を表示します。たとえば、2011年の場合は011です。 |
YYYYまたはyyyy |
4桁の年を表示します。たとえば、2011です。 |
M |
月の数値を表示します(たとえば、2月の場合、2)。 |
MM |
1桁の月の場合は左側にゼロ詰めをして、月の数値を表示します(たとえば、2月の場合、02)。 |
MMM |
ユーザーのロケールで月の略称を表示します(たとえば、Feb)。 |
MMMM |
ユーザーのロケールで月のフルネームを表示します(たとえば、February)。 |
Dまたはd |
月の通算日を表示します(たとえば、1)。 |
DDまたはdd |
通算日が1桁の場合は左側にゼロ詰めをして、月の通算日を表示します(たとえば、01)。 |
DDDまたはddd |
ユーザーのロケールで曜日の略称を表示します(たとえば、ThursdayのThu)。 |
DDDDまたはdddd |
ユーザーのロケールで曜日のフルネームを表示します(たとえば、Thursday)。 |
DDDDDまたはddddd |
ユーザーのロケールで曜日の最初の文字を表示します(たとえば、ThursdayのT)。 |
r |
年の通算日を表示します(たとえば、1)。 |
rr |
通算日が1桁の場合は左側にゼロ詰めをして、年の通算日を表示します(たとえば、01)。 |
rrr |
通算日が1桁の場合は左側にゼロ詰めをして、年の通算日を表示します(たとえば、001)。 |
w |
年の通算週を表示します(たとえば、1)。 |
ww |
通算週が1桁の場合は左側にゼロ詰めをして、年の通算週を表示します(たとえば、01)。 |
q |
年の四半期を表示します(たとえば、4)。 |
h |
時間を12時間制で表示します(たとえば、2)。 |
H |
時間を24時間制で表示します(たとえば、23)。 |
hh |
時間が1桁の場合は左側にゼロ詰めをして、時間を12時間制で表示します(たとえば、01)。 |
HH |
時間が1桁の場合は左側にゼロ詰めをして、時間を24時間制で表示します(たとえば、23)。 |
m |
分を表示します(たとえば、7)。 |
mm |
分が1桁の場合は左側にゼロ詰めをして、分を表示します(たとえば、07)。 |
s |
秒を表示します(たとえば、2)。 文字列に、s.#やs.00などのように、小数点を含めることができます(#はオプションの桁数を示し、0は必須桁数を示します)。 |
ss |
秒が1桁の場合は左側にゼロ詰めをして、秒を表示します(たとえば、02)。 文字列に、ss.#やss.00などのように、小数点を含めることができます(#はオプションの桁数を示し、0は必須桁数を示します)。 |
S |
ミリ秒を表示します(たとえば、2)。 |
SS |
ミリ秒が1桁の場合は左側にゼロ詰めをして、ミリ秒を表示します(たとえば、02)。 |
SSS |
ミリ秒が1桁の場合は左側にゼロ詰めをして、ミリ秒を表示します(たとえば、002)。 |
tt |
ユーザーのロケールで午前または午後を表す略語を表示します(たとえば、pm)。 |
gg |
ユーザーのロケールで年代を表示します。 |