資料分析和語意建議

建立資料集時,Oracle Analytics 會執行資料欄層級的分析,以產生一組用以修復或增強資料的語意建議。在建立工作簿時,您也可以從「資料面板」新增知識增強項目,以在您的視覺化中包含知識增強項目。

註:

知識增強項目通常預設為啟用,但工作簿編輯器可針對其擁有或具備編輯權限的資料集啟用或停用這些增強項目。Oracle Analytics 不會自動對從資料流程產生的資料集提供增強建議。在此情況下,資料集擁有者或管理員必須先對資料集啟用知識增強功能選項。請參閱對資料集啟用知識增強功能

這些建議所根據的是系統在分析步驟自動偵測特定語意類型。例如,以本機主題區域為基礎的資料集會使用簡單的「最前 N 項」範例進行分析。

語意類型有多個類別,例如以縣/市名稱識別的地理位置、可辨識樣式 (例如信用卡、電子郵件地址及社會安全號碼中的樣式)、日期及重複出現的樣式。您也可以建立自己的自訂語意類型。

語意類型類別

分析適用於各種語意類型。

分析語意類型類別可識別:

  • 地理位置,例如縣/市名稱。
  • 樣式,例如信用卡號碼或電子郵件地址的樣式。
  • 反覆出現的樣式,例如以連字號連接的詞組資料。

語意類型建議

對於修復、強化或增強資料集的建議取決於資料類型。

語意類型建議範例:

  • 增強 - 為資料新增與偵測到的特定類型 (例如地理位置) 對應的新資料欄。例如,新增縣/市的人口資料。
  • 資料欄串接 - 若在資料集內偵測到一個包含名字和另一個包含姓氏的資料欄,系統會建議將它們串接成單一資料欄。例如,first_name_last_name 資料欄。
  • 語意擷取 - 語意類型若是由子類型 (例如包含區碼的 us_phone 號碼) 所組成時,系統會建議將子類型擷取至其自己的資料欄。
  • 部分擷取 - 在資料中偵測到一般樣式區隔符號時,系統會建議擷取該樣式的各個部分。例如,如果系統在資料中偵測到重複的連字情況,就會建議將各個部分擷取至個別的資料欄,讓資料對分析來說更具實用性。
  • 日期擷取 - 偵測到日期時,系統會建議擷取日期中可能增強資料分析的部分。例如,擷取發票或購買日期中的星期幾。
  • 完整和部分遮蔽/遮罩/刪除 - 偵測到機密欄位 (例如信用卡號碼) 時,系統會建議將該資料欄完全或部分遮蔽,或甚至是移除。

以辨識樣式為基礎的語意類型

語意類型根據您資料中發現的樣式來識別。

系統提供以下語意類型的建議:

  • 日期 (超過 30 種格式)
  • 美國社會安全號碼 (SSN)
  • 信用卡號碼
  • 信用卡屬性 (CVV 和到期日)
  • 電子郵件地址
  • 北美方案電話號碼
  • 美國地址

參照型語意類型

語意類型的認可是由隨服務提供的載入參照知識所決定。

系統提供以下語意類型的參照型建議:

  • 國家/地區名稱
  • 國碼
  • 州/省名稱
  • 州/省代碼
  • 縣/市名稱 (管轄區)
  • 縣/市名稱 (本地化名稱)
  • 郵遞區號

建議的增強項目

建議的增強項目以語意類型為依據。

增強項目則是依據地理位置階層決定:

  • 國家/地區
  • 省 (州)
  • 管轄區 (縣/市)
  • 經度
  • 緯度
  • 人口數
  • 海拔 (公尺)
  • 時區
  • ISO 國碼
  • 聯邦資訊處理系列 (FIPS)
  • 國家/地區名稱
  • 首都
  • GeoNames ID
  • 使用語言
  • 電話國碼
  • 郵遞區號格式
  • 郵遞區號樣式
  • 電話國碼
  • 幣別名稱
  • 幣別縮寫
  • 地理最上層網域 (GeoLTD)
  • 平方公里

所需臨界值

分析處理作業使用特定臨界值決定特定的語意類型。

基本原則是,資料欄中 85% 的資料值必須符合單一語意類型準則,以便讓系統進行分類判斷。因此,某個內容由 70% 的名字和 30% 其他項目組成的資料欄,並不符合臨界值要求,所以不會對其提供建議。

自訂知識建議

您可以使用自訂知識建議增強 Oracle Analytics 的系統知識。Oracle Analytics 語意分析工具可使用自訂知識識別更多業務特定語意類型,並提供更多相關且受管理的增強建議。例如,您可以新增自訂知識參考,將處方藥分類為 USP 的「鎮痛劑」或「類鴉片」藥物類別。

教學課程圖示 教學課程

要求您的管理員將自訂知識檔案上傳至 Oracle Analytics。當您增強資料集時,Oracle Analytics 會根據此語意資料提供增強建議。在建立工作簿時,您也可以從「資料面板」新增知識增強項目,以在您的視覺化中包含知識增強項目。

建立自己的自訂知識檔案

建立語意檔案時,請遵守以下準則:

  • 建立 CSV 或 Microsoft Excel (XLSX) 格式的資料檔。您可以上傳的檔案大小上限為 250 MB。
  • 在第一個資料欄填入索引鍵,Oracle Analytics 會使用該索引鍵分析資料。例如,索引鍵可以是單元塊為「天」的日期,以便依會計年度分析資料。
  • 在其他資料欄填入增強值。

要求管理員將您的自訂知識檔案上傳至 Oracle Analytics。

範例 - 將業務時間範圍整合至您的資料

本範例說明如何將業務時間範圍加到銷售資料,以及如何在原始資料集未包含會計資料時,依會計年度分析銷售。

此視覺化範例依季別顯示 2019、2020、2021、2022 以及 2023 年的銷售,各年以不同的色彩代表。您的來源銷售資料中沒有會計資料,因此您部署了其他自訂知識,將會計資料加到您的資料集。

首先,您將會計資料備妥於 Fiscal Calendar.xlsx 檔案。您的檔案中包含了日期 (mm-dd-yyyy)、會計年度、會計月份以及會計週別。例如,您來源檔案的日期資料欄中含有 01-23-2025,會計年度資料欄中含有 2025,以及用來完成其餘資料欄的屬性。

請管理員將 Fiscal Calendar.xlsx 上傳至主控台中的自訂知識區域。

接著,您建立其中包含 Sales 和 ORDER_DATE 的資料集,然後在資料集編輯器中選取增強建議中的使用會計年度增強 ORDER_DATE使用會計月份增強 ORDER_DATE。Oracle Analytics 會將這兩個增強項目加到資料集。

最後,您建立一個工作簿,並且將會計年度會計季別 (在 ORDER_DATE 底下) 以及銷售加到視覺化。注意:您可以直接新增會計年度會計季別,而不必新增原始的 ORDER_DATE 資料欄。