資料分析和語意建議

建立資料集時,Oracle Analytics 會執行資料欄層級的分析,以產生一組用以修復或增強資料的語意建議。在建立工作簿時,您也可以從「資料面板」新增知識增強項目,以在您的視覺化中包含知識增強項目。

這些建議所根據的是系統在分析步驟自動偵測特定語意類型。例如,以本機主題區域為基礎的資料集會使用簡單的「前 N 項」範例進行分析。

語意類型有多個類別,例如以縣/市名稱識別的地理位置、可辨識樣式 (例如信用卡、電子郵件地址及社會安全號碼中的樣式)、日期及重複出現的樣式。您也可以建立自己的自訂語意類型。

語意類型類別

分析適用於各種語意類型。

分析語意類型類別可識別:

  • 地理位置,例如縣/市名稱。
  • 樣式,例如信用卡號碼或電子郵件地址的樣式。
  • 反覆出現的樣式,例如以連字號連接的詞組資料。

語意類型建議

對於修復、強化或增強資料集的建議取決於資料類型。

語意類型建議範例:

  • 增強 - 為資料新增與偵測到的特定類型 (例如地理位置) 對應的新資料欄。例如,新增縣/市的人口資料。
  • 資料欄串接 - 若在資料集內偵測到一個包含名字和另一個包含姓氏的資料欄,系統會建議將它們串接成單一資料欄。例如,first_name_last_name 資料欄。
  • 語意擷取 - 語意類型若是由子類型 (例如包含區碼的 us_phone 號碼) 所組成時,系統會建議將子類型擷取至其自己的資料欄。
  • 部分擷取 - 在資料中偵測到一般樣式區隔符號時,系統會建議擷取該樣式的各個部分。例如,如果系統在資料中偵測到重複的連字情況,就會建議將各個部分擷取至個別的資料欄,讓資料對分析來說更具實用性。
  • 日期擷取 - 偵測到日期時,系統會建議擷取日期中可能增強資料分析的部分。例如,擷取發票或購買日期中的星期幾。
  • 完整和部分遮蔽/遮罩/刪除 - 偵測到機密欄位 (例如信用卡號碼) 時,系統會建議將該資料欄完全或部分遮蔽,或甚至是移除。

以辨識樣式為基礎的語意類型

語意類型根據您資料中發現的樣式來識別。

系統提供以下語意類型的建議:

  • 日期 (超過 30 種格式)
  • 美國社會安全號碼 (SSN)
  • 信用卡號碼
  • 信用卡屬性 (CVV 和到期日)
  • 電子郵件地址
  • 北美方案電話號碼
  • 美國地址

參照型語意類型

語意類型的認可是由隨服務提供的載入參照知識所決定。

系統提供以下語意類型的參照型建議:

  • 國家/地區名稱
  • 國碼
  • 州/省名稱
  • 州/省代碼
  • 縣/市名稱 (管轄區)
  • 縣/市名稱 (本地化名稱)
  • 郵遞區號

建議的增強項目

建議的增強項目以語意類型為依據。

增強項目則是依據地理位置階層決定:

  • 國家/地區
  • 省 (州)
  • 管轄區 (縣/市)
  • 經度
  • 緯度
  • 人口數
  • 海拔 (公尺)
  • 時區
  • ISO 國碼
  • 聯邦資訊處理系列 (FIPS)
  • 國家/地區名稱
  • 首都
  • GeoNames ID
  • 使用語言
  • 電話國碼
  • 郵遞區號格式
  • 郵遞區號樣式
  • 電話國碼
  • 幣別名稱
  • 幣別縮寫
  • 地理最上層網域 (GeoLTD)
  • 平方公里

所需臨界值

分析處理作業使用特定臨界值決定特定的語意類型。

基本原則是,資料欄中 85% 的資料值必須符合單一語意類型準則,以便讓系統進行分類判斷。因此,某個內容由 70% 的名字和 30% 其他項目組成的資料欄,並不符合臨界值要求,所以不會對其提供建議。

自訂知識建議

您可以使用自訂知識建議增強 Oracle Analytics 的系統知識。Oracle Analytics 語意分析工具可使用自訂知識識別更多業務特定語意類型,並提供更多相關且受管理的增強建議。例如,您可以新增自訂知識參考,將處方藥分類為 USP 的「鎮痛劑」或「類鴉片」藥物類別。

教學課程圖示 教學課程