建立並使用 Oracle Analytics 預測模型

Oracle Analytics 預測模型使用數個內嵌的機器學習演算法來探勘您的資料集、預測目標值或識別記錄類別。您可以使用資料流程編輯器來建立、訓練預測模型,並將其套用至您的資料。

何謂 Oracle Analytics 預測模型?

Oracle Analytics 預測模型會在資料集套用特定演算法,以預測值、預測類別或識別資料中的群組。

您也可以使用 Oracle 機器學習模型來預測資料。

Oracle Analytics 內含演算法,可協助您訓練各種用途的預測模型。演算法範例包括分類與迴歸樹 (CART)、邏輯式迴歸及 K-means。

您可以使用資料流程編輯器,先對訓練資料集訓練模型。預測模型經過訓練之後,您可以將其套用至想要預測的資料集。

您可以將經過訓練的模型提供給其他使用者使用,讓他們能夠對自己的資料套用該模型來預測值。在某些情況下,會由特定使用者訓練模型,並由其他使用者套用模型。

註:

如果不確定要從資料獲得什麼重點,可以從使用「說明」著手,其使用機器學習識別趨勢和模式。接著,您可以使用資料流程編輯器來建立和訓練預測模型,以展開「說明」所找出的趨勢和模式。
您可以使用資料流程編輯器來訓練模型:
  • 首先,您需建立資料流程,然後新增要用來訓練模型的資料集。此訓練資料集包含您要預測的資料 (例如,像是銷售或年齡的值,或是像信用風險儲存桶的變數)。
  • 如有需要,您可以使用資料流程編輯器,藉由新增資料欄、選取資料欄、結合等等來編輯資料集。
  • 確認資料是您要訓練並建立模型的資料後,您便可以將訓練步驟新增至資料流程,然後選擇分類 (二元或多重)、迴歸或叢集演算法來訓練模型。接著,為產生的模型命名、儲存資料流程,然後將其執行來訓練和建立模型。
  • 檢查機器學習物件中的特性以判斷模型品質。如有需要,您可以重覆執行訓練處理作業,直到模型達到您想要的品質為止。

使用完成的模型來為不明或未加上標籤的資料計分,以在資料流程內產生資料集,或將預測視覺化新增至工作簿。

範例

假設您想要建立和訓練多重分類模型,以預測哪些病患有高度發生心臟病的風險。

  1. 提供訓練資料集,內含個別病患的屬性 (例如年齡、性別、是否曾出現胸痛、以及血壓、空腹血糖、膽固醇和最大心率等度量)。此訓練資料集也包含一個名為「可能性」的資料欄,具有下列其中一個指定值:不存在、較不可能、可能、非常可能或存在。
  2. 選擇 CART (決策樹) 演算法,因為它會忽略不會新增值來進行預測的多餘資料欄,並會識別和僅使用有助於預測目標的資料欄。將演算法新增至資料流程時,您需選擇「可能性」資料欄來訓練模型。演算法會使用機器學習來選擇執行和輸出預測及相關資料集時所需的動因資料欄。
  3. 檢查結果並微調訓練模型,然後將模型套用至大型資料集,以預測哪些病患有高度發生心臟病的機率。

如何選擇預測模型演算法

Oracle Analytics 提供適用於任何機器學習模型建立需求的演算法:數值預測、多重分類、二元分類及分群法。

Oracle 的機器學習功能適用於進階資料分析人員,他們知道在資料中所要尋找的內容、熟悉預測分析做法,且瞭解演算法之間的差異。

註:

若您的資料來源為 Oracle Autonomous Data Warehouse,可以使用 AutoML 功能輕鬆快速地訓練預測模型,無需具備機器學習技能。請參閱在自治式資料倉儲使用 AutoML 訓練預測模型

通常,使用者會想要建立多個預測模型、互相比較,然後選擇最可能產生滿足其準則與需求之結果的模型。這些準則可能會有所不同。例如,有時使用者會選擇整體準確性較佳的模型,有時使用者會選擇類型 I (假陽性) 與類型 II (假陰性) 誤差最少的模型,而有時使用者則會選擇可較快傳回結果 (即使結果不盡理想) 且準確性尚可接受的模型。

Oracle Analytics 包含數個適用於每一種預測或分類的機器學習演算法。藉由這些演算法,使用者可以建立多個模型、使用不同的微調參數,或使用不同的輸入訓練資料集,然後選擇最佳模型。使用者可以根據自己的準則來進行比較並對模型加權,選擇最佳的模型。若要判斷最佳模型,使用者可以套用模型並將計算結果視覺化來判斷準確性,也可以開啟和瀏覽 Oracle Analytics 使用模型來輸出的相關資料集。

請參考此表格瞭解提供的演算法:

名稱 類型 類別 函數 描述
CART

分類

迴歸

二元分類器

多重分類器

數值

- 使用決策樹來預測離散值和連續值。

使用大型資料集。

彈性網路線性迴歸 迴歸 數值 ElasticNet 進階迴歸模型。提供其他資訊 (正規化)、執行變數選擇,以及執行線性組合。Lasso 和 Ridge 迴歸方法的罰值。

與大量屬性搭配使用,以避免發生共線性 (其中多個屬性完全關聯) 和過度擬合的情況。

階層 分群法 分群法 AgglomerativeClustering 使用由下而上 (每個觀測資料屬於自己的叢集,然後會合併) 或由上而下 (所有觀測資料都以一個叢集的形式開始) 建立分群法階層及距離度量。

在資料集不大且無法事先得知叢集數目時使用。

K-Means 分群法 分群法 k-means 反覆將記錄分割為 k 個叢集,每個觀測資料會被歸類至平均值與其最靠近的叢集中。

用於分群法度量資料欄,並搭配一組預期所需的叢集數目。適用於大型資料集。每次執行都會有不同的結果。

線性迴歸 迴歸 數值 Ordinary Least Squares

Ridge

Lasso

資料集內目標變數與其他屬性之間建立模型關係的線性方法。

在屬性並未完全關聯時,用來預測數值。

邏輯式迴歸 迴歸 二元分類器 LogisticRegressionCV 用來預測在類別上相依的變數值。相依變數是包含編碼為 1 或 0 之資料的二進位變數。
單純貝氏 (Naive Bayes) 分類

二元分類器

多重分類器

GaussianNB 以假設功能間並無相依性之貝氏 (Bayes) 定理為基礎的機率分類。

在有大量輸入維度時使用。

類神經網路 分類

二元分類器

多重分類器

MLPClassifier 反覆分類演算法,藉由比較具有實際值的分類結果來學習,並將其傳回至網路來修改演算法以供進一步反覆操作。

用於文字分析。

隨機樹系 分類

二元分類器

多重分類器

數值

- 一種整體學習方法,可建構多個決策樹並輸出集體代表所有決策樹的值。

用來預測數值和類別變數。

SVM 分類

二元分類器

多重分類器

LinearSVC、SVC 藉由在空間中對應記錄並建構可用於分類的超平面,來將記錄分類。新記錄 (計分資料) 會對應至空間中,並根據其落在超平面的哪一端來預測屬於某個類別。

使用 Oracle Autonomous Data Warehouse 中的 AutoML 訓練預測模型

使用 Oracle Autonomous Data Warehouse 的資料時,您可使用其 AutoML 功能建議與訓練預測模型。AutoML 可分析您的資料、計算要使用的最佳演算法,以及在 Oracle Analytics 中註冊預測模型,這樣就可對資料進行預測。

使用 AutoML 表示 Oracle Autonomous Data Warehouse 會為您執行所有繁複的工作,因此您無需具備機器學習或人工智慧技能,即可部署預測模型。產生的預測模型會儲存在「機器學習」頁面的「模型」區域中。若要根據新模型預測資料,請建立資料流程並使用套用模型步驟。
開始之前:
  • 根據要對其進行預測的 Oracle Autonomous Data Warehouse 資料建立資料集。例如,您可能有員工人力耗損的相關資料,內含名為 ATTRITION 的欄位,其中的 'Yes' 或 'No' 代表是否為人力耗損。
  • 請確定與 Oracle Autonomous Data Warehouse 連線的 Oracle Analytics 中指定的資料庫使用者具有 OML_Developer 角色,且不是「管理員」超級使用者。否則,當您嘗試儲存或執行資料流程時就會失敗。
  1. 首頁上,依序按一下建立資料流程
  2. 新增資料集中,選取內含要分析之資料且以 Oracle Autonomous Data Warehouse 為基礎的資料集。
  3. 按一下新增步驟,然後按一下 AutoML
  4. 按一下目標選取資料欄,然後選取包含您嘗試要預測之值的資料欄。
    例如,若要預測員工人力耗損,可選取名為 ATTRITION 的欄位,其中的 'TRUE' 或 'FALSE' 代表員工是否已離職。

  5. 接受 Oracle Analytics 建議的作業類型模型等級度量,或選取其他演算法。
  6. 按一下儲存模型,然後指定產生的預測模型名稱。
  7. 按一下儲存,然後指定資料流程名稱。
  8. 按一下執行即可分析資料並產生預測模型。
  9. 在首頁中,依序按一下瀏覽機器學習,然後在產生的模型上按一下滑鼠右鍵並選取檢查

建立及訓練預測模型

進階資料分析人員可根據需要解決的問題,選擇適當的演算法來訓練預測模型,然後評估模型的結果。

教學課程圖示 LiveLabs Sprint

得出準確的模型是一個反覆的處理過程,而進階資料分析人員可以嘗試不同的模型、比較其結果,然後根據試驗與誤差來微調參數。資料分析人員可以使用已完成的準確預測模型來預測其他資料集內的趨勢,或將模型新增至工作簿。

註:

若您的資料來源為 Oracle Autonomous Data Warehouse,可以使用 AutoML 功能輕鬆快速地訓練預測模型,無需具備機器學習技能。請參閱在自治式資料倉儲使用 AutoML 訓練預測模型

Oracle Analytics 提供用於數值預測、多重分類、二元分類及分群法的演算法。

您必須先將 Oracle 機器學習安裝至本機 Oracle Analytics Desktop 目錄,才能使用演算法。請參閱如何安裝適用於 Data Visualization Desktop 的機器學習元件?

  1. 首頁上,按一下建立,然後選取資料流程
  2. 選取要用來訓練模型的資料集。按一下新增
  3. 在資料流程編輯器中,按一下新增步驟 (+)
    新增資料集之後,您可以使用資料集內的所有資料欄來建立模型,或只選取相關資料欄。選擇相關資料欄需要對資料集有所瞭解。請忽略您知道不會影響結果行為或包含多餘資訊的資料欄。您可以藉由新增選取資料欄步驟,只選擇相關資料欄。如果您不確定哪些是相關資料欄,則使用所有資料欄。
  4. 選取其中一個訓練模型步驟 (例如訓練數值預測訓練分群法)。
  5. 選取演算法,然後按一下確定
  6. 如果您使用的是預測或分類等受監督的模型,請按一下目標,然後選取您要嘗試預測的資料欄。例如,如果您要建立模型來預測某位人員的收入,則請選取「收入」資料欄。
    如果您使用的是分群法等未受監督的模型,則不需要任何目標資料欄。
  7. 變更您模型的預設值,以微調和改善預測結果的準確性。您使用的模型會決定這些設定值。
  8. 按一下儲存模型步驟,然後提供名稱和描述。
  9. 按一下儲存,輸入資料流程的名稱和描述,然後按一下確定即可儲存資料流程。
  10. 按一下執行資料流程,以根據您提供的輸入資料集和模型設定值來建立預測模型。

檢查預測模型

建立預測模型並執行資料流程之後,您可以複查模型的相關資訊以判斷其準確性。您可以利用這項資訊來反覆調整模型設定值,以改善準確性並預測更好的結果。

檢視預測模型的詳細資訊

預測模型的詳細資訊可協助您瞭解模型,並判斷其是否適合用來預測您的資料。模型詳細資訊包含其模型類別、演算法、輸入資料欄及輸出資料欄

  1. 首頁上,依序按一下導覽器機器學習
  2. 按一下模型頁籤。
  3. 按一下訓練模型的功能表圖示,然後選取檢查
  4. 按一下詳細資訊以檢視模型的資訊。

評定預測模型的品質

檢視可協助您瞭解預測模型品質的資訊。例如,您可以複查準確性度量,例如模型準確性、查準率、查全率、F1 值及假陽性率。

不論使用哪一種演算法來建立模型,Oracle Analytics 都提供類似的度量,讓不同模型之間的比較更為容易。在建立模型的過程中,輸入資料集會分割成兩個部分,以根據「訓練分割區百分比」參數來訓練和測試模型。模型會使用資料集的測試部分來測試所建立模型的準確性。
根據品質頁籤中的結果,您可能需要調整模型參數並重新訓練模型。
  1. 首頁上,依序按一下導覽器機器學習
  2. 按一下模型頁籤。
  3. 按一下訓練模型的功能表圖示,然後選取檢查
  4. 按一下品質頁籤以複查模型的品質度量。

何謂預測模型的相關資料集?

當您執行資料流程以建立 Oracle Analytics 預測模型的訓練模型時,Oracle Analytics 會建立一組相關資料集。您可以在這些資料集上開啟和建立工作簿,以瞭解模型的準確性。

視您為模型所選擇的演算法而定,相關資料集會包含模型的詳細資訊,例如預測規則、準確性度量、混淆矩陣及預測的主要動因。您可以利用這項資訊來微調模型以取得更好的結果,且可以使用相關資料集來比較模型並判斷哪個模型比較準確。

例如,您可以開啟「動因」資料集,探索哪些資料欄對模型有強烈的正面或負面影響。藉由檢查這些資料欄,您會發現有些資料欄不被視為模型變數,因為它們並非實際的輸入,或對預測來說太過於細微。您可以使用資料流程編輯器來開啟模型,並根據您所發現的資訊,移除不相關或太細微的資料欄,然後重新產生模型。您可以查看「品質」和「結果」頁籤,以確認模型準確性是否有改善。您可以繼續此處理作業,直到您滿意模型準確性且模型已準備好為新資料集計分為止。

不同的演算法會產生類似的相關資料集。資料集內的個別參數與資料欄名稱可能依演算法類型而有所變更,但資料集的功能則保持不變。例如,統計資料集內的資料欄名稱可能會從「線性迴歸」變更為「邏輯式迴歸」,但統計資料集則是包含模型的準確性度量。

以下是相關資料集:

CARTree

此資料集是 CART (決策樹) 的列表化表示,經計算後可預測目標資料欄值。其中包含代表決策樹中條件與條件準則的資料欄、每個群組的預測,以及預測信賴度。「內建樹狀結構圖」視覺化可用來將此決策樹視覺化。

當您選取這些模型與演算法的組合時,即會輸出 CARTree 資料集。

模型 演算法
數值 用於數值預測的 CART
二元分類 CART (決策樹)
多重分類 CART (決策樹)

分類報表

此資料集是目標資料欄每個相異值準確性度量的列表化表示。例如,如果目標資料欄可以有「是」和「否」這兩個相異值,則此資料集會顯示目標資料欄每個相異值的準確性度量,例如 F1、查準率、查全率及支援 (訓練資料集內具有此值的資料列數目)。

當您選取這些模型與演算法的組合時,即會輸出「分類」資料集。

模型 演算法
二元分類

單純貝氏 (Naive Bayes)

類神經網路

支援向量機

多重分類

單純貝氏 (Naive Bayes)

類神經網路

支援向量機

混淆矩陣

此資料集 (也稱為誤差矩陣) 是樞紐分析表版面配置。每個資料列都代表所預測類別的一個執行處理,而每個資料欄則代表實際類別中的一個執行處理。此表格會回報假陽性、假陰性、真陽性及真陰性的數目,可用來計算查準率、查全率及 F1 準確性度量。

當您選取這些模型與演算法的組合時,即會輸出「混淆矩陣」資料集。

模型 演算法
二元分類

邏輯式迴歸

CART (決策樹)

單純貝氏 (Naive Bayes)

類神經網路

隨機樹系

支援向量機

多重分類

CART (決策樹)

單純貝氏 (Naive Bayes)

類神經網路

隨機樹系

支援向量機

動因

此資料集提供決定目標資料欄值之資料欄的相關資訊。線性迴歸可用來識別這些資料欄。每個資料欄都有指定的係數與關聯值。係數值描述用來決定目標資料欄值的資料欄權重。關聯值則代表目標資料欄與相依資料欄之間的關係方向。例如,目標資料欄的值是否會根據相依資料欄增加或減少。

當您選取這些模型與演算法的組合時,即會輸出「動因」資料集。

模型 演算法
數值

線性迴歸

彈性網路線性迴歸

二元分類

邏輯式迴歸

支援向量機

多重分類 支援向量機

Hitmap

此資料集包含決策樹葉節點的相關資訊。表格中的每個資料列皆代表一個葉節點,且包含描述該葉節點所代表項目的資訊,例如區隔大小、信賴度及預期的資料列數。例如,預期的正確預測數 = 區隔大小 * 信賴度。

當您選取這些模型與演算法的組合時,即會輸出 Hitmap 資料集。

模型 演算法
數值 用於數值預測的 CART

殘差

此資料集提供殘差預測品質的相關資訊。殘差指的是測量值與迴歸模型預測值之間的差異。此資料集包含資料集內所有資料欄之實際值與預測值之間絕對差異的聚總總計。

當您選取這些模型與演算法的組合時,即會輸出「殘差」資料集。

模型 演算法
數值

線性迴歸

彈性網路線性迴歸

用於數值預測的 CART

二元分類 CART (決策樹)
多重分類 CART (決策樹)

統計資料

此資料集的度量取決於用來產生它的演算法。請注意這個以演算法為依據的度量清單:

  • 線性迴歸、用於數值預測的 CART、彈性網路線性迴歸 - 這些演算法包含 R 平方、調整後 R 平方、平均絕對誤差 (MAE)、均方誤差 (MSE)、相對絕對誤差 (RAE)、相關平方誤差 (RSE)、均方根誤差 (RMSE)。
  • CART (分類與迴歸樹)、單純貝氏 (Naive Bayes) 分類、類神經網路、支援向量機 (SVM)、隨機樹系、邏輯式迴歸 - 這些演算法包含準確性、F1 總計。

當您選取這些模型與演算法的組合時,即會輸出此資料集。

模型 演算法
數值

線性迴歸

彈性網路線性迴歸

用於數值預測的 CART

二元分類

邏輯式迴歸

CART (決策樹)

單純貝氏 (Naive Bayes)

類神經網路

隨機樹系

支援向量機

多重分類

單純貝氏 (Naive Bayes)

類神經網路

隨機樹系

支援向量機

摘要

此資料集包含目標名稱與模型名稱之類的資訊。

當您選取這些模型與演算法的組合時,即會輸出「摘要」資料集。

模型 演算法
二元分類

單純貝氏 (Naive Bayes)

類神經網路

支援向量機

多重分類

單純貝氏 (Naive Bayes)

類神經網路

支援向量機

尋找預測模型的相關資料集

訓練預測模型時會產生相關資料集。

視演算法而定,相關資料集會包含模型的相關詳細資訊,例如:預測規則、準確性度量、混淆矩陣及預測的主要動因等。這些參數可協助您瞭解模型用來判斷預測與分類的規則。
  1. 首頁上,依序按一下導覽器機器學習
  2. 按一下模型頁籤。
  3. 按一下訓練模型的功能表圖示,然後選取檢查
  4. 按一下相關頁籤以存取模型的相關資料集。
  5. 按兩下相關資料集來檢視該資料集,或在工作簿中使用它。

新增預測模型至工作簿

在工作簿中建立案例時,您可以將預測模型套用至工作簿的資料集,以呈現模型在設計上所尋找的趨勢和模式。

註:

您無法對工作簿的資料套用 Oracle 機器學習模型。
將模型新增至工作簿並將模型的輸入值對應至資料集的資料欄之後,資料面板便會包含模型的物件,您可以將這些物件拖放到工作區上。機器學習會根據視覺化的相對應資料欄來產生模型的值。
  1. 首頁上,依序按一下建立工作簿
  2. 選取要用來建立工作簿的資料集,然後按一下新增至工作簿
  3. 資料窗格中,按一下新增,然後選取建立案例
  4. 建立案例 - 選取模型對話方塊中,選取模型並按一下確定
    您只能套用預測模型。您無法套用 Oracle 機器學習模型。
    如果每個模型輸入值無法與資料元素相符,就會顯示將資料對應至模型對話方塊。
  5. 如果顯示將資料對應至模型對話方塊,則在資料集欄位中,選取要與模型搭配使用的資料集。
  6. 視需要比對模型輸入值與資料元素。按一下完成
    案例會在資料元素窗格中顯示為資料集。
  7. 將元素從資料集和模型拖放到視覺化工作區上。
  8. 若要調整案例,在資料元素窗格中的案例上按一下滑鼠右鍵,然後選取編輯案例
  9. 視需要變更資料集和更新模型輸入值及資料元素對應。
  10. 按一下儲存以儲存工作簿。