Oracle Analytics 預測模型使用數個內嵌的機器學習演算法來探勘您的資料集、預測目標值或識別記錄類別。您可以使用資料流程編輯器來建立、訓練預測模型,並將其套用至您的資料。
Oracle Analytics 預測模型會在資料集套用特定演算法,以預測值、預測類別或識別資料中的群組。
您也可以使用 Oracle 機器學習模型來預測資料。
Oracle Analytics 內含演算法,可協助您訓練各種用途的預測模型。演算法範例包括分類與迴歸樹 (CART)、邏輯式迴歸及 K-means。
您可以使用資料流程編輯器,先對訓練資料集訓練模型。預測模型經過訓練之後,您可以將其套用至想要預測的資料集。
您可以將經過訓練的模型提供給其他使用者使用,讓他們能夠對自己的資料套用該模型來預測值。在某些情況下,會由特定使用者訓練模型,並由其他使用者套用模型。
註:
如果不確定要從資料獲得什麼重點,可以從使用「說明」著手,其使用機器學習識別趨勢和模式。接著,您可以使用資料流程編輯器來建立和訓練預測模型,以展開「說明」所找出的趨勢和模式。使用完成的模型來為不明或未加上標籤的資料計分,以在資料流程內產生資料集,或將預測視覺化新增至工作簿。
範例
假設您想要建立和訓練多重分類模型,以預測哪些病患有高度發生心臟病的風險。
Oracle Analytics 提供適用於任何機器學習模型建立需求的演算法:數值預測、多重分類、二元分類及分群法。
Oracle 的機器學習功能適用於進階資料分析人員,他們知道在資料中所要尋找的內容、熟悉預測分析做法,且瞭解演算法之間的差異。
註:
若您的資料來源為 Oracle Autonomous Data Warehouse,可以使用 AutoML 功能輕鬆快速地訓練預測模型,無需具備機器學習技能。請參閱在自治式資料倉儲使用 AutoML 訓練預測模型。通常,使用者會想要建立多個預測模型、互相比較,然後選擇最可能產生滿足其準則與需求之結果的模型。這些準則可能會有所不同。例如,有時使用者會選擇整體準確性較佳的模型,有時使用者會選擇類型 I (假陽性) 與類型 II (假陰性) 誤差最少的模型,而有時使用者則會選擇可較快傳回結果 (即使結果不盡理想) 且準確性尚可接受的模型。
Oracle Analytics 包含數個適用於每一種預測或分類的機器學習演算法。藉由這些演算法,使用者可以建立多個模型、使用不同的微調參數,或使用不同的輸入訓練資料集,然後選擇最佳模型。使用者可以根據自己的準則來進行比較並對模型加權,選擇最佳的模型。若要判斷最佳模型,使用者可以套用模型並將計算結果視覺化來判斷準確性,也可以開啟和瀏覽 Oracle Analytics 使用模型來輸出的相關資料集。
請參考此表格瞭解提供的演算法:
名稱 | 類型 | 類別 | 函數 | 描述 |
---|---|---|---|---|
CART |
分類 迴歸 |
二元分類器 多重分類器 數值 |
- | 使用決策樹來預測離散值和連續值。
使用大型資料集。 |
彈性網路線性迴歸 | 迴歸 | 數值 | ElasticNet | 進階迴歸模型。提供其他資訊 (正規化)、執行變數選擇,以及執行線性組合。Lasso 和 Ridge 迴歸方法的罰值。
與大量屬性搭配使用,以避免發生共線性 (其中多個屬性完全關聯) 和過度擬合的情況。 |
階層 | 分群法 | 分群法 | AgglomerativeClustering | 使用由下而上 (每個觀測資料屬於自己的叢集,然後會合併) 或由上而下 (所有觀測資料都以一個叢集的形式開始) 建立分群法階層及距離度量。
在資料集不大且無法事先得知叢集數目時使用。 |
K-Means | 分群法 | 分群法 | k-means | 反覆將記錄分割為 k 個叢集,每個觀測資料會被歸類至平均值與其最靠近的叢集中。
用於分群法度量資料欄,並搭配一組預期所需的叢集數目。適用於大型資料集。每次執行都會有不同的結果。 |
線性迴歸 | 迴歸 | 數值 | Ordinary Least Squares
Ridge Lasso |
資料集內目標變數與其他屬性之間建立模型關係的線性方法。
在屬性並未完全關聯時,用來預測數值。 |
邏輯式迴歸 | 迴歸 | 二元分類器 | LogisticRegressionCV | 用來預測在類別上相依的變數值。相依變數是包含編碼為 1 或 0 之資料的二進位變數。 |
單純貝氏 (Naive Bayes) | 分類 |
二元分類器 多重分類器 |
GaussianNB | 以假設功能間並無相依性之貝氏 (Bayes) 定理為基礎的機率分類。
在有大量輸入維度時使用。 |
類神經網路 | 分類 |
二元分類器 多重分類器 |
MLPClassifier | 反覆分類演算法,藉由比較具有實際值的分類結果來學習,並將其傳回至網路來修改演算法以供進一步反覆操作。
用於文字分析。 |
隨機樹系 | 分類 |
二元分類器 多重分類器 數值 |
- | 一種整體學習方法,可建構多個決策樹並輸出集體代表所有決策樹的值。
用來預測數值和類別變數。 |
SVM | 分類 |
二元分類器 多重分類器 |
LinearSVC、SVC | 藉由在空間中對應記錄並建構可用於分類的超平面,來將記錄分類。新記錄 (計分資料) 會對應至空間中,並根據其落在超平面的哪一端來預測屬於某個類別。 |
使用 Oracle Autonomous Data Warehouse 的資料時,您可使用其 AutoML 功能建議與訓練預測模型。AutoML 可分析您的資料、計算要使用的最佳演算法,以及在 Oracle Analytics 中註冊預測模型,這樣就可對資料進行預測。
OML_Developer
角色,且不是「管理員」超級使用者。否則,當您嘗試儲存或執行資料流程時就會失敗。進階資料分析人員可根據需要解決的問題,選擇適當的演算法來訓練預測模型,然後評估模型的結果。
得出準確的模型是一個反覆的處理過程,而進階資料分析人員可以嘗試不同的模型、比較其結果,然後根據試驗與誤差來微調參數。資料分析人員可以使用已完成的準確預測模型來預測其他資料集內的趨勢,或將模型新增至工作簿。
註:
若您的資料來源為 Oracle Autonomous Data Warehouse,可以使用 AutoML 功能輕鬆快速地訓練預測模型,無需具備機器學習技能。請參閱在自治式資料倉儲使用 AutoML 訓練預測模型。Oracle Analytics 提供用於數值預測、多重分類、二元分類及分群法的演算法。
您必須先將 Oracle 機器學習安裝至本機 Oracle Analytics Desktop 目錄,才能使用演算法。請參閱如何安裝適用於 Data Visualization Desktop 的機器學習元件?
建立預測模型並執行資料流程之後,您可以複查模型的相關資訊以判斷其準確性。您可以利用這項資訊來反覆調整模型設定值,以改善準確性並預測更好的結果。
預測模型的詳細資訊可協助您瞭解模型,並判斷其是否適合用來預測您的資料。模型詳細資訊包含其模型類別、演算法、輸入資料欄及輸出資料欄
檢視可協助您瞭解預測模型品質的資訊。例如,您可以複查準確性度量,例如模型準確性、查準率、查全率、F1 值及假陽性率。
當您執行資料流程以建立 Oracle Analytics 預測模型的訓練模型時,Oracle Analytics 會建立一組相關資料集。您可以在這些資料集上開啟和建立工作簿,以瞭解模型的準確性。
視您為模型所選擇的演算法而定,相關資料集會包含模型的詳細資訊,例如預測規則、準確性度量、混淆矩陣及預測的主要動因。您可以利用這項資訊來微調模型以取得更好的結果,且可以使用相關資料集來比較模型並判斷哪個模型比較準確。
例如,您可以開啟「動因」資料集,探索哪些資料欄對模型有強烈的正面或負面影響。藉由檢查這些資料欄,您會發現有些資料欄不被視為模型變數,因為它們並非實際的輸入,或對預測來說太過於細微。您可以使用資料流程編輯器來開啟模型,並根據您所發現的資訊,移除不相關或太細微的資料欄,然後重新產生模型。您可以查看「品質」和「結果」頁籤,以確認模型準確性是否有改善。您可以繼續此處理作業,直到您滿意模型準確性且模型已準備好為新資料集計分為止。
不同的演算法會產生類似的相關資料集。資料集內的個別參數與資料欄名稱可能依演算法類型而有所變更,但資料集的功能則保持不變。例如,統計資料集內的資料欄名稱可能會從「線性迴歸」變更為「邏輯式迴歸」,但統計資料集則是包含模型的準確性度量。
以下是相關資料集:
CARTree
此資料集是 CART (決策樹) 的列表化表示,經計算後可預測目標資料欄值。其中包含代表決策樹中條件與條件準則的資料欄、每個群組的預測,以及預測信賴度。「內建樹狀結構圖」視覺化可用來將此決策樹視覺化。
當您選取這些模型與演算法的組合時,即會輸出 CARTree 資料集。
模型 | 演算法 |
---|---|
數值 | 用於數值預測的 CART |
二元分類 | CART (決策樹) |
多重分類 | CART (決策樹) |
分類報表
此資料集是目標資料欄每個相異值準確性度量的列表化表示。例如,如果目標資料欄可以有「是」和「否」這兩個相異值,則此資料集會顯示目標資料欄每個相異值的準確性度量,例如 F1、查準率、查全率及支援 (訓練資料集內具有此值的資料列數目)。
當您選取這些模型與演算法的組合時,即會輸出「分類」資料集。
模型 | 演算法 |
---|---|
二元分類 |
單純貝氏 (Naive Bayes) 類神經網路 支援向量機 |
多重分類 |
單純貝氏 (Naive Bayes) 類神經網路 支援向量機 |
混淆矩陣
此資料集 (也稱為誤差矩陣) 是樞紐分析表版面配置。每個資料列都代表所預測類別的一個執行處理,而每個資料欄則代表實際類別中的一個執行處理。此表格會回報假陽性、假陰性、真陽性及真陰性的數目,可用來計算查準率、查全率及 F1 準確性度量。
當您選取這些模型與演算法的組合時,即會輸出「混淆矩陣」資料集。
模型 | 演算法 |
---|---|
二元分類 |
邏輯式迴歸 CART (決策樹) 單純貝氏 (Naive Bayes) 類神經網路 隨機樹系 支援向量機 |
多重分類 |
CART (決策樹) 單純貝氏 (Naive Bayes) 類神經網路 隨機樹系 支援向量機 |
動因
此資料集提供決定目標資料欄值之資料欄的相關資訊。線性迴歸可用來識別這些資料欄。每個資料欄都有指定的係數與關聯值。係數值描述用來決定目標資料欄值的資料欄權重。關聯值則代表目標資料欄與相依資料欄之間的關係方向。例如,目標資料欄的值是否會根據相依資料欄增加或減少。
當您選取這些模型與演算法的組合時,即會輸出「動因」資料集。
模型 | 演算法 |
---|---|
數值 |
線性迴歸 彈性網路線性迴歸 |
二元分類 |
邏輯式迴歸 支援向量機 |
多重分類 | 支援向量機 |
Hitmap
此資料集包含決策樹葉節點的相關資訊。表格中的每個資料列皆代表一個葉節點,且包含描述該葉節點所代表項目的資訊,例如區隔大小、信賴度及預期的資料列數。例如,預期的正確預測數 = 區隔大小 * 信賴度。
當您選取這些模型與演算法的組合時,即會輸出 Hitmap 資料集。
模型 | 演算法 |
---|---|
數值 | 用於數值預測的 CART |
殘差
此資料集提供殘差預測品質的相關資訊。殘差指的是測量值與迴歸模型預測值之間的差異。此資料集包含資料集內所有資料欄之實際值與預測值之間絕對差異的聚總總計。
當您選取這些模型與演算法的組合時,即會輸出「殘差」資料集。
模型 | 演算法 |
---|---|
數值 |
線性迴歸 彈性網路線性迴歸 用於數值預測的 CART |
二元分類 | CART (決策樹) |
多重分類 | CART (決策樹) |
統計資料
此資料集的度量取決於用來產生它的演算法。請注意這個以演算法為依據的度量清單:
當您選取這些模型與演算法的組合時,即會輸出此資料集。
模型 | 演算法 |
---|---|
數值 |
線性迴歸 彈性網路線性迴歸 用於數值預測的 CART |
二元分類 |
邏輯式迴歸 CART (決策樹) 單純貝氏 (Naive Bayes) 類神經網路 隨機樹系 支援向量機 |
多重分類 |
單純貝氏 (Naive Bayes) 類神經網路 隨機樹系 支援向量機 |
摘要
此資料集包含目標名稱與模型名稱之類的資訊。
當您選取這些模型與演算法的組合時,即會輸出「摘要」資料集。
模型 | 演算法 |
---|---|
二元分類 |
單純貝氏 (Naive Bayes) 類神經網路 支援向量機 |
多重分類 |
單純貝氏 (Naive Bayes) 類神經網路 支援向量機 |