6 開始使用 AutoML UI

AutoML 使用者介面 (AutoML UI) 是 Oracle Machine Learning 介面,提供無程式碼的自動化機器學習模型設計。當您在 AutoML UI 中建立和執行實驗時,它會執行自動化演算法選擇、功能選擇和模型調整,從而提高生產力,並可能提高模型準確性和效能。

下列步驟包含機器學習模型製作工作流程,並由 AutoML 使用者介面自動化:

  1. 演算法選擇:根據資料集及其特性,排名演算法可能產生更精確的模型,以及每個演算法資料集的一些預測功能。
  2. 調適性抽樣:尋找適當的資料範例。此階段的目標是加快「功能選擇」和「模型調整」階段,而不會降低模型品質。
  3. 功能選擇:選取目標最預測的功能子集。此階段的目標是減少後期管線階段中使用的功能數目,特別是在模型調整階段期間,以加速管線,而不會降低預測準確性。
  4. 模型調整:依據為每個列出的演算法選取的度量,提升個別演算法模型品質的目的。
  5. 功能預測影響:這是 AutoML UI 管線中的最後階段。此處會計算每個輸入資料欄對最終調整模型預測的影響。計算的預測影響可以深入解析已調整 AutoML 模型的行為。
沒有廣泛資料科學背景的企業使用者可以使用 AutoML UI 來建立和部署機器學習模型。Oracle Machine Learning AutoML UI 提供兩種功能:
  • 建立機器學習模型
  • 部署機器學習模型

AutoML UI 實驗

當您在 AutoML UI 中建立實驗時,它會自動執行機器學習工作流程中涉及的所有步驟。在實驗頁面中,將會列出您建立的所有實驗。要觀看任何實驗細節,請點擊實驗。此外,您也可以執行下列工作:

圖 6-1 實驗頁面

實驗頁面
  • 建立:按一下建立以建立新的 AutoML UI 實驗。您建立的 AutoML UI 實驗位於您在「工作區」下的「專案」中選取的專案內。
  • 編輯:選取此處列出的任何實驗,然後按一下編輯以編輯實驗定義。
  • 刪除:選取此處所列的任何實驗,然後按一下刪除將其刪除。您無法刪除正在執行的實驗。您必須先停止此實驗才能刪除 。
  • 複製:選取實驗並按一下複製以建立實驗的副本。此實驗會立即複製,且狀態為「就緒」。
  • 移動:選取實驗並按一下移動,即可將實驗移至相同或不同工作區中的其他專案。您必須具備 AdministratorDeveloper 權限,才能在專案和工作區之間移動實驗。

    附註:

    實驗若處於 RUNNING、STOPPING 或 STARTING 狀態,或目標專案中已有相同名稱的實驗存在,便無法移動。
  • 複製:選取實驗,然後按一下複製,將實驗複製到相同或不同工作區中的其他專案。
  • 開始: 若您已建立實驗,但尚未執行,請點擊開始以執行此實驗。
  • 停止:選取執行中的實驗,然後按一下停止以停止執行實驗。

相關主題

6.1 存取 AutoML UI

您可以從 Oracle Machine Learning Notebooks 存取 AutoML UI。

若要存取 AutoML UI,您必須先從 Autonomous Database 登入 Oracle Machine Learning Notebooks:
  1. 從 Autonomous Database 登入 Oracle Machine Learning Notebooks:
    1. 選取 Autonomous Database 執行處理,然後在 Autonomous Database 詳細資訊頁面上按一下資料庫動作

      圖 6-2 資料庫動作

      資料庫動作
    2. 在「資料庫動作」頁面上,移至「開發」區段,然後按一下 Oracle Machine Learning

      圖 6-3 Oracle Machine Learning

      Oracle Machine Learning
      即會開啟 Oracle Machine Learning 登入頁面。
    3. 請輸入您的使用者名稱與密碼,並按一下登入
    這會開啟 Oracle Machine Learning Notebooks 首頁。
  2. 在 Oracle Machine Learning Notebooks 首頁上,按一下 AutoML

    圖 6-4 AutoML 選項

    首頁和左側導覽功能表中的 AutoML 選項

    或者,您也可以按一下漢堡功能表,然後按一下「專案 (Projects)」下的 AutoML

6.2 建立 AutoML UI 實驗

若要使用 Oracle Machine Learning AutoML UI,請從建立實驗開始。實驗是一個工作單位,最少會指定資料來源、預測目標及預測類型。實驗順利執行之後,會根據選取的指標,以模型品質順序呈現機器學習模型清單。您可以選取其中任一模型進行部署或產生記事本。產生的記事本包含使用 OML4Py 的 Python 程式碼,以及用來產生模型的特定設定 AutoML。

若要建立實驗,請指定下列項目:
  1. 在「名稱」欄位中,輸入實驗的名稱。

    圖 6-5 建立 AutoML 實驗

    圖 6-5 的描述如下
    「圖 6-5 建立 AutoML 實驗」的描述
  2. 附註欄位中輸入附註 (如果有的話)。
  3. 資料來源欄位中,選取綱要和該綱要中的表格或視觀表。按一下搜尋圖示以開啟選取表格對話方塊。瀏覽並選取綱要,然後從綱要清單中選取一個表格,這是您 AutoML UI 實驗的資料來源。

    圖 6-6 選取表格對話方塊

    「選取表格」對話方塊
    1. 在「綱要 (Schema)」資料欄中選取綱要。

      附註:

      當您選取資料來源時,統計資料會顯示在實驗頁面底部的「功能」方格中。計算完成之前會指出忙碌狀態。您在「預測」中選取的目標欄會在「功能」方格中反白顯示。
    2. 視選取的綱要而定,可用的表格會列在「表格 (Table)」資料欄中。選取表格並按一下確定

    附註:

    若要為其他使用者綱要中的表格或視觀表建立 AutoML 實驗,請確定您具有明確的權限,可存取綱要中的該表格或視觀表。要求「資料庫管理員」或綱要的擁有者,提供您存取表格或視觀表的權限。舉例而言:
    grant select on <table> to <user>
  4. 預測下拉式清單中,從選取的表格中選取資料欄。這是您預測的目標。
  5. 預測類型欄位中,系統會根據您的資料定義自動選取預測類型。不過,如果資料類型允許,您可以從下拉式清單中覆寫預測類型。支援的預測類型包括:
    • 分類:對於非數值資料類型,預設會選取「分類」。
    • 迴歸:對於數值資料類型,預設會選取「迴歸」。
  6. 案例 ID 可協助分割資料抽樣與資料集,讓實驗之間的結果可以重新產生。它也有助於降低結果的隨機程度。這是選用性欄位。
  7. 在「其他設定值」區段中,您可以定義下列項目:

    圖 6-7 AutoML 實驗的其他設定

    圖 6-7 的描述如下
    「圖 6-7 AutoML 實驗的其他設定值」描述
    1. 重設:按一下重設,即可將設定值重設為預設值。
    2. 最上層模型數目上限:選取要建立的最上層模型數目上限。預設值為 5 模型。您可以將最上層模型數減少為 2 或 3,因為調整模型為每個演算法取得最上層模型需要額外的時間。如果您想要更快取得初始結果,請考慮使用最上面的建議演算法。因此,將最上層模型上限設為 1.這會調整該演算法的模型。
    3. 最大執行持續時間:這是實驗允許的最大執行時間。若您未輸入時間,則此實驗將被允許最多執行 8 小時。
    4. 資料庫服務層次:這是資料庫連線服務層次和查詢平行程度層次。預設值為 Low。這不會產生併行執行狀況並設定高程式實際執行限制。您可以建立許多與 Low 資料庫服務層次的連線。您也可以將資料庫服務層次變更為 MediumHigh
      • High 層次提供最大的平行程度,但顯著限制並行工作的數目。
      • Medium 層次可啟用部分併行執行,但允許較大的並行處理工作。

      附註:

      變更永遠免費層的資料庫服務層級設定將不會有任何作用,因為有 1 個 OCPU 限制。不過,如果您增加配置給自治式資料庫執行處理的 OCPU,可以將資料庫服務層級增加到 MediumHigh.

      附註:

      資料庫服務層次設定不會影響 AutoML 容器層次資源。
    5. 模型測量結果:選取測量結果以選擇獲勝的模型。AutoML UI 支援下列指標:
      • 對於「分類」,支援的分析指標為:
        • 平衡準確性
        • 羅克奧克
        • F1 (含加權選項)。加權選項包括加權、二進位、微觀與巨集。
          • 微平均:這裡所有樣本均對最終平均單位標準有貢獻
          • 巨集平均值:這裡,所有類別均對最終平均值度量有所貢獻
          • 加權平均值:這裡,每個類別對平均值的貢獻會依其大小加權
        • 精確度 (含加權選項)
        • 回職 (含加權選項)
      • 對於「回歸」,支援的指標為:
        • R2 (預設)
        • 負均方錯誤
        • 負平均絕對錯誤
        • 負中位數絕對誤差
    6. 演算法:支援的演算法取決於您選取的預測類型。按一下演算法的對應核取方塊來加以選取。依預設,所有候選演算法會在實驗執行時納入考量。支援兩種預測類型的演算法:
      • 對於「分類」,支援的演算法為:
        • 決策樹
        • 廣義線性模型
        • 廣義線性模型 (脊迴歸)
        • 類神經網路
        • 隨機樹系
        • 支援向量機 (高斯)
        • 支援向量機 (線性)
      • 對於「迴歸」,支援的演算法為:
        • 廣義線性模型
        • 廣義線性模型 (脊迴歸)
        • 類神經網路
        • 支援向量機 (高斯)
        • 支援向量機 (線性)

      附註:

      如果您有特定演算法的偏好,或有特定需求,則可以移除要考慮的演算法。例如,如果模型透明度是必要的,則排除「神經網路」之類的模型會有意義。請注意,某些演算法比其他演算法更為密集運算。例如,Naïve Bayes 和 Decision Tree 通常比 Support Vector Machine 或 Neural Network 更快。
  8. 展開功能 (Features) 方格以檢視所選表格的統計資料。支援的統計資料是「相異值」、「最小值」、「最大值」、「平均值」和「標準差」。支援的「功能」資料來源為表格、視觀表及分析視觀表。您在「預測」中選取的目標資料欄會在此反白顯示。實驗執行完成後,「功能」方格會顯示額外的資料欄重要性。「功能重要性」表示預測對特定功能的整體敏感度。

    圖 6-8 功能

    功能
    您可以執行下列工作:
    • 重新整理:按一下「重新整理」即可擷取所選資料來源的所有資料欄和統計資料。
    • 檢視重要性:將游標停留在「重要性」下的水平列上,以檢視變數的「功能重要性」值。此值一律描述在 01 的範圍內,而接近 1 的值則較為重要。
  9. 完成實驗定義後,會啟用開始儲存按鈕。

    圖 6-9 開始實驗選項

    開始試驗選項
    • 按一下開始以執行實驗並啟動進度列中顯示的 AutoML UI 工作流程。在此,您可以選擇:
      1. 更快的結果:如果您想要更快取得候選模型,可能會導致準確性降低,請選取此選項。此選項可搭配一組較小的超參數組合使用,因此可更快產生結果。
      2. 更精準度:如果您想要嘗試更精確的管線組合,請選取此選項。管線定義為演算法、選取的資料功能集,以及演算法超參數集。

        附註:

        此選項可搭配內部中繼學習模型建議的一組更廣泛的超參數選項使用。選取更精準度將需要較長的時間來執行您的實驗,但可能提供更準確的模型。

      開始實驗之後,進度列會顯示不同的圖示,以指出 AutoML 實驗中機器學習工作流程每個階段的狀態。進度列也會顯示完成實驗執行所需的時間。若要檢視訊息詳細資料,請按一下個別訊息圖示。

    • 按一下儲存以儲存實驗,稍後再執行。
    • 按一下取消以取消建立實驗。

6.2.1 AutoML UI 實驗支援的資料類型

建立 AutoML 實驗時,您必須指定實驗的資料來源和目標。本主題列出 AutoML 實驗支援的 Python 和 SQL 資料類型。

表格 6-1 AutoML 實驗支援的資料類型

資料類型 SQL 資料類型 Python 資料類型
數值 NUMBER, INTEGER, FLOAT, BINARY_DOUBLE, NUMBER, BINARY_FLOAT, DM_NESTED_NUMERICALS, DM_NESTED_BINARY_DOUBLES, DM_NESTED_BINARY_FLOATS

INTEGER, FLOAT(NUMBER, BINARY_DOUBLE, BINARY_FLOAT)

類別

CHAR, VARCHAR2, DM_NESTED_CATEGORICALS

STRING(VARCHAR2, CHAR, CLOB)

非結構化文字

CHAR, VARCHAR2, CLOB, BLOB, BFILE

BYTES (RAW, BLOB)

6.3 檢視試驗

在 AutoML UI 實驗頁面中,會列出您建立的所有實驗。每個實驗都會處於下列其中一個階段:已完成、執行中及就緒。

要觀看實驗,請點擊實驗名稱 。「實驗」頁面會顯示所選實驗的詳細資訊。此頁面包含下列段落:

編輯試驗

在這個部份中,您可以編輯選取的實驗 。按一下編輯即可對您的實驗進行編輯。

附註:

您無法編輯正在執行的實驗。

測量結果圖表

「模型度量圖表」說明實驗執行期間的最佳度量值。它顯示實驗進行時的準確度改善。顯示名稱取決於您建立實驗時選取的模型指標。

排行榜

實驗執行時,會開始在排行榜中顯示結果。「排行榜」會顯示相對於所選模型度量的最佳執行模型,以及演算法和準確性。您可以檢視模型詳細資訊並執行下列工作:

圖 6-10 排行榜

排行榜
  • 檢視模型詳細資訊:按一下模型名稱以檢視詳細資訊。模型詳細資訊會顯示在模型詳細資訊對話方塊中。您可以按一下「領先者名單」上的多個模型,並同時檢視模型詳細資料。模型詳細資訊視窗說明下列項目:
    • 預測影響:根據模型的目標預測,顯示屬性的重要性。
    • 混淆矩陣:依演算法在表格中顯示不同的實際與預測值組合。「混淆矩陣」可作為機器學習演算法的效能測量。
  • 部署:在「領先者名單」上選取任何模型,然後按一下部署以部署選取的模型。部署模型
  • 重新命名:按一下重新命名以變更系統產生之模型名稱的名稱。名稱必須是文數字 (不得超過 123 個字元),且不得包含任何空格。
  • 建立記事本:選取「導引板」上的任何模型,然後按一下從 AutoML UI 模型建立記事本,從程式碼重新建立選取的模型。
  • 測量結果:按一下測量結果,即可選取要在「領先者名單」中顯示的其他測量結果。其他測量結果包括:
    • 用於分類
      • 準確度:計算正確分類案例的比例 - 正數與負數。例如,如果總 TP (True Positives) +TN (True Negatives) 在 TP+TN+FP+FN (True Positives+True Negatives+False Positives+False Negatives) 案例中正確分類案例,則公式為:Accuracy = (TP+TN)/(TP+TN+FP+FN)
      • 平衡準確度:評估二進位分類器的優點。這在類別不平衡時特別有用,也就是說,當兩個類別的其中一個出現頻率比其他類別高時。這通常會在許多設定值中發生,例如異常偵測等等。
      • 回職:計算正確分類的實際職位比例。
      • 精確度:計算「真正數」的預測正數比例。
      • F1 分數:將精確度與回職結合成單一數字。F1 分數是使用調和平均值計算,由公式計算:F1-score = 2 × (precision × recall)/(precision + recall)
    • 用於回歸:
      • R2 (預設):一種統計計量,可計算資料與配適型迴歸線之間的距離。一般而言,R 平方值越高,模型越適合您的資料。R2 的值一律介於 0 到 1 之間,其中:
        • 0 表示模型未說明回應資料的平均值變化。
        • 1 表示模型說明回應資料在其平均值周圍的所有變化。
      • 負均方差:這是預測與真目標之平方差的平均值。
      • 負平均絕對錯誤:這是預測與真目標的絕對差異平均值。
      • 負中位數絕對錯誤:這是預測目標與真目標之間絕對差異的中位數。

功能

功能方格會顯示所選 experiment.The 支援之統計資料的統計資料,包括「相異值」、「最小值」、「最大值」、「平均值」以及「標準差」。支援的「功能」資料來源為表格、視觀表及分析視觀表。您在「預測」中選取的目標資料欄會在此反白顯示。實驗執行完成後,「功能」方格會顯示額外的資料欄重要性。「功能重要性」表示預測對特定功能的整體敏感度。將游標停留在圖表上即可檢視重要性的值。值一律描述在 01 的範圍內,而接近 1 的值則較為重要。

圖 6-11 功能

功能區段

6.3.1 從 AutoML UI 模型建立記事本

您可以使用 OML4Py 程式碼建立記事本,此程式碼會使用相同的設定值重新建立選取的模型。它也說明如何使用模型對資料進行評分。如果您想要使用程式碼重新建立類似的機器學習模型,此選項會非常有用。

若要從 AutoML UI 模型建立記事本,請執行下列動作:
  1. 在「排行榜」上選取您要建立筆記型電腦的模型,然後按一下建立記事本。就會開啟「建立記事本」對話方塊。

    圖 6-12 建立記事本

    建立記事本
  2. 記事本名稱欄位中,輸入記事本的名稱。
    REST API 端點會衍生實驗中繼資料,並視適用情況決定下列設定值:
    • 實驗的資料來源 (schema.table)
    • 案例 ID。如果實驗的「案例 ID」無法使用,則會顯示適當的訊息。
    • 根據目前模型名稱產生的唯一模型名稱
    • 評分段落的相關資訊:
      • 案例 ID:如果可用,則會將案例 ID 資料欄合併至評分輸出表格
      • 根據組建資料來源和唯一的尾碼產生唯一的預測輸出表格名稱
      • 預測資料欄名稱:PREDICTION
      • 預測機率資料欄名稱:PROBABILITY (僅適用於「分類」)
  3. 按一下確定。產生的記事本會列在「記事本」頁面中。按一下即可開啟記事本
    產生的記事本會顯示每個段落的段落標題以及 python 程式碼。當您執行記事本之後,它會顯示記事本的相關資訊以及 AutoML 實驗,例如存在記事本的實驗名稱、工作區和專案、使用者、資料、預測類型和預測目標、演算法,以及產生記事本時的時戳。 AutoML UI 產生的記事本