6 AutoML UIスタート・ガイド

AutoMLユーザー・インタフェース(AutoML UI)は、コーディングを必要としない自動化された機械学習モデリングを提供するOracle Machine Learningインタフェースです。AutoML UIで実験を作成して実行すると、自動化されたアルゴリズムの選択、特徴の選択およびモデルのチューニングが実行されるため、生産性が向上するのみでなく、モデルの精度とパフォーマンスが向上する可能性があります。

次のステップは、機械学習モデリング・ワークフローで構成され、AutoMLユーザー・インタフェースによって自動化されています。

  1. アルゴリズムの選択: データセットとその特性、および各アルゴリズムのデータセットの予測機能に基づいて、より正確なモデルを生成する可能性が高いアルゴリズムをランク付けします。
  2. 適応サンプリング: 適切なデータ・サンプルを検索します。このステージの目標は、モデルの品質を低下させることなく、特徴の選択およびモデルのチューニングのステージを高速化することです。
  3. 特徴の選択: ターゲットの予測に最も役立つ特徴のサブセットを選択します。このステージの目標は、予測パフォーマンスを低下させることなくパイプラインを高速化するために、後のパイプライン・ステージ(特にモデルのチューニング・ステージ)で使用される特徴の数を減らすことです。
  4. モデルのチューニング: 候補リストに挙げられた各アルゴリズムについて選択したメトリックに基づいて、個々のアルゴリズム・モデルの品質を向上させることを目的としています。
  5. 特徴予測の影響: これは、AutoML UIパイプラインの最終ステージです。ここでは、各入力列が最後にチューニングされたモデルの予測に与える影響が計算されます。計算された予測影響により、チューニングされたAutoMLモデルの動作を把握できます。
データ・サイエンスに関する幅広い経験がないビジネス・ユーザーでも、AutoML UIを使用して機械学習モデルを作成およびデプロイできます。Oracle Machine Learning AutoML UIには、次の2つの機能があります:
  • 機械学習モデルの作成
  • 機械学習モデルのデプロイ

AutoML UI実験

AutoML UIで実験を作成すると、機械学習ワークフローを構成するすべてのステップが自動的に実行されます。「実験」ページに、作成したすべての実験がリストされます。実験の詳細を表示するには、「実験」をクリックします。また、次のタスクも実行できます:

図6-1 実験ページ

実験ページ
  • 作成: 「作成」をクリックして、新規のAutoML UI実験を作成します。作成したAutoML UI実験は、「ワークスペース」の下の「プロジェクト」で選択したプロジェクトに配置されます。
  • 編集: ここにリストされたいずれかの実験を選択し、「編集」をクリックして実験定義を編集します。
  • 削除: ここにリストされたいずれかの実験を選択し、「削除」をクリックしてそれを削除します。実行中の実験は削除できません。実験を削除するには、まずそれを停止する必要があります。
  • 複製: 実験を選択し、「複製」をクリックしてそのコピーを作成します。実験は即時に複製されて、「準備完了」ステータスになります。
  • 移動: 実験を選択し、「移動」をクリックして、実験を同じワークスペースまたは別のワークスペース内の別のプロジェクトに移動します。プロジェクトおよびワークスペース間で実験を移動するには、管理者または開発者権限が必要です。

    ノート:

    実験は、RUNNING、STOPPING、またはSTARTING状態にある場合、または実験が同じ名前でターゲットプロジェクトにすでに存在する場合、移動できません。
  • コピー: 実験を選択し、「コピー」をクリックして、実験を同じワークスペースまたは別のワークスペース内の別のプロジェクトにコピーします。
  • 開始: 実験を作成したがまだ実行していない場合は、「開始」をクリックしてその実験を実行します。
  • 停止: 実行中の実験を選択し、「停止」をクリックして実験の実行を停止します。

関連トピック

6.1 AutoML UIへのアクセス

AutoML UIには、Oracle Machine Learning Notebooksからアクセスできます。

AutoML UIにアクセスするには、まずAutonomous DatabaseからOracle Machine Learning Notebooksにサインインする必要があります。
  1. Autonomous Databaseサービス・コンソールからOracle Machine Learning Notebooksにサインインするには:
    1. Autonomous Databaseインスタンスを選択し、Autonomous Databaseの詳細ページで「データベース・アクション」をクリックします。

      図6-2 データベース・アクション

      データベース・アクション
    2. データベース・アクション・ページで、「開発」セクションに移動し、「Oracle Machine Learning」をクリックします。

      図6-3 Oracle Machine Learning

      Oracle Machine Learning
      Oracle Machine Learningのサインイン・ページが開きます。
    3. ユーザー名とパスワードを入力し、サインインをクリックします。
    これにより、Oracle Machine Learning Notebooksホームページが開きます。
  2. Oracle Machine Learning Notebooksホームページで、AutoMLをクリックします。

    図6-4 AutoMLオプション

    ホーム・ページおよび左側のナビゲーション・メニューのAutoMLオプション

    または、ハンバーガ・メニューをクリックし、プロジェクトの下のAutoMLをクリックします。

6.2 AutoML UI実験の作成

Oracle Machine LearningのAutoML UIを使用するには、まず実験を作成します。実験は、最小限のデータ・ソース、予測ターゲット、および予測タイプを指定する作業単位です。実験が正常に実行されると、選択したメトリックに従ってモデル品質の順に機械学習モデルのリストが表示されます。デプロイメントまたはノートブックを生成するために、これらのモデルのいずれかを選択できます。生成されたノートブックには、OML4Pyを使用するPythonコードと、モデルの生成に使用される特定の設定AutoMLが含まれています。

実験を作成するには、次の内容を指定します:
  1. 「名前」フィールドに、実験の名前を入力します。

    図6-5 AutoML実験の作成

    図6-5の説明が続きます
    「図6-5 AutoML実験の作成」の説明
  2. 「コメント」フィールドにコメントを入力します(該当する場合)。
  3. 「データ・ソース」フィールドで、スキーマとそのスキーマの表またはビューを選択します。検索アイコンをクリックすると、「表の選択」ダイアログ・ボックスが開きます。スキーマを参照して選択し、AutoML UI実験のデータ・ソースであるスキーマ・リストから表を選択します。

    図6-6 「表の選択」ダイアログ

    「表の選択」ダイアログ
    1. 「スキーマ」列でスキーマを選択します。

      ノート:

      データ・ソースを選択すると、実験ページの下部にある「特徴」グリッドに統計が表示されます。ビジー・ステータスは、計算が完了するまで表示されます。「予測」で選択したターゲット列は、「特徴」グリッドで強調表示されます。
    2. 選択したスキーマに応じて、使用可能な表が「表」列にリストされます。表を選択し、「OK」をクリックします。

    ノート:

    別のユーザーのスキーマに存在する表またはビューに対してAutoML実験を作成するには、スキーマ内のその表またはビューにアクセスするための明示的な権限があることを確認します。データベース管理者またはスキーマの所有者に、表またはビューへのアクセス権限を付与するようリクエストします。たとえば:
    grant select on <table> to <user>
  4. 「予測」ドロップダウン・リストで、選択した表から列を選択します。これは、予測のターゲットです。
  5. 「予測タイプ」フィールドで、データ定義に基づいて予測タイプが自動的に選択されます。ただし、データ型で許可されている場合は、ドロップダウン・リストから予測タイプを上書きできます。サポートされている予測タイプは次のとおりです。
    • 分類: 数値以外のデータ型の場合、「分類」がデフォルトで選択されます。
    • 回帰: 数値データ型の場合、「回帰」がデフォルトで選択されます。
  6. ケースIDは、データ・サンプリングおよびデータセットの分割に役立ち、実験間で結果を再現できるようにします。また、結果のランダム性の低減にも役立ちます。これはオプションのフィールドです。
  7. 「追加設定」セクションでは、次を定義できます。

    図6-7 AutoML実験の追加設定

    図6-7の説明が続きます
    図6-7 AutoML実験の追加設定」の説明
    1. リセット: 「リセット」をクリックして、設定をデフォルト値にリセットします。
    2. 最大上位モデル: 作成する上位モデルの最大数を選択します。デフォルトは、5モデルです。モデルをチューニングして各アルゴリズムの上位モデルを取得するには追加の時間が必要になるため、上位モデルの数を2または3に減らすことができます。最初の結果をさらに高速に取得する場合は、最上位の推奨アルゴリズムを検討してください。このために、「最大上位モデル」1に設定しますこれにより、そのアルゴリズムのモデルがチューニングされます。
    3. 最大実行期間: これは、実験を実行できる最大時間です。時間を入力しない場合、実験はデフォルトの8時間まで実行できます。
    4. データベース・サービス・レベル: これは、データベース接続サービス・レベルおよび問合せ並列度レベルです。デフォルトはLowです。これにより、並列処理が行われず、ランタイム制限が高く設定されます。Lowデータベース・サービス・レベルでは、多数の接続を作成できます。データベース・サービス・レベルをMediumまたはHighに変更することもできます。
      • Highレベルでは最大の並列度が得られますが、同時ジョブの数は大幅に制限されます。
      • Mediumレベルでは、一部の並列性が有効になりますが、ジョブ処理の同時実行性が向上します。

      ノート:

      Always Free Tierのデータベース・サービス・レベル設定を変更しても、1 OCPU制限があるため効果はありません。ただし、自律型データベース・インスタンスに割り当てられたOCPUを増やすと、「データベース・サービス・レベル」MediumまたはHigh.に上げることができます

      ノート:

      「データベース・サービス・レベル」設定は、AutoMLコンテナ・レベルのリソースには影響しません。
    5. モデル・メトリック: ウイニング・モデルを選択するメトリックを選択します。AutoML UIでは、次のメトリックがサポートされます。
      • 分類の場合、サポートされるメトリックは次のとおりです。
        • バランスの取れた精度
        • ROC AUC
        • F1 (加重オプションあり)。加重オプションは、加重、バイナリ、マイクロおよびマクロです。
          • マイクロ平均: ここでは、すべてのサンプルが最終的な平均メトリックに均等に関与します
          • マクロ平均: ここでは、すべてのクラスが最終的な平均メトリックに均等に関与します
          • 加重平均: ここでは、平均に対する各クラスの関与がそのサイズによって重み付けされます
        • 適合率(加重オプションあり)
        • 再現率(加重オプションあり)
      • 回帰の場合、サポートされるメトリックは次のとおりです。
        • R2(デフォルト)
        • 負の平均二乗誤差
        • 負の平均絶対誤差
        • 負の中央絶対誤差
    6. アルゴリズム: サポートされるアルゴリズムは、選択した予測タイプによって異なります。アルゴリズムに対応するチェック・ボックスをクリックして選択します。デフォルトでは、実験の実行時にすべての候補アルゴリズムが考慮対象として選択されます。2つの予測タイプでサポートされているアルゴリズムは次のとおりです。
      • 分類の場合、サポートされるアルゴリズムは次のとおりです。
        • デシジョン・ツリー
        • 一般化線形モデル
        • 一般化線形モデル(リッジ回帰)
        • ニューラル・ネットワーク
        • ランダム・フォレスト
        • Support Vector Machine(ガウス)
        • Support Vector Machine(線形)
      • 回帰の場合、サポートされるアルゴリズムは次のとおりです。
        • 一般化線形モデル
        • 一般化線形モデル(リッジ回帰)
        • ニューラル・ネットワーク
        • Support Vector Machine(ガウス)
        • Support Vector Machine(線形)

      ノート:

      特定のアルゴリズムのプリファレンスがある場合、または特定の要件がある場合は、アルゴリズムを考慮から削除できます。たとえば、モデルの透明性が不可欠な場合、ニューラル・ネットワークなどのモデルを除外することは意味を持ちます。一部のアルゴリズムは、他のアルゴリズムよりもコンピュート集中型であることに注意してください。たとえば、Naïve Bayesおよびデシジョン・ツリーは通常、Support Vector Machineまたはニューラル・ネットワークより高速です。
  8. 「特徴」グリッドを展開して、選択した表の統計を表示します。サポートされている統計は、重複なしの値、最小、最大、平均および標準偏差です。特徴でサポートされているデータ・ソースは、表、ビューおよび分析ビューです。「予測」で選択したターゲット列がここで強調表示されます。実験の実行が完了すると、「特徴」グリッドに追加の「重要度」列が表示されます。特徴の重要度は、特定の特徴に対する予測の全体的な感度レベルを示します。

    図6-8 特徴

    特徴
    次のタスクを実行できます。
    • リフレッシュ: 「リフレッシュ」をクリックして、選択したデータ・ソースのすべての列および統計をフェッチします。
    • 重要度の表示: 「重要度」の下の水平バーにカーソルを重ねると、特徴の重要度の値が変数として表示されます。値は常に0から1の範囲で表され、1に近い方がより重要です。
  9. 実験の定義が完了すると、「開始」および「保存」ボタンが有効になります。

    図6-9 実験の開始オプション

    実験の開始オプション
    • 「開始」をクリックして実験を実行し、進行状況バーに表示されるAutoML UIワークフローを開始します。ここでは、次のオプションを選択できます。
      1. より速い結果: 候補モデルをより早く(場合によっては正確性を犠牲にして)取得する場合は、このオプションを選択します。このオプションは、ハイパーパラメータの組合せの小さなセットで動作するため、より高速な結果が得られます。
      2. より良い精度:モデルの精度を上げるためにより多くのパイプラインの組合せを試す場合は、このオプションを選択します。パイプラインは、アルゴリズム、選択したデータ機能セットおよびアルゴリズム・ハイパーパラメータのセットとして定義されます。

        ノート:

        このオプションは、内部メタ学習モデルによって推奨される、より広範なハイパーパラメータ・オプションのセットで動作します。「より良い精度」を選択すると、実験の実行に時間がかかりますが、モデルの精度が向上する可能性があります。

      実験を開始すると、進捗バーに異なるアイコンが表示され、AutoML実験での機械学習ワークフローの各ステージのステータスが示されます。進捗バーには、実験の実行の完了にかかった時間も表示されます。メッセージの詳細を表示するには、それぞれのメッセージ・アイコンをクリックします。

    • 実験を保存して後で実行するには、「保存」をクリックします。
    • 実験の作成を取り消すには、「取消」をクリックします。

6.2.1 AutoML UI実験でサポートされるデータ型

AutoML実験を作成するときは、実験のデータ・ソースとターゲットを指定する必要があります。このトピックでは、AutoML実験でサポートされるPythonおよびSQLのデータ型を示します。

表6-1 AutoML実験でサポートされるデータ型

データ型 SQLデータ型 Pythonデータ型
数値型 NUMBER, INTEGER, FLOAT, BINARY_DOUBLE, NUMBER, BINARY_FLOAT, DM_NESTED_NUMERICALS, DM_NESTED_BINARY_DOUBLES, DM_NESTED_BINARY_FLOATS

INTEGER, FLOAT(NUMBER, BINARY_DOUBLE, BINARY_FLOAT)

カテゴリ型

CHAR, VARCHAR2, DM_NESTED_CATEGORICALS

STRING(VARCHAR2, CHAR, CLOB)

非構造化テキスト

CHAR, VARCHAR2, CLOB, BLOB, BFILE

BYTES (RAW, BLOB)

6.3 実験の表示

AutoML UIの実験ページには、作成したすべての実験が一覧表示されます。各実験のステージは、「完了」、「実行中」、「準備完了」のいずれかになります。

実験を表示するには、実験名をクリックします。「実験」ページには、選択した実験の詳細が表示されます。内容は次のとおりです。

実験の編集

このセクションで、選択した実験を編集できます。「編集」をクリックして、実験を編集します。

ノート:

実行中の実験は編集できません。

メトリック・チャート

モデル・メトリック・チャートは、実験の実行時における経時的な最善のメトリック値を表します。これは、実験の実行が進行するにつれて精度の改善点を示します。表示名は、実験の作成時に選択したモデル・メトリックによって異なります。

リーダー・ボード

実験を実行すると、リーダーボードに結果が表示され始めます。リーダー・ボードには、選択したモデル・メトリックに関連する、パフォーマンスが最も高いモデルが、アルゴリズムおよび精度とともに表示されます。モデル詳細を表示して、次のタスクを実行できます。

図6-10 リーダー・ボード

リーダー・ボード
  • モデルの詳細の表示: モデル名をクリックして、詳細を表示します。「モデルの詳細」ダイアログ・ボックスにモデル詳細が表示されます。リーダー・ボードで複数のモデルをクリックし、モデルの詳細を同時に表示できます。「モデルの詳細」ウィンドウには、次の情報が表示されます。
    • 予測の影響: モデルのターゲット予測に関する属性の重要度が表示されます。
    • 混同行列: アルゴリズムによる実際の値と予測値の様々な組合せが表に表示されます。混同行列は、機械学習アルゴリズムのパフォーマンス測定として機能します。
  • デプロイ: リーダー・ボードで任意のモデルを選択し、「デプロイ」をクリックして、選択したモデルをデプロイします。「モデルのデプロイ」
  • 名前変更: 「名前変更」をクリックして、システム生成のモデル名を変更します。名前は英数字(123文字以内)で、空白を含めることはできません。
  • ノートブックの作成: リーダー・ボードで任意のモデルを選択し、AutoML UIモデルからのノートブックの作成をクリックして、選択したモデルをコードから再作成します。
  • メトリック: 「メトリック」をクリックして、リーダー・ボードに表示する追加メトリックを選択します。追加メトリックは次のとおりです。
    • 分類の場合
      • 精度:正数と負数の両方のケースを正しく分類する割合を計算します。たとえば、TP + TN + FP + FN (True Positives+True Negatives+False Positives+False Negatives)ケースから正しく分類されたTP (True Positives) + TN (True Negatives)ケースの合計がある場合、式は次のようになります。Accuracy = (TP+TN)/(TP+TN+FP+FN)
      • バランスの取れた精度: 二項分類子がどの程度良好かを評価します。これは、クラスが不均衡な場合、つまり2つのクラスのいずれかが他方よりも頻繁に出現する場合に特に便利です。これは、異常検出などの多くの設定でよく発生します。
      • 再現率: 正しく分類された実際の陽性の比率を計算します。
      • 適合率: 予測された陽性のうち真陽性であるものの割合を計算します。
      • F1スコア: 適合率と再現率を組み合せて単一の数値にします。F1-scoreは、次の式で計算される調和平均を使用して計算されます: F1-score = 2 × (precision × recall)/(precision + recall)
    • 回帰の場合:
      • R2(デフォルト): 適合回帰線へのデータの近似度を計算する統計的測定。一般に、R2乗の値が大きいほど、モデルはデータに適合します。R2の値は常に0から1の間です。
        • 0は、平均に関するレスポンス・データの変動がモデルで説明されていないことを示します。
        • 1は、平均に関するレスポンス・データのすべての変動をモデルが説明していることを示します。
      • 負の平均二乗誤差: これは、予測ターゲットと実際のターゲットの2乗差の平均です。
      • 負の平均絶対誤差: これは、予測ターゲットと実際のターゲットの絶対差の平均です。
      • 負の中央絶対誤差: これは、予測ターゲットと実際のターゲットの間の絶対差の中央値です。

特徴

「特徴」グリッドには、実験に対して選択した表の統計が表示されます。サポートされている統計は、重複なしの値、最小、最大、平均および標準偏差です。特徴でサポートされているデータ・ソースは、表、ビューおよび分析ビューです。「予測」で選択したターゲット列がここで強調表示されます。実験の実行が完了すると、「特徴」グリッドに追加の「重要度」列が表示されます。特徴の重要度は、特定の特徴に対する予測の全体的な感度レベルを示します。グラフの上にカーソルを置くと、重要度の値が表示されます。値は常に0から1の範囲で表され、1に近い方がより重要です。

図6-11 特徴

「特徴」セクション

6.3.1 AutoML UIモデルからのノートブックの作成

同じ設定を使用して、選択したモデルを再作成するOML4Pyコードを使用してノートブックを作成できます。また、モデルを使用してデータをスコアリングする方法も示します。このオプションは、コードを使用して類似の機械学習モデルを再作成する場合に役立ちます。

AutoML UIモデルからノートブックを作成するには:
  1. ノートブックの作成に使用するモデルをリーダー・ボードで選択し、「ノートブックの作成」をクリックします。「ノートブックの作成」ダイアログが表示されます。

    図6-12 ノートブックの作成

    ノートブックの作成
  2. 「ノートブック名」フィールドに、ノートブックの名前を入力します。
    REST APIエンドポイントは実験メタデータを導出し、必要に応じて次の設定を決定します。
    • 実験のデータソース(schema.table)
    • ケースID。実験のケースIDが使用できない場合は、該当するメッセージが表示されます。
    • 現在のモデル名に基づいて一意のモデル名が生成されます
    • 段落のスコアリングに関連する情報:
      • ケースID: 使用可能な場合は、「ケースID」列がスコアリング出力表にマージされます
      • ビルド・データ・ソースおよび一意の接尾辞に基づいて一意の予測出力表名を生成します
      • 予測列名: PREDICTION
      • 予測確率列名: PROBABILITY (分類にのみ適用可能)
  3. 「OK」をクリックします。生成されたノートブックが「ノートブック」ページにリストされます。クリックしてノートブックを開きます。
    生成されたノートブックには、各段落の段落タイトルがpythonコードとともに表示されます。ノートブックを実行すると、ノートブックおよびAutoML実験に関連する情報(実験名、ノートブックが存在するワークスペースとプロジェクト、ユーザー、データ、予測タイプと予測ターゲット、アルゴリズム、およびノートブックが生成されたときのタイムスタンプなど)が表示されます。AutoML UIで生成されたノートブック