6.2 AutoML UI実験の作成

Oracle Machine LearningのAutoML UIを使用するには、まず実験を作成します。実験は、最小限のデータ・ソース、予測ターゲット、および予測タイプを指定する作業単位です。実験が正常に実行されると、選択したメトリックに従ってモデル品質の順に機械学習モデルのリストが表示されます。デプロイメントまたはノートブックを生成するために、これらのモデルのいずれかを選択できます。生成されたノートブックには、OML4Pyを使用するPythonコードと、モデルの生成に使用される特定の設定AutoMLが含まれています。

実験を作成するには、次の内容を指定します:
  1. 「名前」フィールドに、実験の名前を入力します。

    図6-5 AutoML実験の作成

    図6-5の説明が続きます
    「図6-5 AutoML実験の作成」の説明
  2. 「コメント」フィールドに、コメントを入力します(ある場合)。
  3. 「データ・ソース」フィールドで、スキーマとそのスキーマの表またはビューを選択します。検索アイコンをクリックして、「表の選択」ダイアログ・ボックスを開きます。スキーマを参照して選択し、AutoML UI実験のデータ・ソースであるスキーマ・リストから表を選択します。

    図6-6 「表の選択」ダイアログ

    「表の選択」ダイアログ
    1. 「スキーマ」列で、スキーマを選択します。

      ノート:

      データ・ソースを選択すると、実験ページの下部にある「特徴」グリッドに統計が表示されます。計算が完了するまで、ビジー・ステータスが示されます。「予測」で選択したターゲット列は、「特徴」グリッドで強調表示されます。
    2. 選択したスキーマに応じて、「表」列に使用可能な表がリストされます。表を選択し、「OK」をクリックします。

    ノート:

    別のユーザーのスキーマに存在する表またはビューに対してAutoML実験を作成するには、スキーマ内のその表またはビューにアクセスするための明示的な権限があることを確認します。データベース管理者またはスキーマの所有者に、表またはビューへのアクセス権限を付与するようリクエストします。次に例を示します:
    grant select on <table> to <user>
  4. 「予測」ドロップダウン・リストで、選択した表から列を選択します。これが予測のターゲットです。
  5. 「予測タイプ」フィールドで、データ定義に基づいて予測タイプが自動的に選択されます。ただし、データ型で許可されていれば、ドロップダウン・リストから予測タイプを上書きできます。サポートされている予測タイプは次のとおりです:
    • 分類: 数値以外のデータ型の場合、「分類」がデフォルトで選択されます。
    • 回帰: 数値データ型の場合、「回帰」がデフォルトで選択されます。
  6. 「ケースID」は、データ・サンプリングおよびデータセット分割で実験間で結果を再現する場合に役立ちます。また、結果のランダムネスの低減にも役立ちます。これはオプションのフィールドです。
  7. 「追加設定」セクションでは、次のものを定義できます:

    図6-7 AutoML実験の追加設定

    図6-7の説明が続きます
    図6-7 AutoML実験の追加設定」の説明
    1. リセット: 「リセット」をクリックすると、設定がデフォルト値にリセットされます。
    2. 最大上位モデル: 作成する上位モデルの最大数を選択します。デフォルトは、5モデルです。モデルをチューニングして各アルゴリズムの上位モデルを取得するには追加の時間が必要になるため、上位モデルの数を2または3に減らすことができます。最初の結果をさらに高速に取得する場合は、最上位の推奨アルゴリズムを検討してください。このために、「最大上位モデル」1に設定しますこれにより、そのアルゴリズムのモデルがチューニングされます。
    3. 最大実行期間: これは、実験に許可される最大実行時間です。時間を入力しない場合、実験はデフォルトの8時間まで実行できます。
    4. データベース・サービス・レベル: これは、データベース接続サービス・レベルおよび問合せ並列度レベルです。デフォルトは「低」です。これにより、並列処理が行われず、ランタイム制限が高く設定されます。Lowデータベース・サービス・レベルでは、多数の接続を作成できます。データベース・サービス・レベルをMediumまたはHighに変更することもできます。
      • Highレベルでは最大の並列度が得られますが、同時ジョブの数は大幅に制限されます。
      • Mediumレベルでは、一部の並列性が有効になりますが、ジョブ処理の同時実行性が向上します。

      ノート:

      Always Free Tierのデータベース・サービス・レベル設定を変更しても、1 OCPU制限があるため効果はありません。ただし、自律型データベース・インスタンスに割り当てられたOCPUを増やすと、「データベース・サービス・レベル」MediumまたはHigh.に上げることができます

      ノート:

      「データベース・サービス・レベル」設定は、AutoMLコンテナ・レベルのリソースには影響しません。
    5. モデル・メトリック: 成功モデルを選択するためのメトリックを選択します。AutoML UIでは、次のメトリックがサポートされています:
      • 「分類」でサポートされているメトリックは次のとおりです:
        • バランスの取れた精度
        • ROC AUC
        • F1 (加重オプションあり)。加重オプションは、「加重」、「バイナリ」、「マイクロ」および「マクロ」です。
          • マイクロ平均: ここでは、すべてのサンプルが最終的な平均メトリックに均等に関与します
          • マクロ平均: ここでは、すべてのクラスが最終的な平均メトリックに均等に関与します
          • 加重平均: ここでは、平均に対する各クラスの関与がそのサイズによって重み付けされます
        • 適合率(加重オプションあり)
        • 再現率(加重オプションあり)
      • 「回帰」でサポートされているメトリックは次のとおりです:
        • R2(デフォルト)
        • 負の平均二乗誤差
        • 負の平均絶対誤差
        • 負の中央絶対誤差
    6. アルゴリズム: サポートされるアルゴリズムは、選択した予測タイプによって異なります。アルゴリズムに対応するチェック・ボックスをクリックして選択します。デフォルトでは、実験の実行時にすべての候補アルゴリズムが考慮対象として選択されます。2つの予測タイプでサポートされているアルゴリズムは次のとおりです:
      • 「分類」でサポートされているアルゴリズムは次のとおりです:
        • デシジョン・ツリー
        • 一般化線形モデル
        • 一般化線形モデル(リッジ回帰)
        • ニューラル・ネットワーク
        • ランダム・フォレスト
        • Support Vector Machine(ガウス)
        • Support Vector Machine(線形)
      • 「回帰」でサポートされているアルゴリズムは次のとおりです:
        • 一般化線形モデル
        • 一般化線形モデル(リッジ回帰)
        • ニューラル・ネットワーク
        • Support Vector Machine(ガウス)
        • Support Vector Machine(線形)

      ノート:

      特定のアルゴリズムのプリファレンスがある場合、または特定の要件がある場合は、アルゴリズムを考慮から削除できます。たとえば、モデルの透明性が不可欠な場合、ニューラル・ネットワークなどのモデルを除外することは意味を持ちます。一部のアルゴリズムは、他のアルゴリズムよりもコンピュート集中型であることに注意してください。たとえば、Naïve Bayesおよびデシジョン・ツリーは通常、Support Vector Machineまたはニューラル・ネットワークより高速です。
  8. 「特徴」グリッドを展開して、選択した表の統計を表示します。サポートされている統計は、重複なしの値、最小、最大、平均および標準偏差です。「特徴」でサポートされているデータ・ソースは、表、ビューおよび分析ビューです。「予測」で選択したターゲット列が、ここで強調表示されます。実験の実行が完了すると、「特徴」グリッドに追加列「重要度」が表示されます。特徴の重要度は、特定の特徴に対する予測の全体的な感度レベルを示します。

    図6-8 特徴

    特徴
    次のタスクを実行できます。
    • リフレッシュ: 「リフレッシュ」をクリックすると、選択したデータ・ソースのすべての列および統計がフェッチされます。
    • 重要度の表示: 「重要度」の下の水平バーにカーソルを合せると、変数の特徴重要度の値が表示されます。値は常に0から1の範囲で表され、1に近いほど重要度が高くなります。
  9. 実験の定義を完了すると、「開始」ボタンと「保存」ボタンが使用可能になります。

    図6-9 実験の開始オプション

    実験開始のオプション
    • 「開始」をクリックして実験を実行し、進行状況バーに表示されるAutoML UIワークフローを開始します。ここでは、次のオプションを選択できます:
      1. より速い結果: 候補モデルをより早く(場合によっては正確性を犠牲にして)取得する場合は、このオプションを選択します。このオプションは、ハイパーパラメータの組合せの小さなセットで動作するため、より高速な結果が得られます。
      2. より良い精度:モデルの精度を上げるためにより多くのパイプラインの組合せを試す場合は、このオプションを選択します。パイプラインは、アルゴリズム、選択したデータ機能セットおよびアルゴリズム・ハイパーパラメータのセットとして定義されます。

        ノート:

        このオプションは、内部メタ学習モデルによって推奨される、より広範なハイパーパラメータ・オプションのセットで動作します。「より良い精度」を選択すると、実験の実行に時間がかかりますが、モデルの精度が向上する可能性があります。

      実験を開始すると、進捗バーに異なるアイコンが表示され、AutoML実験での機械学習ワークフローの各ステージのステータスが示されます。進捗バーには、実験の実行の完了にかかった時間も表示されます。メッセージの詳細を表示するには、それぞれのメッセージ・アイコンをクリックします。

    • 実験を保存して、後から実行する場合は、「保存」をクリックします。
    • 実験の作成を取り消す場合は、「取消」をクリックします。

6.2.1 AutoML UI実験でサポートされるデータ型

AutoML実験を作成するときは、実験のデータ・ソースとターゲットを指定する必要があります。このトピックでは、AutoML実験でサポートされるPythonおよびSQLのデータ型を示します。

表6-1 AutoML実験でサポートされるデータ型

データ型 SQLデータ型 Pythonデータ型
数値型 NUMBER, INTEGER, FLOAT, BINARY_DOUBLE, NUMBER, BINARY_FLOAT, DM_NESTED_NUMERICALS, DM_NESTED_BINARY_DOUBLES, DM_NESTED_BINARY_FLOATS

INTEGER, FLOAT(NUMBER, BINARY_DOUBLE, BINARY_FLOAT)

カテゴリ型

CHAR, VARCHAR2, DM_NESTED_CATEGORICALS

STRING(VARCHAR2, CHAR, CLOB)

非構造化テキスト

CHAR, VARCHAR2, CLOB, BLOB, BFILE

BYTES (RAW, BLOB)