Oracle AI Database新機能

機械学習 - 拡張機能

自動時系列モデル検索

この機能により、EXSM_MODEL設定を指定しない場合、指数平滑化アルゴリズムで予測モデル・タイプ(および関連するハイパーパラメータ)を自動的に選択できます。これにより、予測モデルがより正確になります。

この機能により、指数平滑化アルゴリズムのハイパーパラメータ検索が自動化され、手動または完全検索なしでより優れた予測モデルが生成されます。これにより、エキスパート以外のユーザーは、アルゴリズム・ハイパーパラメータの詳細な理解なしに時系列予測を実行しながら、データ・サイエンティストの生産性を向上させることができます。

ドキュメントの表示に関する項

OML4SQLでの埋込みを使用した密の予測の明示的なセマンティック分析のサポート

非構造化テキスト分析アルゴリズムの明示的セマンティック分析(ESA)は、一般的なdoc2vec (ドキュメントをベクトル化する)表現と機能的に同等である埋込みを使用して密の予測を出力できます。

doc2vec表現の生成は、分類や回帰などの他の機械学習技術への入力として役立ち、テキストのみで使用する場合、または他の構造化データと組み合せて使用する場合の精度を向上させます。ユースケースには、顧客に関するコール・センター担当者ノートからの非構造化テキストや、他の顧客または患者の構造化データとともに患者に対する医師ノートを処理して、予測結果を改善することが含まれています。

ドキュメントの表示に関する項

GLMリンク関数

データベース内一般化線形モデル(GLM)アルゴリズムは、ロジスティック回帰の追加のリンク関数(probit、cloglogおよびcauchit)をサポートするようになりました。

これらの追加リンク関数は、標準の一般化線形モデル(GLM)実装に一致する使用可能なセットを拡張しています。これは、ターゲット列のデータ分散の広い範囲を処理することで、精度などのモデルの品質が向上し、処理されるデータ・セットのクラスを拡張します。具体的には、probitリンク関数は、win/lose、churn/no-churn、buy/no-buyを予測する場合など、バイナリ(yes/noなど)のターゲット変数をサポートします。非対称リンク関数の補対数対数(cloglog)は、医療状態の再発までの期間を予測する場合など、1つの結果が比較的まれなバイナリ・ターゲット変数をサポートします。cauchitリンク関数は、データ記録エラーなどのデータの処理をより確実にサポートします。

ドキュメントの表示に関する項

カーディナリティの高いカテゴリ機能のためのデータ準備の改善

この機能では、カーディナリティの高いカテゴリ列に対してより効率的なデータ駆動型エンコーディングを可能にするために、設定ODMS_EXPLOSION_MIN_SUPPが導入されています。必要に応じて、展開マッピングのカテゴリ値のしきい値を調整したり(必要な最小サポートを定義)、機能を無効にしたりできます。

この機能では、カーディナリティの高いカテゴリ列のより効率的でデータ駆動型のエンコーディングが導入され、ユーザーはこのような列のデータを手動で準備せずにモデルを構築できます。

十分なサポートがあるもののみを含めるようにカテゴリ値を再コーディングすることで、数百万のカテゴリ値を持つ大規模なデータセットに効率的に対処できるため、メモリー制限を克服できます。

ドキュメントの表示に関する項

系統: モデルで保持されるデータ問合せ

この機能により、ユーザーはモデル作成のトレーニング・データの提供に使用されたデータ問合せを特定できます。ALL/DBA/USER_MINING_MODELSビュー内のBUILD_SOURCE列では、ユーザーが、モデルの生成に使用されたデータ問合せにアクセスできます。

この機能では、モデルのメタデータ内に構築データを指定するために実行される問合せ文字列が記録され、機械学習ライフサイクルおよびMLOpsをより適切にサポートします。

ドキュメントの表示に関する項

複数の時系列

指数平滑化アルゴリズムの複数時系列機能を使用すると、多変数時系列入力および休日フラグやプロモーション・フラグなどのインジケータ・データを含む時系列回帰モデルを簡単に構築できます。時系列回帰モデルを構築して、多変数時系列入力および休日フラグやプロモーション・フラグなどのインジケータ・データを含めることができます。

この機能により、1つ以上の入力時系列でバックキャストおよび予測を生成することで、データ・サイエンティストが手動で実行する多くの処理が自動化されます。この時系列では、ターゲット時系列で信頼度範囲も提供されます。結果は、他のMLアルゴリズムへの入力として使用されます。たとえば、多変数カテゴリ変数、数値変数および時系列変数を使用して、XGBoostを使用した時系列回帰をサポートする場合です。

ドキュメントの表示に関する項

OML4PyおよびOML4Rアルゴリズムとデータ型の拡張

Oracle Machine Learning for Python (OML4Py) APIでは、追加のデータベース内機械学習アルゴリズム、特に特徴抽出用のNon-negative Matrix Factorization (NMF)、時系列予測用の指数平滑法(ESM)、分類および回帰用のExtreme Gradient Boosting (XGBoost)が公開されます。OML4Pyでは、日付、時間および整数データ型のサポートが導入されています。

Oracle Machine Learning for R (OML4R) APIでは、追加のデータベース内マシン・アルゴリズム、特に時系列予測用の指数平滑法(ESM)、分類および回帰用のExtreme Gradient Boosting (XGBoost)、分類用のランダム・フォレストおよび分類および回帰用のニューラル・ネットワークが公開されます。

OML4RおよびOML4Pyの機能拡張により、Oracle AI Databaseが、データ・サイエンスと機械学習のプラットフォームとしてさらに有効になり、PythonとRから最も一般的なデータベース内アルゴリズムのいくつかが提供されます。

追加のデータベース内アルゴリズムにより、ESMを使用した需要予測、ランダム・フォレストを使用したチャーン予測とレスポンス・モデリング、NMFを使用したドキュメント・コレクションからのテーマの生成などのユース・ケースが可能になります。特徴抽出アルゴリズムとして、NMFは、他のアルゴリズムを使用してモデリングする前に、ディメンションの削減とデータ準備ステップをサポートします。XGBoostは、その高い予測精度で人気のある分類および回帰アルゴリズムであり、機械学習手法の生存分析もサポートします。ランダム・フォレストは、その優れた予測精度で人気のある分類アルゴリズムです。ニューラル・ネットワークは、センサー・データに見られるようなノイジーで複雑なパターンを持つデータに適しており、高速スコアリングを提供する分類および回帰アルゴリズムです。

OML4Pyでは、日付、時刻および整数データ型がサポートされており、このようなデータ型を含むデータベース表およびビューを操作できます。たとえば、データベース内で大規模にデータを変換および準備できます。

ドキュメントの表示に関する項

期待値最大化(EM)クラスタリングを使用した外れ値検出

期待値最大化アルゴリズムは、分散ベースの異常検出をサポートするように拡張されています。異常の確率を使用して、オブジェクトを通常または異常として分類します。 EMアルゴリズムは、異常の確率にマップされるデータ・レコードの確率密度を推定します。

異常検出に期待値最大化(EM)を使用すると、不正検出などの異常検出ユースケースをサポートするために使用できるアルゴリズムのセットが拡張されます。異なるアルゴリズムによりデータ内のパターンを異なる方法で識別できるため、機械学習のユースケースに対処する際に、複数のアルゴリズムを使用できることが利点です。

ドキュメントの表示に関する項

パーティション化されたモデル・パフォーマンスの向上

この機能により、パーティション化されたモデル内の多数のパーティション(最大32Kのコンポーネント・モデル)のパフォーマンスが向上し、パーティション化されたモデル内の個々のモデルの削除が高速化されます。

機械学習のユースケースでは、多くの場合、データのサブセットごとに1つのモデルを構築する必要があります。たとえば、状態、リージョン、顧客、機器ごとに1つのモデルを構築します。パーティション化されたモデル機能では、このようなモデルの構築がすでに自動化されており、単純化されたスコアリングのための単一のモデル抽象化が提供されています。この機能拡張により、多数のパーティションを使用する際の全体的なパフォーマンスが向上します。

ドキュメントの表示に関する項

OML4SQLでの制約および生存分析のXGBoostによるサポート

データベース内XGBoostアルゴリズムは、機械学習技術のサバイバル分析、および機能相互作用制約と単調制約をサポートするように拡張されています。制約により、変数の相互作用方法を選択できます。

生存分析は、複数の業界にとって重要な機械学習技術です。この機能強化により、機器の故障や医療の成果などを予測する際に、モデルの精度が向上します。具体的には、生存分析で最も使用されているモデルの1つであるAccelerated Failure Time (AFT)モデルでデータ・サイエンティストをサポートして、Cox比例ハザード回帰モデルを補完します。

相互作用制約および単調制約により、相互作用条件を指定するときにユーザー・ドメイン・ナレッジを活用することで、予測精度を向上するために使用される機能をより詳細に制御できます。

ドキュメントの表示に関する項