用語集
アルゴリズム
問題を解決するための一連のステップ。Oracle Machine Learning for SQLのアルゴリズムを参照してください。Oracle Machine Learning for SQLのAPIでサポートされているアルゴリズムは、Apriori、デシジョン・ツリー、k-Means、MDL、Naive Bayes、GLM、O-Cluster、サポート・ベクター・マシン、期待値最大化および特異値分解です。
親トピック: 用語集
相関ルール
トランザクション間の各項目の同時発生性を見つけ出す機械学習手法です。典型的なルールは、項目セットAの存在が、一定の支持度および信頼度で項目セットBの存在を示すA -> B形式の関連付け。ルールの支持度とは、総トランザクション数に対する、項目セットAおよびBが存在するトランザクションの数の割合である。ルールの信頼度とは、項目セットAが存在するトランザクションの数に対する、項目セットAおよびBが存在するトランザクションの数の割合である。Oracle Machine Learning for SQLでは、相関モデルにはAprioriアルゴリズムが使用されます。
親トピック: 用語集
属性
属性は、予測モデルの予測子、または記述モデルの記述情報の項目を指す。データ属性は、モデルの作成に使用されるデータの列を指します。データ属性は、変換により、モデルで質的属性または量的属性として使用できるようになる。質的属性および量的属性はモデル属性である。「ターゲット」も参照。
親トピック: 用語集
属性評価
属性の評価の測度を提供し、指定されたターゲットを予測する機械学習手法です。ユーザーは、トレーニング・データ表の様々な属性の測度によって、機械学習モデルに対して最も適切であると判明した属性を選択できます。属性セットが小さいほど短時間でモデルが作成され、結果として生成されるモデルの精度が高くなる場合がある。Oracle Machine Learning for SQLでは、重要な属性の検出に最小記述長アルゴリズムが使用されます。「特徴選択」または「キー・フィールド」と呼ばれる場合もある。
親トピック: 用語集
自動データ準備
機械学習モデルは自動データ準備(ADP)で作成できます。ADPでは、アルゴリズムの要件に従って作成データが変換され、モデルに変換の指示が組み込まれます。組み込まれた変換は、新しいデータにモデルを適用するたびに実行されます。
親トピック: 用語集
ケース
特定のトランザクションまたは関連する値のセットに関して収集されたすべてのデータ。データセットはケースの集合である。ケースは、「レコード」または「サンプル」とも呼ばれる。最も単純な状況では、ケースは表内の1行に相当する。
親トピック: 用語集
ケース表
単一レコード・ケース形式の表またはビュー。各ケースのすべてのデータは、1つの行に格納される。ケース表には、各行の一意の識別子を格納するケースID列が含まれる場合がある。機械学習データはケース表として提供される必要があります。
親トピック: 用語集
質的属性
値が個別カテゴリに対応している属性。たとえば、州は、個別の値(CA、NY、MAなど)を持つ質的属性である。質的属性は、州、性別などのように順序付けられないもの(名称的)か、温度の高、中、低などのように順序付けられるもの(序数的)かのいずれかである。
親トピック: 用語集
分類
既知のターゲット値を含むレコードから作成したモデルを使用して、新しいレコードの質的ターゲット値を予測する機械学習手法です。Oracle Machine Learning for SQLでは、分類のアルゴリズムとしては、Naive Bayes、デシジョン・ツリー、一般化線形モデル、明示的セマンティック分析、ランダム・フォレスト、サポート・ベクター・マシンおよびXGBoostがサポートされています。
親トピック: 用語集
クラスタの重心
各属性について、クラスタに割り当てられたトレーニング・データにおけるケースの平均値(量的属性の場合)または最頻値(質的属性の場合)のエンコードを行うベクター。クラスタの重心は単に「重心」とも呼ばれる。
親トピック: 用語集
クラスタリング
データ内での自然発生的なグループを見つけるための機械学習手法です。より正確には、それぞれが属性セットを持つデータ・ポイントのセット、およびそのデータ・ポイント間の類似性測度があるものとすると、クラスタリングとは、相互に類似するデータ・ポイントを同じクラスタ内に、あまり類似しないデータ・ポイントを異なるクラスタ内にグループ化するための処理である。Oracle Machine Learning for SQLでサポートされているクラスタリング・アルゴリズムは、k-Means、直交パーティショニング・クラスタリングおよび期待値最大化の3つです。
親トピック: 用語集
混同マトリックス
これによって、テスト・タスクからのモデルによる予測の精度が測定される。混同マトリックスの行インデックスは、テスト・データで提供され、観測された「実測値」に対応する。列インデックスは、モデルをテスト・データに適用して生成された「予測値」に対応する。実測/予測インデックスの各組合せの値は、その組合せに分類されるレコードの数を表す。
予測値が実測値に等しい場合、モデルによって正確な予測が生成される。その他のすべてのエントリはエラーを示す。
親トピック: 用語集
コスト・マトリックス
予測値と実測値に関連するコストを定義するn×nの表です。コスト・マトリックスは通常、分類モデルで使用され、nはターゲット内の個別値の数で、列および行はターゲット値でラベル付けされます。行が実測値、列が予測値となります。
親トピック: 用語集
機械学習
機械学習を実施すると、大量に保管されているデータを自動的に検索して、単純な分析では得られないパターンや傾向を見つけることができます。機械学習では、高度な数学的アルゴリズムを使用して、データを分割し、将来のイベントの発生確率を判断します。機械学習は、データからの知識発見 (KDD)とも呼ばれます。
機械学習モデルには、指定されたデータセットについて、指定されたタイプの問題を解決するための、機械学習アルゴリズムが実装されています。
親トピック: 用語集
Oracle Machine Learning for SQLのアルゴリズム
Oracle Machine Learning for SQLのモデルを生成するための特別な手法または手順です。1つのアルゴリズムでは、特定のデータ表現、および特定の機械学習手法が使用されます。
Oracle Machine Learning for SQLでサポートされているアルゴリズムは、分類についてはNaive Bayes、サポート・ベクター・マシン、一般化線形モデル、デシジョン・ツリーおよびXGBoost、回帰についてはサポート・ベクター・マシン、一般化線形モデルおよびXGBoost、クラスタリングについてはk-Means、O-Clusterおよび期待値最大化、属性評価については最小記述長、特徴抽出についてはNon-Negative Matrix Factorizationおよび特異値分解、相関についてはApriori、異常検出については1クラス・サポート・ベクター・マシンおよび多変量状態推定技術 - 逐次確率比検定です。
親トピック: 用語集
機械学習サーバー
機械学習エンジンおよび永続メタデータ・リポジトリを実装している、Oracle Databaseのコンポーネントです。機械学習のタスクを実行する前に、機械学習サーバーに接続する必要があります。
親トピック: 用語集
離散化
離散化(ビニング)によって、単一値(またはビン)に基づいて、関連値が一緒にグループ化されます。これによって、列内の個別値の数が減少する。ビンの数が少なくなると、モデルが短時間で作成される。モデルの作成、テスト、リフトの計算、および適用(スコアリング)の前に入力データを離散化することによって、Oracle Machine Learning for SQLの多くのアルゴリズム(NBなど)にプラスとなる場合があります。アルゴリズムごとに異なるビニング・タイプが必要になる場合がある。Oracle Machine Learning for SQLでは、教師ありビニング、質的属性については上位N個の頻度ビニング、量的属性については等幅ビニングおよび分位ビニングがサポートされています。
親トピック: 用語集
距離ベース(クラスタリング・アルゴリズム)
距離ベースのアルゴリズムは、距離メトリック(関数)を使用して、データ・ポイント間の類似度を計測する。各データ・ポイントは、使用される距離メトリックに従って、最も近いクラスタに割り当てられる。
親トピック: 用語集
デシジョン・ツリー
デシジョン・ツリーは、分類システムまたは教師ありモデルを表します。ツリーは一連の問題として構築され、問題への答えはツリーをリーフまでさかのぼり、そのリーフで予測が生成されます。
デシジョン・ツリーは、クラスまたは値をもたらす一連の問題を表す方法である。デシジョン・ツリーの最上位ノードはルート・ノードと呼ばれ、終端ノードはリーフ・ノードと呼ばれる。デシジョン・ツリーは、各分割においてグループ間の距離が最大になるような、個々のグループへのデータの反復的な分割によって構築される。
デシジョン・ツリー・モデルの重要な特性は、透過的であるという点です。つまり、その分類を説明するルールが存在するということです。
「ルール」も参照。
親トピック: 用語集
期待値最大化
期待値最大化は、データの密度モデルを作成する確率的クラスタリング・アルゴリズムです。密度モデルによって、異なるドメインに由来するデータ(たとえば、販売トランザクションと顧客購買層、または構造化データとテキストなどの非構造化データ)を結合するアプローチを改善できます。
親トピック: 用語集
展開
質的属性に関して、複数値の質的列をいくつかの2項質的列で置き換える。属性を展開するには、属性がとる各個別値に新しい2項列を作成する必要がある。新しい列では、1は属性の値がその列の値をとることを示し、0はとらないことを示す。たとえば、質的属性が値{1, 2, 3}をとるとする。この属性を展開するために、col_1
、col_2
およびcol_3
という新しい列を3つ作成する。属性が値1をとる場合、col_1
の値は1であり、他の2つの列の値は0となる。
親トピック: 用語集
特徴抽出
元のデータを分解して、特徴の新しいセットを作成すること。特徴抽出を使用すると、通常、元の属性の数よりもはるかに少ない数の特徴でデータを記述できる。「Non-Negative Matrix Factorization」および「特異値分解」も参照してください。
親トピック: 用語集
一般化線形モデル
線形モデリング用の統計的手法。一般化線形モデル(GLM)は、単純な線形モデルのクラスを含んでおり、それらを拡張したものです。Oracle Machine Learning for SQLでは、GLM分類についてはロジスティック回帰が、GLM回帰については線形回帰がサポートされています。
親トピック: 用語集
k-Means
十分な数の個別ケースがある場合に、事前に決められた数のクラスタにデータをパーティション化する、距離ベースのクラスタリング・アルゴリズム。距離ベースのアルゴリズムは、距離メトリック(関数)を使用して、データ・ポイント間の類似度を計測する。各データ・ポイントは、使用される距離メトリックに従って、最も近いクラスタに割り当てられる。Oracle Machine Learning for SQLには、k-Meansの拡張バージョンが用意されています。
親トピック: 用語集
リフト
偶然取得される予測結果より、モデルを使用している予測結果がどのくらい優れているかの測度。たとえば、カタログを請求した顧客の2%が購入を行っていると仮定し、あるモデルを使用してカタログの請求者を絞ると請求者の10%が購入を行っていると仮定する。この場合、そのモデルのリフトは10/2、つまり5となる。リフトは、様々な機械学習モデルを比較するための測度としても使用できる場合があります。リフトは実際の結果を持つデータ表を使用して計算されるので、予測結果の当該データに関して、あるモデルがどの程度機能しているのかが比較される。リフトによって、実際の結果からランダムに選択した予測に対して、モデルがどの程度予測を向上させているかが示される。リフトを使用すると、新しいデータに対してモデルがどの程度機能するかを推測できる。
親トピック: 用語集
最小記述長
データのサンプルがあり、そのデータを説明するための適切な代替理論が効率的に列挙されている場合、最良の理論は次の合計を最小化するものである。
-
理論の記述のビット長
-
理論によってエンコードされる際のデータのビット長
最小記述長の原理は、属性評価におけるターゲット値の区別に最も影響のある属性の選択に使用されます。
親トピック: 用語集
機械学習手法
共通の高水準な特性がある、Oracle Machine Learning for SQLの主なサブドメインです。Oracle Machine Learning for SQL APIでは、次の機械学習手法がサポートされています: 分類、回帰、属性評価、特徴抽出、クラスタリング、および異常検出。
親トピック: 用語集
欠損値
ランダムに欠損したデータ値です。値は、使用できない、既知ではない、または喪失したため、欠損しています。Oracle Machine Learning for SQLでは、単純な(ネストしていない)データ型の列にある欠損値は、ランダムに欠損したと解釈されます。Oracle Machine Learning for SQLでは、ネストした列に欠損値がある場合、それらはパースとして解釈されます。
機械学習のアルゴリズムによって、欠損値の扱い方は異なります。一般的な処理方法として、欠損値を無視する、欠損値を含んでいるレコードを省く、欠損値を最頻値または平均値で置き換える、または既存値から欠損値を推測するなどがあげられる。「スパース・データ」も参照。
親トピック: 用語集
モデル
モデルは、アルゴリズムを使用して特定の機械学習手法を実装します。モデルは、教師ありモデルまたは教師なしモデルのいずれかである。モデルは、相関モデルから生成されたルールの検査や、データのスコアリング(結果の予測)など、直接検査のために使用できます。Oracle Databaseでは、機械学習のモデルは機械学習モデルのスキーマ・オブジェクトとして実装されます。
親トピック: 用語集
Naive Bayes
Bayesの定理に基づく分類用のアルゴリズムです。Naive Bayesでは、各属性は条件的に他の属性に従属しないものとみなされるため、あるターゲット値を考える際、各予測子の分布は他の予測子に依存しません。
親トピック: 用語集
ネストしたデータ
Oracle Machine Learning for SQLでは、トランザクショナル・データは、名前と値をペアで含むネストした列としてサポートされています。1対多の関係を表す多次元データはネストした列にロードして、ケース表内の単一レコード・ケース・データとともにマイニングできます。
親トピック: 用語集
ニューラル・ネットワーク
親トピック: 用語集
Non-Negative Matrix Factorization
ユーザーが定義した数の特徴を作成して多変量データを分解することにより、元のデータの縮小表現を生成する特徴抽出アルゴリズム。
親トピック: 用語集
正規化
正規化では、[–1.0,1.0]や[0.0,1.0]などの量的な値を、x_new = (x_old-shift)/scale
などのように特定の範囲に変換します。正規化は、量的属性に対してのみ適用されます。Oracle Machine Learning for SQLには、min-max正規化、スケール正規化およびz-スコア正規化を実行する変換が用意されています。
親トピック: 用語集
1クラス・サポート・ベクター・マシン
異常検出に関する問題の解決に使用されるサポート・ベクター・マシン・モデルのバージョン。アルゴリズムでは、ターゲットなしの分類が実行されます。
親トピック: 用語集
直交パーティショニング・クラスタリング
グリッドベースの階層クラスタリング・モデルを作成するOracle独自のクラスタリング・アルゴリズムであり、軸並行な(直行の)パーティションを入力属性空間に作成します。このアルゴリズムは再帰的に作用します。生成される階層構造は、属性空間をクラスタに分割する不規則なグリッドになります。
親トピック: 用語集
パーティション化モデル
REGION
という属性がデータセットにある場合に、これをパーティション化された属性として定義すると、リージョンごとに4つのサブモデルが作成されます。これらのサブモデルは単一のモデルとして管理され使用されます。この手法により、一般的な機械学習タスクが自動化され、複数のターゲット・モデルによって、より高い精度を実現できます。
親トピック: 用語集
ポジティブ・ターゲット値
2項分類の問題では、2つのクラス(ターゲット値)のうち1つをポジティブとし、もう1つをネガティブと指定できる。Oracle Machine Learning for SQLでは、モデルのリフトが計算される際に、そのモデルによって一定の信頼度でポジティブ値が予測される一連のテスト・インスタンスでの、ポジティブ・ターゲット値の密度が計算されます。
親トピック: 用語集
予測モデル
予測モデルは、他の既知の値(独立変数または入力)からは目に見えないか、測定されない値(従属変数または出力)を予測できるようにする式またはルールのセットである。式またはルールの形式は、調査中のプロセスから収集された機械学習データによって提案されます。トレーニングまたは評価手法の中には、式やルールのパラメータの評価に使用されるものがある。予測モデルは、教師ありモデルである。
親トピック: 用語集
既存データ
特定のアルゴリズムを使用したモデルの作成に適したデータ。多くの場合、機械学習プロジェクトでは、ほとんどの時間はデータ準備にかかります。自動データ準備では、アルゴリズム用のデータを自動的に準備することで、モデルの開発およびデプロイメントが大幅に簡略化されます。
親トピック: 用語集
事前確率
事前確率のセットによって、元のソース・データにおける様々なクラスのサンプルの分布が指定される。単に「事前」とも呼ばれ、モデルの作成に提供されるデータセットで観測される分布とは異なる場合がある。
親トピック: 用語集
再コーディング
文字どおり、コードを変更または再配置すること。再コーディングは、次に示すような特定のビジネス上の課題の要件に従ってデータを準備する際に有効になる場合があります。
-
欠損値の処理: 欠損値は、「0000」、「9999」、「NA」またはその他の文字列など、
NULL
以外のもので示される場合がある。欠損値を処理するには、「0000」からNULL
に再コーディングするなどの方法がある。これにより、Oracle Machine Learning for SQLのアルゴリズムおよびデータベースでは、その値は欠損値として認識されます。 -
変数のデータ型の変更: 「Y」または「Yes」を1に、「N」または「No」を0に変更するなど。
-
カットオフ値の確立: $20,000より少ないすべての収入を同じ値に再コーディングするなど。
-
項目のグループ化: USの個々の州を地域にグループ化するなど。「New England region」の構成要素としてME、VT、NH、MA、CTおよびRIがある場合、この5つの州を、NE (for New England)などと再コーディングする。
親トピック: 用語集
回帰
既知のターゲット値を含むレコードから作成したモデルを使用して、新しいレコードの連続的なターゲット値を予測する機械学習手法です。Oracle Machine Learning for SQLでは、回帰については、線形回帰(GLM)およびサポート・ベクター・マシンアルゴリズムがサポートされています。
親トピック: 用語集
スキーマ
表、ビュー、順序、ストアド・プロシージャ、シノニム、索引、クラスタ、データベース・リンクなどの論理構造を含むOracle Databaseのオブジェクトの集合です。スキーマは、特定のデータベース・ユーザーに関連付けられます。
親トピック: 用語集
特異値分解
直交線形投影を使用して基礎となるデータ分散を取得する特徴抽出アルゴリズムです。特異値分解は、非常に大規模なデータ・サイズ(行と属性の両方)に適切にスケーリングされ、優れたデータ圧縮機能を持ちます。
「特異値分解」を参照。
親トピック: 用語集
スパース・データ
ある特定のケースにおいて、非ゼロまたは非NULLである属性の割合が小さいデータ。マーケット・バスケットや非構造化テキストのデータは通常スパース・データです。Oracle Machine Learning for SQLでは、ネストしたデータはスパースとして解釈されます。「欠損値」も参照。
親トピック: 用語集
分割
あるデータセットをいくつかの非結合サブセットに分割すること。たとえば、分類に関する問題では多くの場合、データセットがトレーニング・データセットとテスト・データセットに分割される。
親トピック: 用語集
層別サンプル
データセットを非結合サブセット(層)に分割し、各サブセットからランダム・サンプルを取得すること。この手法は、ターゲット値の分布が大幅に偏っている場合に使用される。たとえば、マーケティング・キャンペーンに対する反応のポジティブ・ターゲット値が、そのキャンペーン期間の1%以下の場合などで使用される。層別サンプルにより、ポジティブ・ターゲット値とネガティブ・ターゲット値を区別する要因を学習するのに十分な数のポジティブ・サンプルが機械学習アルゴリズムに提供されます。「ランダム・サンプル」も参照。
親トピック: 用語集
教師ありビニング
高い知能を備える形式のビニングであり、ビンの境界はデータの重要な特性から導かれます。教師ありビニングでは、単一予測子のデシジョン・ツリーが作成され、ターゲットに関して特徴的なビンの境界が検出される。教師ありビニングは、量的属性または質的属性に使用できます。
親トピック: 用語集
教師ありモデル
既知の従属変数を使用して作成したデータ・マイニング・モデルで、ターゲットとも呼ばれます。教師ありマイニングの例として、分類および回帰手法があります。「教師なしモデル」を参照。「予測モデル」とも呼ばれます。
親トピック: 用語集
サポート・ベクター・マシン
機械学習理論を使用して、データへのオーバーフィットを自動的に回避しつつ予測の精度を最大化するアルゴリズム。サポート・ベクター・マシンでは、バイオインフォマティクスで扱われるデータのように、予測子の列が多い一方で行が比較的少ない分野などに見られるスパース・データについても予測できます。サポート・ベクター・マシンは、分類、回帰および異常検出に使用できます。
親トピック: 用語集
テキストの特徴
ドキュメントまたはドキュメントのクラスの重要な属性を捕捉する用語の組合せ。テキストの特徴とは通常、キーワード、用語の頻出度など、ドキュメント派生の特徴である。ドキュメントには通常、多くの用語が含まれるが、特徴の数は比較的少ない。
親トピック: 用語集
テキスト分析
テキストの特徴を使用して行われる従来型の機械学習です。テキストの特徴とは通常、キーワード、用語の頻出度など、ドキュメント派生の特徴である。テキストの特徴を抽出して、その他のデータと同様にマイニングを行う。Oracle Machine Learning for SQLとOracle Textの両方でテキスト分析がサポートされています。
親トピック: 用語集
時系列
時系列は、既知のターゲット値履歴のみに基づいてターゲット値を予測する機械学習機能です。これは特殊な形の回帰であり、文字どおり自己回帰モデルとして知られています。時系列では、指数平滑法がサポートされています。
親トピック: 用語集
上位N個の頻度ビニング
このタイプのビニングは、質的属性をビニングします。各属性のビンの定義は、データから計算される値の発生頻度に基づいて計算されます。ビンの数は、ユーザーが特定の数(N)を指定します。bin_1、...、bin_Nの各ビンが、頻度が上位にある値に対応します。ビンbin_N+1が、それ以外のすべての値に対応します。
親トピック: 用語集
トランザクショナル・データ
1つのケースのデータは、複数の行に格納されます。例としては、マーケット・バスケット・データ(ケースが複数の項目を含んでいる1つのバスケットを表す)があります。Oracle Machine Learning for SQLでは、トランザクショナル・データは、属性の名前と値をペアで含むネストした列としてサポートされています。「ネストしたデータ」、「複数レコード・ケース」および「単一レコード・ケース」も参照。
親トピック: 用語集
トリミング
外れ値の影響を最小限に抑える手法です。トリミングでは分布の両端の値が取り除かれ、以降の計算では取り除かれた値が無視される。トリミングでは、末端値をNULL
に設定します。
親トピック: 用語集
非構造化データ
画像、音声、映像、地理空間マッピング・データ、ドキュメントまたはテキストのデータは、まとめて非構造化データと呼ばれる。Oracle Machine Learning for SQLでは、非構造化テキスト・データの分析がサポートされています。
親トピック: 用語集
教師なしモデル
既知の正確な結果のガイダンス(監視)なしで作成された機械学習モデルです。教師あり学習では、この正確な結果がターゲット属性で提供される。教師なし学習には、そのようなターゲット属性がない。教師なし機械学習手法の例として、クラスタリングおよび相関があります。「教師ありモデル」を参照。
親トピック: 用語集
ウィンザライズ
外れ値の影響を最小限に抑える手法です。ウィンザライズでは、特定の属性の末端値を一定の指定値に設定する処理が伴う。たとえば、ウィンザライズを90%とする場合、下位5%の値は6パーセンタイルの最小値と同じ値に設定され、上位5%の値は95パーセンタイルの最大値と同じ値に設定される。
親トピック: 用語集