3.3 クラスタリング・ユース・ケース
小売店には、顧客の行動と購入に関する情報があります。 利用可能なデータでは、顧客間に類似点があるかどうかを分析して特定したいと考えています。 Oracle Machine Learningを使用して、データ・セット内のクラスタを検索して顧客をセグメント化します。このクラスタを使用して、ターゲットを絞ったマーケティング・キャンペーンをサポートし、小売売上を向上させることができます。 このユース・ケースでは、k-Meansアルゴリズムを使用してそのようなセグメントを識別する方法を学習します。
関連コンテンツ
表3-1 関連コンテンツ
トピック | リンク |
---|---|
OML4Py GitHubの例 | クラスタリングk-Means |
クラスタリングについて | クラスタリングについて |
モデル設定 | モデルの設定について |
共有設定 | 共有設定 |
k-Means - モデル・ディテール・ビュー | k-Meansのモデル・ディテール・ビュー |
(オプション)ここでタスクの目的など、関連する情報を入力します。
OML4Pyユース・ケース・ジャーニを開始する前に、次のものがあることを確認してください:
- データ・セット
このユースケースに使用されるデータ・セットは、SHスキーマからのものです。 SHスキーマは、Oracle Autonomous Databaseで簡単にアクセスできます。 オンプレミス・データベースの場合、スキーマはインストール時にインストールされるか、スクリプトをダウンロードして手動でインストールできます。 サンプル・スキーマのインストールを参照してください。
- データベース
次のオプションからデータベースを選択または作成します:
- 無償のクラウド・アカウントを取得します。 https://cloud.oracle.com/databaseにアクセスし、「Oracle Database Cloud Service (DBCS)」または「Oracle Autonomous Database」を選択します。 アカウントを作成してインスタンスを作成します。 Autonomous Databaseクイック・スタート・ワークショップを参照してください。
- Oracle Database (オンプレミス)の最新バージョンをダウンロードします。
- 機械学習ツール
データベースの選択内容に応じて、次のいずれかを実行します。
- Oracle Autonomous Database用のOML Notebooksを使用します。
- オンプレミス・データベースまたはDBCSに接続されたOracle SQL Developerをインストールして使用します。 SQL Developerのインストールおよび起動を参照してください。
- その他の要件
データ・マイニング権限(ADWに対して自動的に設定されます)。 Oracle Machine Learning for SQLのためのシステム権限を参照してください。
- データのロード
SHスキーマからデータ・セットにアクセスし、データを探索して属性を理解します。 - データの探索
データにアクセスできるようになったら、データを探索してデータの品質を理解し、評価します。 このステージでは、データを評価してデータ内のデータ型およびノイズを識別します。 欠損値および数値外れ値を探します。 - モデルの構築
モデルのパフォーマンスを評価するには、データをトレーニング・セットとテスト・セットに分割することが一般的です。 これにより、モデルがどの程度一般化して見えないデータを評価できます。 ただし、クラスタリングなどの教師なし学習では、精度を計算したりパフォーマンスを評価するために使用できるラベルや予測子はありません。 その結果、データセット全体を使用して、モデルを分割しなくてもモデルを構築できます。 結果を比較する根拠がないので、トレーニングとテストの分割は適用されず、教師なし学習には有用でもありません。 - 評価
様々なメトリックと手法を使用してパフォーマンスを評価し、モデルが新しい目に見えないデータにどの程度効果的に一般化されているかを判断して、モデルを評価します。 このプロセスでは、モデル・タイプに応じて、精度、適合度、リコール、F1スコア、平均平方根誤差などのメトリックを使用して、予測と実績結果を比較します。 この評価は、モデルの長所と短所を特定し、さらなる改善やチューニングをガイドするのに役立ちます。
関連トピック
親トピック: ユースケース