演習3: 概要
これを実行するPySparkアプリケーションは、データ・フロー・アプリケーションで直接使用できるようになっており、コピーを作成する必要はありません。
次に、いくつかの点を説明するために、PySparkスクリプトのリファレンス・テキストを示します:
このコードからのいくつかの所見:
- Pythonスクリプトでコマンドライン引数(赤でハイライト表示)が必要です。データ・フロー・アプリケーションを作成する際、ユーザーが入力パスに設定するパラメータを作成する必要があります。
- このスクリプトは線形回帰を使用して、リスト当たりの価格を予測し、予測から定価を差し引いて最適な取引を決定します。最もマイナスの値は、モデルごとの最適値を示します。
- このスクリプト内のモデルは非常に簡略化されており、面積のみを考慮しています。実際の設定では、近隣や他の重要な予測子変数など、より多くの変数を使用します。