Documentación de Oracle Cloud Infrastructure


Ejercicio 3: Visión general

Hay disponible una aplicación PySpark que realiza esta acción y que puede usar directamente en las aplicaciones de Data Flow, por lo que no es necesario que cree una copia.

Aquí se proporciona el texto de referencia del script de PySpark para ilustrar algunos aspectos:

Algunas observaciones sobre este código:
  1. El script de Python espera un argumento de la línea de comandos (resaltado en rojo). Cuando creemos la aplicación de Data Flow, necesitaremos crear un parámetro que el usuario definirá en la ruta de entrada.
  2. El script utiliza la regresión lineal para predecir un precio por anuncio y determina la mejor oferta restando el precio de lista de la predicción. El valor más negativo indica la mejor relación calidad-precio por modelo.
  3. El modelo de este script está extremadamente simplificado y solo tiene en cuenta la superficie en pies cuadrados. En una configuración real, se utilizarían más variables, como el vecindario y otras variables de predictor importantes.