Cambio del tamaño de la aplicación de Data Flow
Cada vez que ejecute una aplicación de Data Flow, especifique un tamaño y el número de ejecutores que, a su vez, decidan el número de OCPU utilizadas para ejecutar la aplicación Spark.
Una OCPU es igual a un núcleo de CPU, que a su vez es igual a dos vCPUs. Consulte Unidades de computación para obtener más información sobre cuántas OCPU contiene cada unidad.
Una guía aproximada consiste en asumir 10 GB de datos procesados por OCPU por hora. Los formatos de datos optimizados, como Parquet, parecen ejecutarse mucho más rápido porque solo se procesa un pequeño subjuego de datos. La fórmula para calcular el número de OCPU necesarias, suponiendo 10 GB de datos procesados por OCPU por hora, es:
<Number_of_OCPUs> = <Processed_Data_in_GB> / (10 * <Desired_runtime_in_hours>)
Por ejemplo, para procesar 1 TB de datos con un SLA de 30 minutos, se espera utilizar aproximadamente 200 OCPU:
<Number_of_OCPUs> = 1024 / (10 * 0.5) = 204.8
Puede asignar 200 OCPU de varias formas. Por ejemplo, puede seleccionar una unidad de ejecutor VM.Standard2.8 y 25 ejecutores totales para 8 * 25 = 200 OCPU totales.
Esta fórmula es una estimación aproximada y los tiempos de ejecución pueden diferir. Puede calcular mejor el ratio real de procesamiento de la carga de trabajo cargando la aplicación y viendo el historial de ejecuciones de la aplicación. Este historial le permite ver el número de OCPU utilizadas, el total de datos procesados y el tiempo de ejecución, lo que le permite estimar los recursos necesarios para cumplir los SLA. A partir de ahí, puede calcular la cantidad de datos que procesa una ejecución y cambiar el tamaño de la ejecución según sea necesario.
Nota
El número de OCPU está limitado por la unidad de máquina virtual que eligió y el valor definido en el arrendamiento para
El número de OCPU está limitado por la unidad de máquina virtual que eligió y el valor definido en el arrendamiento para
VM.Total
. No puede utilizar más máquinas virtuales en todas las unidades de máquina virtual que el valor de VM.Total. Por ejemplo, si cada unidad de máquina virtual está definida en 20 y VM.Total
está definida en 20, no puede utilizar más de 20 máquinas virtuales en todas las unidades de máquina virtual. Con unidades flexibles, en las que el límite se mide como núcleos u OCPU, 80 núcleos en una unidad flexible son iguales a 10 unidades VM.Standard2.8. Consulte Límites de servicio para obtener más información.Unidades de computación flexibles
Data Flow soporta unidades de computación flexibles para trabajos de Spark.
Están soportadas las siguientes unidades de computación flexibles:
- VM.Standard3.Flex (Intel)
- VM.StandardE3.Flex (AMD)
- VM.StandardE4.Flex (AMD)
- VM.Standard.A1.Flex (procesador de Arm de Ampere)
Al crear una aplicación o editar una aplicación, seleccione la unidad flexible para el controlador y el ejecutor. Para cada selección de OCPU, puede seleccionar la opción de memoria flexible.
Nota
El controlador y el ejecutor deben tener la misma unidad.
El controlador y el ejecutor deben tener la misma unidad.
Migración de aplicaciones desde unidades de computación VM.Standard2
Siga estos pasos al migrar las aplicaciones de Data Flow existentes de VM.Standard2 a unidades de computación flexibles.