Creación de una aplicación de Data Flow de Spark-Submit
Cree una aplicación Spark-Submit en Data Flow.
Cargue los archivos de envío de Spark en Oracle Cloud Infrastructure Object Storage. Consulte Configuración del almacén de objetos para obtener más información. - En la página Data Flow, en el menú de la izquierda, seleccione Aplicaciones. Si necesita ayuda para buscar la página Data Flow, consulte Listado de aplicaciones.
- En la página Aplicaciones, seleccione Crear aplicación.
- En el panel Crear aplicación, introduzca un nombre para la aplicación y una descripción opcional que pueda ayudarle a buscarla.
-
En Configuración de recursos, proporcione los siguientes valores. Para ayudar a calcular el número de recursos que necesita, consulte Cambio de tamaño de la aplicación de Data Flow.
- Seleccione la versión de Spark.
- (Opcional) Seleccione una agrupación.
- En Unidad de controlador, seleccione el tipo de nodo de cluster que desea utilizar para alojar el controlador de Spark.
- (Opcional) Si ha seleccionado una unidad flexible para el controlador, personalice el número de OCPU y la cantidad de memoria.
- En Unidad de ejecutor, seleccione el tipo de nodo de cluster que se utilizará para alojar cada ejecutor de Spark.
- (Opcional) Si ha seleccionado una unidad flexible para el ejecutor, personalice el número de OCPU y la cantidad de memoria.
- (Opcional) Para activar el uso de la asignación dinámica de Spark (escala automática), seleccione Activar escala automática.
- Introduzca el número de ejecutores que necesita. Si ha seleccionado utilizar la ampliación automática, introduzca un número mínimo y máximo de ejecutores.
-
En Configuración de aplicación, proporcione los siguientes valores.
- (Opcional) Si la aplicación es para el flujo de Spark, seleccione Flujo de Spark.
- Seleccione Usar opciones de envío de Spark. Las opciones de spark-submit soportadas son:
--py-files
--files
--jars
--class
--conf
La propiedad de configuración arbitraria de Spark en formatokey=value
. Si un valor contiene espacios, colóquelo entre comillas,"key=value"
. Pasar muchas configuraciones como argumentos separados, por ejemplo,--conf <key1>=<value1> --conf <key2>=<value2>
application-jar
La ruta a un JAR agrupado que incluye su aplicación y todas sus dependencias.application-arguments
Los argumentos transferidos al método principal de la clase principal.
- En el cuadro de texto Opciones de Spark-Submit, introduzca las opciones con el formato:
Por ejemplo, para utilizar el Origen de datos Oracle de Spark, utilice la siguiente opción:
--py-files oci://<bucket_name>@<objectstore_namespace>/<file_name> .pyoci://<bucket_name>@<objectstore_namespace>/<dependencies_file_name.zip> --files oci://<bucket_name>@<objectstore_namespace>/<file_name>.json --jars oci://<bucket_name>@<objectstore_namespace>/<file_name>.jar --conf spark.sql.crossJoin.enabled=true oci://<bucket_name>@<objectstore_namespace>/<file_name>.py oci://<argument2_path_to_input> oci://<argument3_path_to_output>
--conf spark.oracle.datasource.enable=true
Importante
Data Flow no soporta URI que empiecen porlocal://
ohdfs://
. El URI debe empezar poroci://
, por lo que todos los archivos (incluidomain-application
) deben estar en Oracle Cloud Infrastructure Object Storage. Utilice el nombre de dominio completo (FQDN) de cada archivo. - (Opcional) Si tiene un archivo
archive.zip
, carguearchive.zip
en Oracle Cloud Infrastructure Object Storage y rellene el URI de archivo con su ruta de acceso. Para ello, existen dos métodos:- Seleccione el archivo de la lista Nombre de archivo de Object Storage. Seleccione Cambiar compartimento si el cubo está en un compartimento diferente.
- Seleccione Introducir la ruta de acceso al archivo manualmente e introduzca el nombre de archivo y la ruta de acceso a este con el siguiente formato:
oci://<bucket_name>@<namespace_name>/<file_name>
- En Ubicación del log de aplicación, especifique dónde desea ingerir Oracle Cloud Infrastructure Logging de una de las siguientes formas:
- Seleccione el cubo
dataflow-logs
de la lista Nombre de archivo de almacenamiento de objetos. Seleccione Cambiar compartimento si el cubo está en un compartimento diferente. - Seleccione Introduzca la ruta al cubo de forma manual e introduzca la ruta al cubo con este formato:
oci://dataflow-logs@<namespace_name>
- No seleccione Introducir la ruta del cubo manualmente y seleccione el archivo.
- Seleccione el cubo
- (Opcional) Seleccione Metastore en la lista. Si el metastore está en un compartimento diferente, seleccione Cambiar compartimento en primer lugar, seleccione otro compartimento y, a continuación, seleccione el Metastore en la lista. La Ubicación de tabla gestionada por defecto se rellena automáticamente en función del metastore.
- (Opcional) En la sección Etiquetas, agregue una o más etiquetas a <resourceType>. Si tiene permisos para crear un recurso, también tiene permisos para aplicar etiquetas de formato libre a ese recurso. Para aplicar una etiqueta definida, debe tener permisos para utilizar el espacio de nombres de la etiqueta. Para obtener más información sobre el etiquetado, consulte Etiquetas de recursos. Si no está seguro de si aplicar etiquetas, omita esta opción o pregunte a un administrador. Puede aplicar etiquetas más tarde.
- (Opcional) Seleccione Mostrar opciones avanzadas y proporcione los siguientes valores.
- (Opcional) Seleccione Usar autenticación de entidad de recurso para activar un inicio más rápido o si espera que la ejecución dure más de 24 horas. Debe tener configuradas las políticas de entidad de recurso.
- Marque Activar Delta Lake para usar Delta Lake.
- Seleccione la versión de Delta Lake. El valor seleccionado se refleja en el par clave/valor de propiedades de configuración de Spark.
- Seleccione el grupo de logs.
- (Opcional) Seleccione Activar origen de datos de Oracle de Spark para utilizar el origen de datos de Oracle de Spark.
- (Opcional) En la sección Logs, seleccione los grupos de logs y los logs de aplicación para Oracle Cloud Infrastructure Logging. Si los grupos de logs están en un compartimento diferente, seleccione Cambiar compartimento.
- Agregue las propiedades de configuración de Spark. Introduzca un par Clave y Valor.
- Seleccione + Otra propiedad para agregar otra propiedad de configuración.
- Repita los pasos b y c hasta que haya agregado todas las propiedades de configuración.
- Para sustituir el valor por defecto para el cubo del almacén, rellene el URI de cubo de almacén con el formato:
oci://<warehouse-name>@<tenancy>
- Para Seleccionar acceso de red, seleccione una de las siguientes opciones:
- Si conecta un punto final privado a Data Flow, seleccione el botón de radio Acceso seguro a una subred privada. Seleccione el punto final privado en la lista resultante.
Nota
No puede utilizar una dirección IP para conectarse al punto final privado, debe utilizar el FQDN. - Si no está utilizando un punto final privado, seleccione el botón de radio Acceso a Internet (sin subred).
- Si conecta un punto final privado a Data Flow, seleccione el botón de radio Acceso seguro a una subred privada. Seleccione el punto final privado en la lista resultante.
- (Opcional) Para activar la recopilación de linaje de datos:
- Seleccione Activar recopilación de linaje de datos.
- Seleccione Introducir catálogo de datos en manualmente o seleccione una instancia de Data Catalog de un compartimento configurable en el arrendamiento actual.
- (Opcional) Si ha seleccionado Introducir catálogo de datos manualmente en el paso anterior, introduzca los valores para OCID de arrendamiento de Data Catalog, OCID de compartimento de Data Catalog y ODID de instancia de Data Catalog.
- (Opcional) Solo para trabajos por lotes, para Duración máxima de ejecución en minutos, introduzca un valor entre 60 (1 hora) y 10080 (7 días). Si no introduce un valor, la ejecución enviada continuará hasta que se realice correctamente, falle, se cancele o alcance su duración máxima por defecto (24 horas).
-
Seleccione Crear para crear la aplicación o seleccione Guardar como pila para crearla más tarde.
Para cambiar los valores de Nombre y URL de archivo en el futuro, consulte Edición de una aplicación.
Utilice el comando create y los parámetros necesarios para crear una aplicación:
Para obtener una lista completa de los indicadores y las opciones de variables para los comandos de la CLI, consulte la Referencia de comandos de la CLI.oci data-flow application create [OPTIONS]
Ejecute la operación CreateApplication para crear una aplicación.