Creación de una aplicación SQL de Data Flow
Siga estos pasos para crear una aplicación SQL en Data Flow.
Cargue los archivos de envío de Spark en Oracle Cloud Infrastructure Object Storage. Consulte Configuración del almacén de objetos para obtener más información. - En la página Data Flow, en el menú de la izquierda, seleccione Aplicaciones. Si necesita ayuda para buscar la página Data Flow, consulte Listado de aplicaciones.
- En la página Aplicaciones, seleccione Crear aplicación.
- En el panel Crear aplicación, introduzca un nombre para la aplicación y una descripción opcional que pueda ayudarle a buscarla.
-
En Configuración de recursos, proporcione los siguientes valores. Para ayudar a calcular el número de recursos que necesita, consulte Cambio de tamaño de la aplicación de Data Flow.
- Seleccione la versión de Spark.
- (Opcional) Seleccione una agrupación.
- En Unidad de controlador, seleccione el tipo de nodo de cluster que desea utilizar para alojar el controlador de Spark.
- (Opcional) Si ha seleccionado una unidad flexible para el controlador, personalice el número de OCPU y la cantidad de memoria.
- En Unidad de ejecutor, seleccione el tipo de nodo de cluster que se utilizará para alojar cada ejecutor de Spark.
- (Opcional) Si ha seleccionado una unidad flexible para el ejecutor, personalice el número de OCPU y la cantidad de memoria.
- (Opcional) Para activar el uso de la asignación dinámica de Spark (escala automática), seleccione Activar escala automática.
- Introduzca el número de ejecutores que necesita. Si ha seleccionado utilizar la ampliación automática, introduzca un número mínimo y máximo de ejecutores.
-
En Configuración de aplicación, proporcione los siguientes valores.
- (Opcional) Si la aplicación es para el flujo de Spark, seleccione Flujo de Spark
-
Nota
Debe haber seguido los pasos de Introducción al flujo de Spark para que la aplicación de flujo funcione. - No seleccione Usar opciones de envío de Spark
- Seleccione SQL en las opciones de idioma.
- En Seleccionar un archivo, introduzca la URL del archivo de archivo para la aplicación. Hay dos formas de hacerlo:
- Seleccione el archivo de la lista Nombre de archivo de Object Storage. Seleccione Cambiar compartimento si el cubo está en un compartimento diferente.
- Seleccione Introducir la URL del archivo manualmente e introduzca el nombre de archivo y la ruta de acceso a este con el siguiente formato:
oci://<bucket_name>@<objectstore_namespace>/<file_name>
- (Opcional) Introduzca cualquier parámetro.
- Introduzca el nombre y el valor de cada parámetro.
- Para agregar otro parámetro, seleccione +Another parameter.
- (Opcional) Si tiene un archivo
archive.zip
, cárguelo en Oracle Cloud Infrastructure Object Storage y, a continuación, rellene el URI de archivo con su ruta de acceso. Para ello, existen dos métodos:- Seleccione el archivo de la lista Nombre de archivo de Object Storage. Seleccione Cambiar compartimento si el cubo está en un compartimento diferente.
- Seleccione Introducir la ruta de acceso al archivo manualmente e introduzca el nombre de archivo y la ruta de acceso a este con el siguiente formato:
oci://<bucket_name>@<namespace_name>/<file_name>
- En Ubicación del log de aplicación, especifique dónde desea ingerir Oracle Cloud Infrastructure Logging de una de las siguientes formas:
- Seleccione el cubo
dataflow-logs
de la lista Nombre de archivo de almacenamiento de objetos. Seleccione Cambiar compartimento si el cubo está en un compartimento diferente. - Seleccione Introduzca la ruta al cubo de forma manual e introduzca la ruta al cubo con este formato:
oci://dataflow-logs@<namespace_name>
- Seleccione el cubo
- (Opcional) Seleccione metastore en la lista. Si el metastore está en un compartimento diferente, seleccione Cambiar compartimento. La Ubicación de tabla gestionada por defecto se rellena automáticamente en función del metastore.
- (Opcional) En la sección Etiquetas, agregue una o más etiquetas a <resourceType>. Si tiene permisos para crear un recurso, también tiene permisos para aplicar etiquetas de formato libre a ese recurso. Para aplicar una etiqueta definida, debe tener permisos para utilizar el espacio de nombres de la etiqueta. Para obtener más información sobre el etiquetado, consulte Etiquetas de recursos. Si no está seguro de si aplicar etiquetas, omita esta opción o pregunte a un administrador. Puede aplicar etiquetas más tarde.
-
Agregue opciones de configuración avanzada.
- Seleccione Mostrar Opciones Avanzadas.
- (Opcional) Seleccione Usar autenticación de entidad de recurso para activar un inicio más rápido o si espera que la ejecución dure más de 24 horas.
- (Opcional) Seleccione Activar origen de datos de Oracle de Spark para utilizar el origen de datos de Oracle de Spark.
- Seleccione una versión de Delta Lake. El valor seleccionado se refleja en el par clave/valor de propiedades de configuración de Spark. Consulte Data Flow y Delta Lake para obtener información sobre Delta Lake.
- En la sección Logs, seleccione los grupos de logs y los logs de aplicación para Oracle Cloud Infrastructure Logging. Puede cambiar compartimento si los grupos de logs están en un compartimento diferente.
- Introduzca la clave de la propiedad de configuración de Spark y un valor.
- Si está utilizando el flujo de Spark, incluya la clave
spark.sql.streaming.graceful.shutdown.timeout
con un valor de no más de 30 minutos (en milisegundos). - Si utiliza el Origen de datos Oracle de Spark, incluya la clave
spark.oracle.datasource.enabled
con el valortrue
.
- Si está utilizando el flujo de Spark, incluya la clave
- Seleccione + Otra propiedad para agregar otra propiedad de configuración.
- (Opcional) Para sustituir el valor por defecto para el cubo del almacén, rellene el URI de cubo de cubo de cubo de almacén con el siguiente formato:
oci://<warehouse-name>@<tenancy>
- Seleccione el acceso de red.
- Si está asociando un punto final privado a Data Flow, seleccione Acceso seguro a la subred privada. Seleccione el punto final privado en la lista resultante. Nota
No puede utilizar una dirección IP para conectarse al punto final privado, debe utilizar el FQDN. - Si no utiliza un punto final privado, seleccione Acceso a Internet (sin subred).
- Si está asociando un punto final privado a Data Flow, seleccione Acceso seguro a la subred privada. Seleccione el punto final privado en la lista resultante.
- (Opcional) Para activar la recopilación de linaje de datos:
- Seleccione Activar recopilación de linaje de datos.
- Seleccione Introducir catálogo de datos en manualmente o seleccione una instancia de Data Catalog de un compartimento configurable en el arrendamiento actual.
- (Opcional) Si ha seleccionado Introducir catálogo de datos manualmente en el paso anterior, introduzca los valores para OCID de arrendamiento de Data Catalog, OCID de compartimento de Data Catalog y ODID de instancia de Data Catalog.
- Para Duración máxima de ejecución en minutos, introduzca un valor entre 60 (1 hora) y 10080 (7 días). Si no introduce un valor, la ejecución enviada continuará hasta que se realice correctamente, falle, se cancele o alcance su duración máxima por defecto (24 horas).
-
Seleccione Crear para crear la aplicación o seleccione Guardar como pila para crearla más tarde.
Para cambiar los valores de idioma, nombre y URL de archivo en el futuro, consulte Edición de una aplicación. No puede cambiar lenguaje si se ha seleccionado SQL.
Utilice el comando create y los parámetros necesarios para crear una aplicación:
Para obtener una lista completa de los indicadores y las opciones de variables para los comandos de la CLI, consulte la Referencia de comandos de la CLI.oci data-flow application create [OPTIONS]
Ejecute la operación CreateApplication para crear una aplicación.