Antes de empezar con los puntos finales SQL de Data Flow
Revise los requisitos para los puntos finales SQL de Data Flow.
Para utilizar puntos finales SQL de Data Flow, debe tener:
- Cuenta de de Oracle Cloud Infrastructure. Las cuentas de prueba se pueden utilizar para mostrar Data Flow.
- Rol de administrador de servicio para los servicios de Oracle Cloud. Cuando se activa el servicio, las credenciales y la URL se envían al administrador de cuentas elegido. El administrador de cuentas crea una cuenta para cada usuario que necesite acceder al servicio.
- Un explorador soportado, como:
-
Microsoft Internet Explorer 11.x o posterior
-
Mozilla Firefox ESR 38 o posterior
-
Google Chrome 42 o posterior
Nota
Para la interfaz de usuario de Spark, solo utilice Google Chrome. -
-
Datos para procesamiento cargados en Object Storage. Los datos se pueden leer desde fuentes de datos externas o servicios en la nube. Los puntos finales SQL de Data Flow optimizan el rendimiento y la seguridad de los datos almacenados en Object Storage.
Evite introducir información confidencial al asignar descripciones, etiquetas o nombres fáciles de recordar a los recursos en la nube mediante la consola de Oracle Cloud Infrastructure, la API o la CLI. Se aplica al crear o editar aplicaciones en Data Flow.
Descripción de puntos finales SQL
El punto final SQL de Data Flow es una entidad de servicio que utiliza clusters de recursos informáticos de larga ejecución en su arrendamiento. Puede elegir una unidad de computación y cuántas instancias desea utilizar. Cada cluster se ejecuta hasta que un administrador lo detiene. Spark se ejecuta en el cluster. Su motor SQL es rápido, se integra con Data Flow y soporta datos no estructurados. Se conecta mediante ODBC o JDBC y se autentica con credenciales de IAM.
Qué son los puntos finales SQL de Data Flow
Los puntos finales de SQL de Data Flow están diseñados para desarrolladores, científicos de datos y analistas avanzados para consultar datos directamente de forma interactiva donde residen en el lago de datos. Estos datos son relacionales, semiestructurados y no estructurados, como logs, flujos de sensores y flujos de vídeo que se suelen almacenar en el almacén de objetos. A medida que aumenta el volumen y la complejidad de los datos, se vuelven importantes las herramientas para explorar y analizar los datos en el lago de datos en formatos nativos, en lugar de transformarlos o moverlos. Con los puntos finales SQL de Data Flow, puede procesar de forma económica grandes cantidades de datos sin procesar, con la seguridad nativa en la nube utilizada para controlar el acceso. Puede acceder a las estadísticas que necesitan de forma de autoservicio, sin necesidad de coordinar proyectos de TI complejos ni preocuparse por datos obsoletos. Las consultas de los puntos finales SQL de Data Flow interoperan a la perfección con Data Flow Batch para pipelines de producción programados. Permiten un análisis rápido de datos y utilizan clusters de recursos informáticos de ampliación automática de larga ejecución que tienen un tamaño fijo y se ejecutan hasta que el administrador los detiene.
Puntos finales de SQL de Data Flow:
- Proporcione análisis interactivos directamente en el lago de datos.
- Se crean en Spark para permitir la ampliación, la lectura y escritura sencillas de datos no estructurados y la interoperabilidad con el flujo de datos existente.
- Utiliza SQL para facilitar los análisis.
- Soporta las principales herramientas de Business Intelligence (BI) mediante conexiones ODBC o JDBC con credenciales de IAM.
- Utilice los datos para el procesamiento cargado en Object Storage. Los datos se pueden leer desde fuentes de datos externas o servicios en la nube.
Los puntos finales SQL de Data Flow soportan todos los mismos tipos de archivos soportados por Spark. Por ejemplo, JSON, Parquet, CSV y Avro.
Consideraciones sobre la Integración de Metastore de Data Catalog
Una estrecha integración entre los puntos finales SQL de Data Flow y el metastore de Data Catalog (el "metastore") es fundamental para proporcionar un acceso consistente, fiable y controlado a tablas externas y gestionadas. Mediante esta integración, un punto final de SQL utiliza el metastore como repositorio autorizado para esquemas, definiciones de tablas, metadatos de particiones y ubicaciones de almacenamiento, lo que permite planificar y optimizar las consultas sin explorar repetidamente los archivos subyacentes.
Para las tablas externas, el metastore garantiza que la información de esquema y partición siga siendo consistente con los diseños de Object Storage, mientras que para las tablas gestionadas y Delta, realiza un seguimiento de los metadatos transaccionales, el linaje y las operaciones de ciclo de vida. Esta capa de metadatos unificada permite a Spark SQL ofrecer un rendimiento predecible, aplicar controles de gobernanza y acceso, soportar la evolución del esquema y mantener la compatibilidad entre cargas de trabajo y clusters.
El metastore emplea un mecanismo de bloqueo ligero para garantizar que las operaciones simultáneas de lenguaje de definición de datos (DDL) emitidas a través de un punto final SQL no dañen los metadatos ni creen estados de tabla inconsistentes. Cuando se ejecuta una sentencia DDL como CREATE/ALTER TABLE/PARTITION o DROP TABLE/PARTITION, el metastore adquiere un bloqueo exclusivo, lo que impide que otras sesiones modifiquen su esquema o metadatos hasta que finalice la operación.
Esta coordinación de bloqueo protege contra las condiciones de carrera, por ejemplo, dos usuarios que alteran la misma tabla simultáneamente, y garantiza que el punto final SQL funcione en una vista serializada y coherente de los metadatos. Al combinar la ejecución de DDL con la aplicación de bloqueo a nivel de metastore, el punto final SQL mantiene la integridad transaccional para las operaciones de metadatos incluso en entornos altamente simultáneos y de varios usuarios.
Sin embargo, los bloqueos bloquean temporalmente el acceso a los metadatos de la tabla y las operaciones DDL de larga ejecución pueden introducir retrasos notables para las consultas de otros usuarios que requieren lecturas de metadatos, especialmente en entornos compartidos o altamente concurrentes.
Para minimizar estos impactos, coordine la actividad de DDL durante las ventanas de mantenimiento con poco tráfico o mediante flujos de trabajo orquestados que garanticen que las modificaciones del esquema se produzcan fuera de los períodos de ejecución de consultas máximos.