Note:
- Este tutorial requiere acceso a Oracle Cloud. Para registrarse para obtener una cuenta gratuita, consulte Introducción a la cuenta gratuita de Oracle Cloud Infrastructure.
- Utiliza valores de ejemplo para credenciales, arrendamiento y compartimentos de Oracle Cloud Infrastructure. Al finalizar la práctica, sustituya estos valores por otros específicos de su entorno en la nube.
Activación de Trino Editor en Oracle Big Data Service Hue para Clusters de Alta Disponibilidad sin Kerberos
Introducción
Oracle Big Data Service (BDS) es un servicio basado en la nube que permite a los usuarios crear y gestionar clusters de Hadoop, clusters de Spark, Trino y otros servicios de big data. En el mundo del análisis de big data, Trino se destaca como un motor de consultas SQL distribuidas de alto rendimiento diseñado para ejecutar consultas analíticas interactivas en grandes conjuntos de datos. Trino permite consultar datos en varios orígenes, incluido Hadoop Distributed File System (HDFS), el cubo de OCI y las bases de datos relacionales tradicionales, todo ello dentro de una interfaz SQL unificada. Su capacidad para manejar datos a gran escala con baja latencia lo convierte en una herramienta poderosa para ingenieros de datos y analistas por igual.
La integración de Trino con BDS Hue puede mejorar en gran medida sus capacidades de consulta de datos al proporcionar una interfaz perfecta para consultar datos. En este tutorial, le guiaremos a través de los pasos para activar el editor Trino en un entorno de cluster de alta disponibilidad (HA) con Hue, suponiendo que no haya ninguna autenticación de Kerberos en su lugar. Al seguir estas tareas, podrá configurar su entorno de Hue para conectarse con Trino y aprovechar sus potentes funciones de consulta de manera efectiva.
Objetivos
-
Descubra cómo configurar el editor Trino en Hue para un entorno de cluster de alta disponibilidad.
-
Comprenda la configuración necesaria para permitir una conectividad perfecta entre Hue y Trino.
-
Verifique y solucione los problemas de la configuración para garantizar una consulta correcta.
Requisitos
-
Un cluster de Oracle Big Data Service que se ejecuta en Oracle Cloud Infrastructure (OCI) con Trino y Hue activados.
-
Acceso al servidor Hue y permisos necesarios para modificar las configuraciones.
-
Se ha descargado y se puede acceder al archivo de almacenamiento Java (JAR) del controlador Java de Trino Java Database Connectivity (JDBC).
Nota: En este tutorial se asume que está trabajando con un cluster HA que no es de Kerberos. Si utiliza un entorno Kerberizado, se requerirán pasos de configuración adicionales relacionados con la autenticación Kerberos.
Tarea 1: Descarga e instalación del controlador JDBC de Trino
-
Descargue el archivo JAR del controlador JDBC de Trino desde Maven y guarde el archivo JAR en el nodo UNO (donde se está ejecutando Hue) en el entorno BDS, pero para los fines de este tutorial, se coloca en el directorio
/tmp
. -
Configure Hue para la integración de Trino.
-
Inicie sesión en Apache Ambari y navegue hasta Hue, config y Advanced.
-
Haga clic en Advanced pseudo-distributed.ini y busque interpretadores.
-
-
Para editar la configuración, agregue la siguiente configuración en la sección interpretadores.
Asegúrese de que la URL de JDBC coincida con el nombre de dominio completo (FQDN) del coordinador de Trino y de que el nombre de clase del controlador sea correcto
Tarea 2: Actualización de la configuración de Python para Hue
-
Localizar y modificar la configuración del gateway de Python.
En el servidor Hue (UNO), navegue hasta el archivo
/usr/odh/2.0.7/hue/build/env/lib/python2.7/site-packages/py4j-0.9-py2.7.egg/py4j/java_gateway.py
.Nota: Antes de editar, cree una copia de seguridad de este archivo.
-
Edite el archivo Python.
-
Abra
java_gateway.py
y busque dónde se define la classpath. -
Agregue las siguientes líneas para incluir la ruta del controlador JDBC. Esto garantiza que Hue pueda localizar y utilizar el controlador JDBC de Trino.
-
Tarea 3: Reinicio del servicio Hue
-
Vuelva a Apache Ambari y reinicie el servicio Hue para aplicar las nuevas configuraciones.
-
Verifique la activación del editor en Hue.
-
Después de reiniciar, abra la interfaz del servidor Hue y compruebe si aparece el editor Trino en el menú.
-
Cuando se le soliciten credenciales, introduzca Nombre de usuario como
trino
y Contraseña comotrino
.
-
Tarea 4: Consulta de datos mediante el editor Trino
-
Acceda al editor Trino y ejecute consultas SQL.
-
Vaya al editor Trino y seleccione la base de datos en la que desea ejecutar la consulta.
-
Ahora puede ejecutar consultas SQL en su instancia de Trino desde Hue.
-
Solución de problemas y consejos
-
Problemas de controlador: asegúrese de que el archivo JAR se haya colocado correctamente en el directorio con permiso y de que la ruta del archivo en la configuración de Python sea precisa.
-
Errores de conexión: compruebe la URL de JDBC y asegúrese de que se puede acceder a ella desde el servidor de Hue.
-
Verificación de configuración: compruebe todos los cambios de configuración en Apache Ambari y confirme que el servicio Hue se ha reiniciado correctamente.
Pasos Siguientes
Al seguir estas tareas, debería haber integrado correctamente el editor Trino en su entorno BDS Hue. Esta integración mejora sus capacidades de consulta de datos, lo que le permite aprovechar las funciones de consulta avanzadas de Trino directamente desde Hue. Si encuentra algún problema, revise los consejos de solución de problemas o busque más ayuda en la documentación o en los foros de la comunidad.
Enlaces relacionados
Agradecimientos
- Autores: Pavan Upadhyay (ingeniero principal de nube), Saket Bihari (ingeniero principal de nube)
Más recursos de aprendizaje
Explore otros laboratorios en docs.oracle.com/learn o acceda a más contenido de formación gratuita en el canal YouTube de Oracle Learning. Además, visita education.oracle.com/learning-explorer para convertirte en un Oracle Learning Explorer.
Para obtener documentación sobre el producto, visite Oracle Help Center.
Enable Trino Editor in Oracle Big Data Service Hue for High Availability Clusters Without Kerberos
G13958-01
September 2024