Remarques :
- Ce tutoriel nécessite un accès à Oracle Cloud. Pour vous inscrire à un compte gratuit, reportez-vous à Introduction au niveau gratuit d'Oracle Cloud Infrastructure.
- Il utilise des exemples de valeurs pour les informations d'identification, la location et les compartiments Oracle Cloud Infrastructure. Lorsque vous terminez votre atelier, remplacez ces valeurs par celles propres à votre environnement cloud.
Activation de l'éditeur Trino dans Oracle Big Data Service Hue pour les clusters haute disponibilité sans Kerberos
Introduction
Oracle Big Data Service (BDS) est un service cloud qui permet aux utilisateurs de créer et de gérer des clusters Hadoop, des clusters Spark, Trino et d'autres services Big Data. Dans le monde de l'analyse du Big Data, Trino se distingue comme un moteur de requêtes SQL distribué hautes performances conçu pour exécuter des requêtes analytiques interactives sur de grands ensembles de données. Trino permet d'interroger des données sur plusieurs sources, y compris le système de fichiers distribué Hadoop (HDFS), le bucket OCI et les bases de données relationnelles traditionnelles, le tout dans une interface SQL unifiée. Sa capacité à gérer des données à grande échelle avec une faible latence en fait un outil puissant pour les ingénieurs de données et les analystes.
L'intégration de Trino à BDS Hue peut grandement améliorer vos capacités d'interrogation de données en fournissant une interface transparente pour l'interrogation de données. Dans ce tutoriel, nous vous présenterons les étapes à suivre pour activer l'éditeur Trino dans un environnement de cluster haute disponibilité à l'aide de Hue, en supposant qu'aucune authentification Kerberos n'est en place. En suivant ces tâches, vous serez en mesure de configurer votre environnement Hue pour qu'il se connecte à Trino et tirez parti de ses puissantes fonctionnalités d'interrogation efficacement.
Objectifs
-
Découvrez comment configurer l'éditeur Trino dans Hue pour un environnement de cluster haute disponibilité.
-
Comprenez la configuration requise pour permettre une connectivité transparente entre Hue et Trino.
-
Vérifiez et dépannez la configuration pour garantir le succès de l'interrogation.
Prérequis
-
Cluster Oracle Big Data Service exécuté sur Oracle Cloud Infrastructure (OCI) avec Trino et Hue activés.
-
Accès au serveur Hue et autorisations nécessaires pour modifier les configurations.
-
Le fichier JAR (Java Archive) du pilote JDBC (Java Database Connectivity) Trino a été téléchargé et accessible.
Remarque : ce tutoriel suppose que vous travaillez avec un cluster HA non Kerberos. Si vous utilisez un environnement Kerberized, des étapes de configuration supplémentaires liées à l'authentification Kerberos seront requises.
Tâche 1 : téléchargement et installation du pilote JDBC Trino
-
Téléchargez le fichier JAR du pilote JDBC Trino à partir de Maven et enregistrez le fichier JAR sur le noeud UNO (où Hue est en cours d'exécution) dans l'environnement BDS. Toutefois, dans le cadre de ce tutoriel, il est placé dans le répertoire
/tmp
. -
Configurez l'intégration de Hue pour Trino.
-
Connectez-vous à Apache Ambari et accédez à Hue, config et Advanced.
-
Cliquez sur Pseudo-distributed.ini avancé et recherchez des interpréteurs.
-
-
Pour modifier la configuration, ajoutez la configuration suivante dans la section interpréteurs.
Assurez-vous que l'URL JDBC correspond au nom de domaine qualifié complet de votre coordinateur Trino et que le nom de classe de pilote est correct
Tâche 2 : mise à jour de la configuration Python pour Hue
-
Localisez et modifiez la configuration de passerelle Python.
Sur le serveur Hue (UNO), accédez au fichier
/usr/odh/2.0.7/hue/build/env/lib/python2.7/site-packages/py4j-0.9-py2.7.egg/py4j/java_gateway.py
.Remarque : avant de modifier, créez une sauvegarde de ce fichier.
-
Modifiez le fichier Python.
-
Ouvrez
java_gateway.py
et recherchez l'emplacement de définition de la variable d'environnement CLASSPATH. -
Ajoutez les lignes suivantes pour inclure le chemin du pilote JDBC. Cela garantit que Hue peut localiser et utiliser le pilote JDBC Trino.
-
Tâche 3 : redémarrage du service Hue
-
Revenez à Apache Ambari et redémarrez le service Hue pour appliquer les nouvelles configurations.
-
Vérifiez l'activation de l'éditeur dans Hue.
-
Après le redémarrage, ouvrez l'interface du serveur Hue et vérifiez si l'éditeur Trino apparaît dans le menu.
-
Lorsque vous êtes invité à saisir des informations d'identification, entrez Nom utilisateur sous
trino
et Mot de passe soustrino
.
-
Tâche 4 : Interroger les données à l'aide de l'éditeur Trino
-
Accédez à l'éditeur Trino et exécutez des requêtes SQL.
-
Accédez à l'éditeur Trino et choisissez la base de données sur laquelle vous souhaitez exécuter la requête.
-
Vous pouvez désormais exécuter des requêtes SQL sur votre instance Trino à partir de Hue.
-
Dépannage et conseils
-
Problèmes de pilote : assurez-vous que le fichier JAR est correctement placé dans le répertoire avec des droits d'accès et que le chemin du fichier dans la configuration Python est correct.
-
Erreurs de connexion : vérifiez l'URL JDBC et assurez-vous qu'elle est accessible à partir du serveur Hue.
-
Vérification de la configuration : vérifiez toutes les modifications apportées à la configuration dans Apache Ambari et vérifiez que le service Hue est correctement redémarré.
Etapes suivantes
En suivant ces tâches, vous devriez avoir intégré avec succès l'éditeur Trino dans votre environnement BDS Hue. Cette intégration améliore vos capacités de requête de données, vous permettant de tirer parti des fonctionnalités de requête avancées de Trino directement à partir de Hue. Si vous rencontrez des problèmes, consultez les conseils de dépannage ou demandez de l'aide auprès de la documentation ou des forums communautaires.
Liens connexes
Remerciements
- Auteurs - Pavan Upadhyay (ingénieur cloud principal), Saket Bihari (ingénieur cloud principal)
Ressources de formation supplémentaires
Explorez d'autres ateliers sur docs.oracle.com/learn ou accédez à d'autres contenus de formation gratuits sur le canal Oracle Learning YouTube. De plus, visitez le site education.oracle.com/learning-explorer pour devenir un explorateur Oracle Learning.
Pour obtenir la documentation produit, consultez le site Oracle Help Center.
Enable Trino Editor in Oracle Big Data Service Hue for High Availability Clusters Without Kerberos
G13960-01
September 2024