注意:
- 本教程需要访问 Oracle Cloud。要注册免费账户,请参阅开始使用 Oracle Cloud Infrastructure 免费套餐。
- 它对 Oracle Cloud Infrastructure 身份证明、租户和区间使用示例值。完成实验室后,请使用特定于云环境的那些值替换这些值。
在不使用 Kerberos 的高可用性集群中为 Oracle Big Data Service Hue 启用 Trino 编辑器
简介
Oracle Big Data Service (BDS) 是一项基于云的服务,用户可以使用它来创建和管理 Hadoop 集群、Spark 集群、Trino 和其他大数据服务。在大数据分析领域,Trino 作为一个高性能的分布式 SQL 查询引擎脱颖而出,专为在大型数据集上运行交互式分析查询而设计。Trino 支持在统一的 SQL 接口中跨多个源(包括 Hadoop 分布式文件系统 (HDFS)、OCI 存储桶和传统关系数据库)查询数据。它能够以低延迟处理大规模数据,使其成为数据工程师和分析师的强大工具。
将 Trino 与 BDS Hue 集成可以提供无缝数据查询界面,从而大大增强数据查询功能。在本教程中,我们将介绍使用 Hue 在高可用性 (HA) 集群环境中启用 Trino 编辑器的步骤,前提是没有进行 Kerberos 验证。通过执行以下任务,您将能够配置 Hue 环境与 Trino 连接,并有效地利用其强大的查询功能。
目标
-
了解如何在 Hue 中为 HA 集群环境配置 Trino 编辑器。
-
了解在色调和 Trino 之间实现无缝连接所需的设置。
-
对配置进行验证和故障排除以确保查询成功。
先决条件
-
在启用了 Trino 和 Hue 的 Oracle Cloud Infrastructure (OCI) 上运行的 Oracle Big Data Service 集群。
-
访问 Hue 服务器以及修改配置所需的权限。
-
下载并访问 Trino Java 数据库连接 (JDBC) 驱动程序 Java 档案 (JAR) 文件。
注:本教程假定您使用的是非 Kerberos HA 集群。如果您使用的是 Kerberized 环境,则需要执行与 Kerberos 验证相关的其他配置步骤。
任务 1:下载并安装 Trino JDBC 驱动程序
-
从 Maven 下载 Trino JDBC 驱动程序 JAR 文件,并将 JAR 文件保存到 BDS 环境中的 UNO 节点(其中 Hue 正在运行),但就本教程而言,它被放置在
/tmp
目录中。 -
为 Trino 集成配置 Hue。
-
登录到 Apache Ambari,然后导航到 Hue 、 config 和 Advanced 。
-
单击 Advanced pseudo-distributed.ini 并查找 interpreters 。
-
-
要编辑配置,请在 interpreters 部分中添加以下配置。
确保 JDBC URL 与 Trino 协调器的全限定域名 (FQDN) 匹配,并且驱动程序类名正确
任务 2:更新 Hue 的 Python 配置
-
找到并修改 Python 网关配置。
在 Hue 服务器 (UNO) 上,导航到
/usr/odh/2.0.7/hue/build/env/lib/python2.7/site-packages/py4j-0.9-py2.7.egg/py4j/java_gateway.py
文件。注:在编辑之前,请创建此文件的备份。
-
编辑 Python 文件。
-
打开
java_gateway.py
并查找定义类路径的位置。 -
添加以下行以包括 JDBC 驱动程序路径。这可以确保 Hue 可以定位和使用 Trino JDBC 驱动程序。
-
任务 3:重新启动 Hue 服务
-
返回到 Apache Ambari 并重新启动 Hue 服务以应用新配置。
-
验证 Hue 中的编辑器启用。
-
重新启动后,打开 Hue 服务器界面并检查 Trino 编辑器是否出现在菜单中。
-
出现凭证提示时,输入 Username (用户名)作为
trino
,输入 Password (密码)作为trino
。
-
任务 4:使用 Trino 编辑器查询数据
-
访问 Trino 编辑器并运行 sql 查询。
-
导航到 Trino 编辑器,然后选择要对其运行查询的数据库。
-
现在,您可以从 Hue 内对 Trino 实例运行 SQL 查询。
-
故障诊断和技巧
-
驱动程序问题:确保 JAR 文件在具有权限的情况下正确放置在目录中,并且 Python 配置中的文件路径是准确的。
-
连接错误:验证 JDBC URL 并确保可从 Hue 服务器访问它。
-
配置验证:双选 Apache Ambari 中的所有配置更改,并确认 Hue 服务已正确重新启动。
后续步骤
通过执行以下任务,您应该已成功将 Trino 编辑器集成到您的 BDS Hue 环境。此集成增强了您的数据查询功能,允许您直接从 Hue 利用 Trino 的高级查询功能。如果您遇到任何问题,请查看故障排除提示或从文档或社区论坛寻求进一步帮助。
相关链接
致谢
- Authors — Pavan Upadhyay(首席云工程师)、Saket Bihari(首席云工程师)
更多学习资源
浏览 docs.oracle.com/learn 上的其他实验室,或者访问 Oracle Learning YouTube 渠道上的更多免费学习内容。此外,请访问 education.oracle.com/learning-explorer 成为 Oracle Learning Explorer。
有关产品文档,请访问 Oracle 帮助中心。
Enable Trino Editor in Oracle Big Data Service Hue for High Availability Clusters Without Kerberos
G13965-01
September 2024