注意:

在不使用 Kerberos 的高可用性集群中为 Oracle Big Data Service Hue 启用 Trino 编辑器

简介

Oracle Big Data Service (BDS) 是一项基于云的服务,用户可以使用它来创建和管理 Hadoop 集群、Spark 集群、Trino 和其他大数据服务。在大数据分析领域,Trino 作为一个高性能的分布式 SQL 查询引擎脱颖而出,专为在大型数据集上运行交互式分析查询而设计。Trino 支持在统一的 SQL 接口中跨多个源(包括 Hadoop 分布式文件系统 (HDFS)、OCI 存储桶和传统关系数据库)查询数据。它能够以低延迟处理大规模数据,使其成为数据工程师和分析师的强大工具。

将 Trino 与 BDS Hue 集成可以提供无缝数据查询界面,从而大大增强数据查询功能。在本教程中,我们将介绍使用 Hue 在高可用性 (HA) 集群环境中启用 Trino 编辑器的步骤,前提是没有进行 Kerberos 验证。通过执行以下任务,您将能够配置 Hue 环境与 Trino 连接,并有效地利用其强大的查询功能。

目标

先决条件

注:本教程假定您使用的是非 Kerberos HA 集群。如果您使用的是 Kerberized 环境,则需要执行与 Kerberos 验证相关的其他配置步骤。

任务 1:下载并安装 Trino JDBC 驱动程序

  1. 从 Maven 下载 Trino JDBC 驱动程序 JAR 文件,并将 JAR 文件保存到 BDS 环境中的 UNO 节点(其中 Hue 正在运行),但就本教程而言,它被放置在 /tmp 目录中。

  2. 为 Trino 集成配置 Hue。

    1. 登录到 Apache Ambari,然后导航到 HueconfigAdvanced

    2. 单击 Advanced pseudo-distributed.ini 并查找 interpreters

    选择色调配置

  3. 要编辑配置,请在 interpreters 部分中添加以下配置。

    编辑色调配置

    确保 JDBC URL 与 Trino 协调器的全限定域名 (FQDN) 匹配,并且驱动程序类名正确

任务 2:更新 Hue 的 Python 配置

  1. 找到并修改 Python 网关配置。

    在 Hue 服务器 (UNO) 上,导航到 /usr/odh/2.0.7/hue/build/env/lib/python2.7/site-packages/py4j-0.9-py2.7.egg/py4j/java_gateway.py 文件。

    注:在编辑之前,请创建此文件的备份。

  2. 编辑 Python 文件。

    1. 打开 java_gateway.py 并查找定义类路径的位置。

    2. 添加以下行以包括 JDBC 驱动程序路径。这可以确保 Hue 可以定位和使用 Trino JDBC 驱动程序。

      更新 python 配置

任务 3:重新启动 Hue 服务

  1. 返回到 Apache Ambari 并重新启动 Hue 服务以应用新配置。

  2. 验证 Hue 中的编辑器启用。

    1. 重新启动后,打开 Hue 服务器界面并检查 Trino 编辑器是否出现在菜单中。

      Trino 编辑器菜单

    2. 出现凭证提示时,输入 Username (用户名)作为 trino,输入 Password (密码)作为 trino

      验证

任务 4:使用 Trino 编辑器查询数据

  1. 访问 Trino 编辑器并运行 sql 查询。

    1. 导航到 Trino 编辑器,然后选择要对其运行查询的数据库。

    2. 现在,您可以从 Hue 内对 Trino 实例运行 SQL 查询。

      运行查询

故障诊断和技巧

后续步骤

通过执行以下任务,您应该已成功将 Trino 编辑器集成到您的 BDS Hue 环境。此集成增强了您的数据查询功能,允许您直接从 Hue 利用 Trino 的高级查询功能。如果您遇到任何问题,请查看故障排除提示或从文档或社区论坛寻求进一步帮助。

致谢

更多学习资源

浏览 docs.oracle.com/learn 上的其他实验室,或者访问 Oracle Learning YouTube 渠道上的更多免费学习内容。此外,请访问 education.oracle.com/learning-explorer 成为 Oracle Learning Explorer。

有关产品文档,请访问 Oracle 帮助中心