Observação:

Este tutorial requer acesso ao Oracle Cloud. Para se inscrever e obter uma conta gratuita, consulte Conceitos Básicos do Oracle Cloud Infrastructure Free Tier.
Ele usa valores de exemplo para credenciais, tenancy e compartimentos do Oracle Cloud Infrastructure. Ao concluir seu laboratório, substitua esses valores por valores específicos do seu ambiente de nuvem.

Conecte o Alteryx ao Oracle Big Data Service Hive usando ODBC e Kerberos

Introdução

O Oracle Big Data Service é um serviço baseado na nuvem fornecido pela Oracle que permite aos usuários criar e gerenciar clusters Hadoop, clusters Spark e outros serviços de big data. Por padrão, um cluster do Oracle Big Data Service usa mecanismos de autenticação simples, como nome de usuário e senha, para autenticar usuários e serviços. No entanto, isso pode não ser suficiente para organizações que exigem níveis mais altos de segurança.

A autenticação Kerberos é um mecanismo amplamente usado para proteger sistemas de computação distribuídos. Ele fornece uma maneira segura de autenticar usuários e serviços, permitindo que eles se comuniquem de forma segura em uma rede. Em um ambiente ativado para Kerberos, usuários e serviços são emitidos com chaves criptográficas que são usadas para verificar sua identidade e autorizar o acesso a recursos.

A autenticação Kerberos pode fornecer uma camada de segurança adicional para um cluster do Oracle Big Data Service, permitindo autenticação e criptografia fortes entre nós.

Objetivos

Explore o processo de estabelecer conectividade contínua entre o Alteryx e o Oracle Big Data Service Hive em um cluster kerberizado. Ao implementar a autenticação Kerberos, podemos garantir um ambiente seguro para processamento e análise de dados.

Saiba como kerberizar o cluster do Oracle Big Data Service
Saiba como conectar o Alteryx ao Oracle Big Data Service Hive

Pré-requisitos

Um cluster do Oracle Big Data Service em execução no OCI (Oracle Cloud Infrastructure) com serviços necessários configurados e portas abertas.

Observação: Um cluster do Oracle Big Data Service altamente disponível (HA) vem com o Kerberos instalado. Se você quiser usar um cluster que não seja HA, precisará da lista de Pré-requisitos a seguir.

Um KDC (Key Distribution Center) e um servidor de administração do Kerberos. Você pode instalar e configurar o KDC e o servidor admin em um servidor separado ou usar o KDC e o servidor admin fornecidos pela sua organização.
O utilitário kadmin usado para criar e gerenciar principais e keytabs do Kerberos.
O utilitário kinit usado para obter um tíquete de criação de tíquetes (TGT) do Kerberos para um usuário ou principal de serviço.
O utilitário klist usado para listar os tickets no cache de credenciais de um usuário ou de um principal de serviço.
Uma máquina Windows com Alteryx instalada. Para a implementação neste tutorial, usamos a versão de avaliação do Alteryx.
Kerberos MIT.
O driver ODBC instalado na sua máquina.
Os principais e keytabs do Kerberos necessários para seu cluster do Oracle Big Data Service. Você encontrará mais detalhes sobre isso nas seções a seguir.
Acesso à ferramenta Administrador de fonte de dados ODBC em sua máquina.

Observação: Neste tutorial, estamos usando um cluster HA do Oracle Big Data Service. Você também deve ter um conhecimento básico dos seguintes conceitos e terminologias:

Principais do Kerberos: Uma entidade autenticada pelo sistema Kerberos. Os principais podem ser usuários ou serviços.
Teclas: um arquivo que contém a chave secreta de um principal. As chaves são usadas pelos serviços para autenticação no KDC.
Realms: Um realm do Kerberos é uma coleção de principais do Kerberos que compartilham um banco de dados KDC comum.
Autenticação: O processo de verificação da identidade de um usuário ou principal de serviço.
Autorização: O processo de determinar quais recursos um usuário ou principal de serviço tem permissão para acessar.

Tarefa 1: Kerberizar um cluster do Oracle Big Data Service

Faça log-in no nó mestre do cluster do Oracle Big Data Service por meio de um comando SSH ou utilizando putty com o arquivo ppk usando as credenciais do usuário opc. Depois de fazer log-in, eleve suas permissões para o usuário root. Neste tutorial, usamos putty para fazer log-in nos nós.
Interrompa todos os serviços Hadoop e Spark em execução usando o Ambari.
Crie o Principal do Kerberos Administrador bdsuser seguindo estas etapas.
- Informe o prompt Kadmin usando o comando Kadmin.local.
- No prompt de linha de comando kadmin.local, execute o comando addprinc para criar um novo principal do Kerberos chamado bdsuser. Quando solicitado, escolha uma senha de sua preferência e confirme-a.
- Insira exit para retornar ao prompt original. Por padrão, o realm usado aqui é selecionado em krb5.conf. No entanto, você tem a opção de personalizar o realm atualizando a configuração.
Crie um grupo bdsusergroup executando o comando dcli -C "groupadd bdsusergroup.
Digite o comando dcli -C "useradd -g bdsusergroup -G hdfs,hadoop,hive bdsuser" no prompt para criar o usuário administrador bdsuser e adicioná-lo aos grupos listados em cada nó do cluster.
Use o comando linux id para confirmar a criação do bdsuser e listar sua associação a grupos.
Inicie todos os serviços do Oracle Big Data Service usando o Ambari.
Teste bdsuser gerando o ticket Kerberos usando o comando kinit bdsuser e liste arquivos usando o comando hadoop fs -ls /.

Tarefa 2: Conectar Alteryx ao Oracle Big Data Service Hive

Exploramos a kerberização do cluster do Oracle Big Data Service e agora mergulharemos na conexão do Alteryx com o Oracle Big Data Service Hive Kerberizado usando o driver ODBC.

Para liberar todo o potencial de seus dados do Oracle Big Data Service Hive, é fundamental estabelecer uma conexão com suas ferramentas preferidas. Nesta seção, guiaremos você pelo processo de conexão do Alteryx com o Oracle Big Data Service Hive. Para isso, vamos configurar uma conexão ODBC que utilize a autenticação Kerberos.

Configure o MIT Kerberos seguindo estas etapas.
- Copie o arquivo krb5.conf e krb5.keytab do nó mestre do cluster para C:\Program Files\MIT\Kerberos.
- Altere a extensão de arquivo de .conf para .ini para compatibilidade com Windows.
- Crie uma nova pasta C:/temp (Pasta e caminho podem ser de sua escolha).
- Configure a variável de Ambiente a seguir.
- Execute o comando Kinit bdsuser no prompt de comando para verificar a configuração do Kerberos e gerar o Ticket.
Instale o driver ODBC na sua máquina Windows. Siga os prompts para instalar o driver.
Configure o driver ODBC seguindo estas etapas.
- Faça entradas de DNS e IP no arquivo de hosts C:\Windows\System32\drivers\etc para o nó principal e do utilitário.
- Teste as entradas do arquivo de hosts usando o comando ping.
Abra a ferramenta Administrador de fonte de dados ODBC em sua máquina e siga estas etapas.
- Escolha a guia DSN do Sistema. Clique em Adicionar e Escolher Driver ODBC do Cloudera para Apache Hive e, em seguida, clique em Finalizar.
- Siga a captura de tela abaixo para a configuração de conexão do Hive.
- Clique em Testar para verificar a conectividade. Se tudo estiver configurado corretamente, você deverá ver uma mensagem indicando que o teste foi bem-sucedido. Clique em OK para salvar a configuração.
Abra o Alteryx e siga estas etapas.
- Vá para Arquivo, selecione Gerenciar Conexão e clique em Adicionar origem de dados. Escolha Hive entre as opções de tecnologia disponíveis.
- Depois de selecionar a opção de tecnologia, você será solicitado a acessar a próxima tela na qual deverá fornecer o nome DSN. Selecione o SDN ODBC que você criou na etapa anterior e clique em Salvar.
- Concluímos com a configuração da conexão. Agora, vamos criar um workflow de amostra para ler os dados do Hive. Para criar um workflow de amostra, clique em Novo workflow e arraste e solte a tarefa de dados de entrada.
- Selecione Hive ODBC na lista de conexões.
- Selecione a tabela Hive para extrair dados.
- Execute o workflow e você poderá ver que o Alteryx pode recuperar dados com sucesso do Oracle Big Data Service Hive.

Próximas Etapas

A autenticação Kerberos é um componente essencial de um cluster seguro do Hadoop. Ao Kerberizar seu cluster do Oracle Big Data Service, você pode proteger melhor seus dados e aplicativos confidenciais contra acesso não autorizado. Embora o processo de Kerberizing seu cluster possa ser desafiador, um planejamento cuidadoso e uma atenção aos detalhes podem ajudar a garantir uma implementação bem-sucedida. Além disso, conectar o Alteryx ao Oracle Big Data Service Hive usando a autenticação ODBC e Kerberos pode ser um pouco complicado, mas depois de configurá-lo, você terá o Alteryx para analisar e visualizar seus dados do Oracle Big Data Service. Seguindo as etapas descritas neste tutorial, você poderá configurar a conexão facilmente.

Se você tiver problemas, poderá solucionar problemas. Com um pouco de persistência, você poderá conectar o Alteryx ao Oracle Big Data Service Hive e desbloquear todo o potencial dos seus dados.

Agradecimentos

Autores - Pavan Upadhyay (Engenheiro de Nuvem Principal), Saket Bihari (Engenheiro de Nuvem Principal)

Mais Recursos de Aprendizagem

Explore outros laboratórios no site docs.oracle.com/learn ou acesse mais conteúdo de aprendizado gratuito no canal YouTube do Oracle Learning. Além disso, visite education.oracle.com/learning-explorer para se tornar um Oracle Learning Explorer.

Para obter a documentação do produto, visite o Oracle Help Center.

Título e Informações de Copyright

Connect Alteryx to Oracle Big Data Service Hive Using ODBC and Kerberos

F85222-01

August 2023