Observação:

Conecte o Alteryx ao Oracle Big Data Service Hive usando ODBC e Kerberos

Introdução

O Oracle Big Data Service é um serviço baseado na nuvem fornecido pela Oracle que permite aos usuários criar e gerenciar clusters Hadoop, clusters Spark e outros serviços de big data. Por padrão, um cluster do Oracle Big Data Service usa mecanismos de autenticação simples, como nome de usuário e senha, para autenticar usuários e serviços. No entanto, isso pode não ser suficiente para organizações que exigem níveis mais altos de segurança.

A autenticação Kerberos é um mecanismo amplamente usado para proteger sistemas de computação distribuídos. Ele fornece uma maneira segura de autenticar usuários e serviços, permitindo que eles se comuniquem de forma segura em uma rede. Em um ambiente ativado para Kerberos, usuários e serviços são emitidos com chaves criptográficas que são usadas para verificar sua identidade e autorizar o acesso a recursos.

A autenticação Kerberos pode fornecer uma camada de segurança adicional para um cluster do Oracle Big Data Service, permitindo autenticação e criptografia fortes entre nós.

Objetivos

Explore o processo de estabelecer conectividade contínua entre o Alteryx e o Oracle Big Data Service Hive em um cluster kerberizado. Ao implementar a autenticação Kerberos, podemos garantir um ambiente seguro para processamento e análise de dados.

Pré-requisitos

Um cluster do Oracle Big Data Service em execução no OCI (Oracle Cloud Infrastructure) com serviços necessários configurados e portas abertas.

Observação: Um cluster do Oracle Big Data Service altamente disponível (HA) vem com o Kerberos instalado. Se você quiser usar um cluster que não seja HA, precisará da lista de Pré-requisitos a seguir.

Observação: Neste tutorial, estamos usando um cluster HA do Oracle Big Data Service. Você também deve ter um conhecimento básico dos seguintes conceitos e terminologias:

Tarefa 1: Kerberizar um cluster do Oracle Big Data Service

  1. Faça log-in no nó mestre do cluster do Oracle Big Data Service por meio de um comando SSH ou utilizando putty com o arquivo ppk usando as credenciais do usuário opc. Depois de fazer log-in, eleve suas permissões para o usuário root. Neste tutorial, usamos putty para fazer log-in nos nós.

  2. Interrompa todos os serviços Hadoop e Spark em execução usando o Ambari.

    Serviços de Parada Ambari

  3. Crie o Principal do Kerberos Administrador bdsuser seguindo estas etapas.

    • Informe o prompt Kadmin usando o comando Kadmin.local.

    • No prompt de linha de comando kadmin.local, execute o comando addprinc para criar um novo principal do Kerberos chamado bdsuser. Quando solicitado, escolha uma senha de sua preferência e confirme-a.

      Executar comando addprinc

    • Insira exit para retornar ao prompt original. Por padrão, o realm usado aqui é selecionado em krb5.conf. No entanto, você tem a opção de personalizar o realm atualizando a configuração.

  4. Crie um grupo bdsusergroup executando o comando dcli -C "groupadd bdsusergroup.

  5. Digite o comando dcli -C "useradd -g bdsusergroup -G hdfs,hadoop,hive bdsuser" no prompt para criar o usuário administrador bdsuser e adicioná-lo aos grupos listados em cada nó do cluster.

  6. Use o comando linux id para confirmar a criação do bdsuser e listar sua associação a grupos.

  7. Inicie todos os serviços do Oracle Big Data Service usando o Ambari.

    Ambari Start Services

  8. Teste bdsuser gerando o ticket Kerberos usando o comando kinit bdsuser e liste arquivos usando o comando hadoop fs -ls /.

    Prompt de Comando

Tarefa 2: Conectar Alteryx ao Oracle Big Data Service Hive

Exploramos a kerberização do cluster do Oracle Big Data Service e agora mergulharemos na conexão do Alteryx com o Oracle Big Data Service Hive Kerberizado usando o driver ODBC.

Para liberar todo o potencial de seus dados do Oracle Big Data Service Hive, é fundamental estabelecer uma conexão com suas ferramentas preferidas. Nesta seção, guiaremos você pelo processo de conexão do Alteryx com o Oracle Big Data Service Hive. Para isso, vamos configurar uma conexão ODBC que utilize a autenticação Kerberos.

  1. Configure o MIT Kerberos seguindo estas etapas.

    • Copie o arquivo krb5.conf e krb5.keytab do nó mestre do cluster para C:\Program Files\MIT\Kerberos.

    • Altere a extensão de arquivo de .conf para .ini para compatibilidade com Windows.

    • Crie uma nova pasta C:/temp (Pasta e caminho podem ser de sua escolha).

    • Configure a variável de Ambiente a seguir.

      Variável de Ambiente

    • Execute o comando Kinit bdsuser no prompt de comando para verificar a configuração do Kerberos e gerar o Ticket.

  2. Instale o driver ODBC na sua máquina Windows. Siga os prompts para instalar o driver.

  3. Configure o driver ODBC seguindo estas etapas.

    • Faça entradas de DNS e IP no arquivo de hosts C:\Windows\System32\drivers\etc para o nó principal e do utilitário.

      Exemplo de arquivo dos hosts

    • Teste as entradas do arquivo de hosts usando o comando ping.

      Texto alternativo

  4. Abra a ferramenta Administrador de fonte de dados ODBC em sua máquina e siga estas etapas.

    • Escolha a guia DSN do Sistema. Clique em Adicionar e Escolher Driver ODBC do Cloudera para Apache Hive e, em seguida, clique em Finalizar.

      Guia DSN do Sistema

    • Siga a captura de tela abaixo para a configuração de conexão do Hive.

      Configuração de conexão do Hive

    • Clique em Testar para verificar a conectividade. Se tudo estiver configurado corretamente, você deverá ver uma mensagem indicando que o teste foi bem-sucedido. Clique em OK para salvar a configuração.

      Testar Conexão do Hive

  5. Abra o Alteryx e siga estas etapas.

    • Vá para Arquivo, selecione Gerenciar Conexão e clique em Adicionar origem de dados. Escolha Hive entre as opções de tecnologia disponíveis.

      Gerenciar Conexão

    • Depois de selecionar a opção de tecnologia, você será solicitado a acessar a próxima tela na qual deverá fornecer o nome DSN. Selecione o SDN ODBC que você criou na etapa anterior e clique em Salvar.

      Salvar Conexão

    • Concluímos com a configuração da conexão. Agora, vamos criar um workflow de amostra para ler os dados do Hive. Para criar um workflow de amostra, clique em Novo workflow e arraste e solte a tarefa de dados de entrada.

      Novo Workflow

    • Selecione Hive ODBC na lista de conexões.

      Lista de Conexões

    • Selecione a tabela Hive para extrair dados.

      Tabelas do Hive

    • Execute o workflow e você poderá ver que o Alteryx pode recuperar dados com sucesso do Oracle Big Data Service Hive.

      Executar Workflow

Próximas Etapas

A autenticação Kerberos é um componente essencial de um cluster seguro do Hadoop. Ao Kerberizar seu cluster do Oracle Big Data Service, você pode proteger melhor seus dados e aplicativos confidenciais contra acesso não autorizado. Embora o processo de Kerberizing seu cluster possa ser desafiador, um planejamento cuidadoso e uma atenção aos detalhes podem ajudar a garantir uma implementação bem-sucedida. Além disso, conectar o Alteryx ao Oracle Big Data Service Hive usando a autenticação ODBC e Kerberos pode ser um pouco complicado, mas depois de configurá-lo, você terá o Alteryx para analisar e visualizar seus dados do Oracle Big Data Service. Seguindo as etapas descritas neste tutorial, você poderá configurar a conexão facilmente.

Se você tiver problemas, poderá solucionar problemas. Com um pouco de persistência, você poderá conectar o Alteryx ao Oracle Big Data Service Hive e desbloquear todo o potencial dos seus dados.

Agradecimentos

Mais Recursos de Aprendizagem

Explore outros laboratórios no site docs.oracle.com/learn ou acesse mais conteúdo de aprendizado gratuito no canal YouTube do Oracle Learning. Além disso, visite education.oracle.com/learning-explorer para se tornar um Oracle Learning Explorer.

Para obter a documentação do produto, visite o Oracle Help Center.