Usando o Apache Spark

O Apache Spark é um mecanismo de processamento de dados que executa tarefas de processamento para cargas de trabalho de big data.

O servidor JDBC/ODBC Thrift corresponde ao HiveServer2 no Hive incorporado. Você pode testar o servidor JDBC com o script beeline fornecido com o Spark ou o Hive. Para estabelecer conexão com o Spark Thrift Server de qualquer máquina em um cluster do Big Data Service, use o comando spark-beeline.

Propriedades de Configuração do Spark

Propriedades de configuração do Spark incluídas no Big Data Service 3.1.1 ou posterior.

Configuração Propriedade Descrição
spark3-env spark_history_secure_opts Opções Java do Servidor de Histórico do Spark se a segurança estiver ativada
spark_history_log_opts Opções Java de log do Spark History Server
spark_thrift_log_opts Servidor Spark Thrift registrando opções Java
spark_library_path Caminhos que contêm bibliotecas compartilhadas para o Spark
spark_dist_classpath Caminhos que contêm bibliotecas Hadoop para Spark
spark_thrift_remotejmx_opts Opções Java do Servidor Spark Thrift se o JMX remoto estiver ativado
spark_history_remotejmx_opts Opções Java do Servidor de Histórico do Spark se o JMX remoto estiver ativado
livy2-env livy_server_opts Opções do Livy Server Java

Permissão de Grupo para Fazer Download de Políticas

Você pode conceder aos usuários acesso para fazer download de políticas do Ranger usando um grupo de usuários que permita a execução de consultas SQL por meio de um job do Spark.

Em um cluster HA do Big Data Service com o plug-in Ranger-Spark ativado, você deve ter acesso para fazer download de políticas Ranger para executar consultas SQL usando jobs do Spark. Para conceder permissão para fazer download de políticas do Ranger, o usuário deve ser incluído nas listas policy.download.auth.users e tag.download.auth.users. Para obter mais informações, consulte O Job do Spark Pode Falhar com um Erro 401 ao Tentar Fazer Download das Políticas do Ranger-Spark.

Em vez de especificar muitos usuários, você pode configurar o parâmetro policy.download.auth.groups com um grupo de usuários no repositório Spark-Ranger na interface do usuário do Ranger. Isso permite que todos os usuários desse grupo façam download de políticas do Ranger e esse recurso é suportado pelo ODH versão 2.0.10 ou posterior.

Exemplo:

  1. Acesse a IU do Ranger.
  2. Selecione Editar no repositório Spark.
  3. Navegue até a seção Adicionar Novas Configurações.
  4. Adicione ou atualize policy.download.auth.groups com o grupo de usuários.

    Por exemplo:

    policy.download.auth.groups = spark,testgroup

  5. Selecione Salvar

Extensão do Plug-in Spark-Ranger

A extensão de plug-in Spark-Ranger não pode ser substituída no runtime no ODH versão 2.0.10 ou posterior.

Observação

O controle de acesso detalhado não pode ser totalmente aplicado em casos de uso que não sejam do Spark Thrift Server por meio do plug-in Spark Ranger. Espera-se que o Ranger Admin conceda permissões de acesso de arquivo necessárias aos dados no HDFS por meio de políticas do HDFS ranger.