Usando o Apache Spark

O Apache Spark é um mecanismo de processamento de dados que executa tarefas de processamento para cargas de trabalho de big data.

O servidor JDBC/ODBC Thrift corresponde ao HiveServer2 no Hive incorporado. Você pode testar o servidor JDBC com o script beeline fornecido com o Spark ou o Hive. Para estabelecer conexão com o Spark Thrift Server de qualquer máquina em um cluster do Big Data Service, use o comando spark-beeline.

Propriedades de Configuração do Spark

Propriedades de configuração do Spark incluídas no Big Data Service 3.1.1 ou posterior.


Configuração	Propriedade	Descrição
`spark3-env`	`spark_history_secure_opts`	Opções Java do Servidor de Histórico do Spark se a segurança estiver ativada
	`spark_history_log_opts`	Opções Java de log do Spark History Server
	`spark_thrift_log_opts`	Servidor Spark Thrift registrando opções Java
	`spark_library_path`	Caminhos que contêm bibliotecas compartilhadas para o Spark
	`spark_dist_classpath`	Caminhos que contêm bibliotecas Hadoop para Spark
	`spark_thrift_remotejmx_opts`	Opções Java do Servidor Spark Thrift se o JMX remoto estiver ativado
	`spark_history_remotejmx_opts`	Opções Java do Servidor de Histórico do Spark se o JMX remoto estiver ativado
`livy2-env`	`livy_server_opts`	Opções do Livy Server Java

Permissão de Grupo para Fazer Download de Políticas

Você pode conceder aos usuários acesso para fazer download de políticas do Ranger usando um grupo de usuários que permita a execução de consultas SQL por meio de um job do Spark.

Em um cluster HA do Big Data Service com o plug-in Ranger-Spark ativado, você deve ter acesso para fazer download de políticas Ranger para executar consultas SQL usando jobs do Spark. Para conceder permissão para fazer download de políticas do Ranger, o usuário deve ser incluído nas listas policy.download.auth.users e tag.download.auth.users. Para obter mais informações, consulte O Job do Spark Pode Falhar com um Erro 401 ao Tentar Fazer Download das Políticas do Ranger-Spark.

Em vez de especificar muitos usuários, você pode configurar o parâmetro policy.download.auth.groups com um grupo de usuários no repositório Spark-Ranger na interface do usuário do Ranger. Isso permite que todos os usuários desse grupo façam download de políticas do Ranger e esse recurso é suportado pelo ODH versão 2.0.10 ou posterior.

Exemplo:

Acesse a IU do Ranger.
Selecione Editar no repositório Spark.
Navegue até a seção Adicionar Novas Configurações.
Adicione ou atualize policy.download.auth.groups com o grupo de usuários.

Por exemplo:

policy.download.auth.groups = spark,testgroup
Selecione Salvar

Extensão do Plug-in Spark-Ranger

A extensão de plug-in Spark-Ranger não pode ser substituída no runtime no ODH versão 2.0.10 ou posterior.

Observação

O controle de acesso detalhado não pode ser totalmente aplicado em casos de uso que não sejam do Spark Thrift Server por meio do plug-in Spark Ranger. Espera-se que o Ranger Admin conceda permissões de acesso de arquivo necessárias aos dados no HDFS por meio de políticas do HDFS ranger.

Documentação do Oracle Cloud Infrastructure

Usando o Apache Spark

Propriedades de Configuração do Spark

Permissão de Grupo para Fazer Download de Políticas

Extensão do Plug-in Spark-Ranger