Uso de Apache Spark

Apache Spark es un motor de procesamiento de datos que realiza tareas de procesamiento para cargas de trabajo de big data.

El servidor JDBC/ODBC de Thrift corresponde a HiveServer2 en Hive incorporado. Puede probar el servidor JDBC con el script de Beeline que viene con Spark o Hive. Para conectarse al servidor Thrift de Spark desde cualquier máquina de un cluster de Big Data Service, utilice el comando spark-beeline.

Propiedades de configuración de Spark

Propiedades de configuración de Spark incluidas en Big Data Service 3.1.1 o posterior.


Configuración	Propiedad	Descripción
`spark3-env`	`spark_history_secure_opts`	Opciones de Java del servidor de historial de Spark si la seguridad está activada
	`spark_history_log_opts`	Opciones de Java de registro del servidor de historial de Spark
	`spark_thrift_log_opts`	Opciones Java de registro de Thrift Server de Spark
	`spark_library_path`	Rutas que contienen bibliotecas compartidas para Spark
	`spark_dist_classpath`	Rutas que contienen bibliotecas de Hadoop para Spark
	`spark_thrift_remotejmx_opts`	Opciones de Java de Thrift Server de Spark si JMX remoto está activado
	`spark_history_remotejmx_opts`	Opciones de Java del servidor de historial de Spark si JMX remoto está activado
`livy2-env`	`livy_server_opts`	Opciones de Java de Livy Server

Permiso de grupo para descargar políticas

Puede otorgar a los usuarios acceso para descargar políticas de Ranger mediante un grupo de usuarios que permita ejecutar consultas SQL a través de un trabajo de Spark.

En un cluster de alta disponibilidad de Big Data Service con el plugin Ranger-Spark activado, debe tener acceso para descargar políticas de Ranger para ejecutar cualquier consulta SQL mediante trabajos de Spark. Para otorgar permiso para descargar políticas de Ranger, el usuario debe estar incluido en las listas policy.download.auth.users y tag.download.auth.users. Para obtener más información, consulte El trabajo de Spark puede fallar con un error 401 al intentar descargar las políticas de Ranger-Spark.

En lugar de especificar muchos usuarios, puede configurar el parámetro policy.download.auth.groups con un grupo de usuarios en el repositorio de Spark-Ranger en la interfaz de usuario de Ranger. Esto permite a todos los usuarios de ese grupo descargar políticas de Ranger y esta función es compatible con ODH versión 2.0.10 o posterior.

Ejemplo:

Acceda a la interfaz de usuario de Ranger.
Seleccione Editar en el repositorio de Spark.
Vaya a la sección Add New Configurations.
Agregue o actualice policy.download.auth.groups con el grupo de usuarios.

Ejemplo:

policy.download.auth.groups = spark,testgroup
Seleccione Guardar.

Extensión de plugin de Spark-Ranger

La extensión del plugin Spark-Ranger no se puede sustituir en tiempo de ejecución en ODH versión 2.0.10 o posterior.

Nota

El control de acceso detallado no se puede aplicar por completo en casos de uso que no sean de Spark Thrift Server mediante el plugin de Spark Ranger. Se espera que el administrador de Ranger otorgue los permisos de acceso a archivos necesarios a los datos de HDFS mediante las políticas de ranger de HDFS.

Documentación de Oracle Cloud Infrastructure

Uso de Apache Spark

Propiedades de configuración de Spark

Permiso de grupo para descargar políticas

Extensión de plugin de Spark-Ranger