Uso de Apache Spark

Apache Spark es un motor de procesamiento de datos que realiza tareas de procesamiento para cargas de trabajo de big data.

El servidor JDBC/ODBC de Thrift corresponde a HiveServer2 en Hive incorporado. Puede probar el servidor JDBC con el script de Beeline que viene con Spark o Hive. Para conectarse al servidor Thrift de Spark desde cualquier máquina de un cluster de Big Data Service, utilice el comando spark-beeline.

Propiedades de configuración de Spark

Propiedades de configuración de Spark incluidas en Big Data Service 3.1.1 o posterior.

Configuración Propiedad Descripción
spark3-env spark_history_secure_opts Opciones de Java del servidor de historial de Spark si la seguridad está activada
spark_history_log_opts Opciones de Java de registro del servidor de historial de Spark
spark_thrift_log_opts Opciones Java de registro de Thrift Server de Spark
spark_library_path Rutas que contienen bibliotecas compartidas para Spark
spark_dist_classpath Rutas que contienen bibliotecas de Hadoop para Spark
spark_thrift_remotejmx_opts Opciones de Java de Thrift Server de Spark si JMX remoto está activado
spark_history_remotejmx_opts Opciones de Java del servidor de historial de Spark si JMX remoto está activado
livy2-env livy_server_opts Opciones de Java de Livy Server

Permiso de grupo para descargar políticas

Puede otorgar a los usuarios acceso para descargar políticas de Ranger mediante un grupo de usuarios que permita ejecutar consultas SQL a través de un trabajo de Spark.

En un cluster de alta disponibilidad de Big Data Service con el plugin Ranger-Spark activado, debe tener acceso para descargar políticas de Ranger para ejecutar cualquier consulta SQL mediante trabajos de Spark. Para otorgar permiso para descargar políticas de Ranger, el usuario debe estar incluido en las listas policy.download.auth.users y tag.download.auth.users. Para obtener más información, consulte El trabajo de Spark puede fallar con un error 401 al intentar descargar las políticas de Ranger-Spark.

En lugar de especificar muchos usuarios, puede configurar el parámetro policy.download.auth.groups con un grupo de usuarios en el repositorio de Spark-Ranger en la interfaz de usuario de Ranger. Esto permite a todos los usuarios de ese grupo descargar políticas de Ranger y esta función es compatible con ODH versión 2.0.10 o posterior.

Ejemplo:

  1. Acceda a la interfaz de usuario de Ranger.
  2. Seleccione Editar en el repositorio de Spark.
  3. Vaya a la sección Add New Configurations.
  4. Agregue o actualice policy.download.auth.groups con el grupo de usuarios.

    Ejemplo:

    policy.download.auth.groups = spark,testgroup

  5. Seleccione Guardar.

Extensión de plugin de Spark-Ranger

La extensión del plugin Spark-Ranger no se puede sustituir en tiempo de ejecución en ODH versión 2.0.10 o posterior.

Nota

El control de acceso detallado no se puede aplicar por completo en casos de uso que no sean de Spark Thrift Server mediante el plugin de Spark Ranger. Se espera que el administrador de Ranger otorgue los permisos de acceso a archivos necesarios a los datos de HDFS mediante las políticas de ranger de HDFS.