Uso de Apache Spark

Apache Spark es un motor de procesamiento de datos que realiza tareas de procesamiento para cargas de trabajo de big data.

El servidor JDBC/ODBC de Thrift corresponde a HiveServer2 en Hive incorporado. Puede probar el servidor JDBC con el script de Beeline que viene con Spark o Hive. Para conectarse al servidor Thrift de Spark desde cualquier máquina de un cluster de Big Data Service, utilice el comando spark-beeline.

Propiedades de configuración de Spark

Propiedades de configuración de Spark incluidas en Big Data Service 3.1.1 o posterior.

Configuración Propiedad Descripción
spark3-env spark_history_secure_opts Opciones de Java del servidor de historial de Spark si la seguridad está activada
spark_history_log_opts Opciones de Java de registro del servidor de historial de Spark
spark_thrift_log_opts Opciones Java de registro de Thrift Server de Spark
spark_library_path Rutas que contienen bibliotecas compartidas para Spark
spark_dist_classpath Rutas que contienen bibliotecas de Hadoop para Spark
spark_thrift_remotejmx_opts Opciones de Java de Thrift Server de Spark si JMX remoto está activado
spark_history_remotejmx_opts Opciones de Java del servidor de historial de Spark si JMX remoto está activado
spark3-defaultsspark_history_store_pathUbicación de la caché del servidor de historial de Spark. Para acceder a esta propiedad, vaya a la página de inicio de Ambari, seleccione Spark3 y, a continuación, seleccione Configuración y, por último, seleccione Valores por defecto avanzados de spark3.

El valor por defecto es /u01/lib/spark3/shs_db. Puede editar este valor para cambiar la ubicación de la caché según sea necesario.

livy2-env livy_server_opts Opciones de Java de Livy Server

Permiso de grupo para descargar políticas

Puede otorgar a los usuarios acceso para descargar políticas de Ranger mediante un grupo de usuarios que permita ejecutar consultas SQL a través de un trabajo de Spark.

En un cluster de alta disponibilidad de Big Data Service con el plugin Ranger-Spark activado, debe tener acceso para descargar políticas de Ranger para ejecutar cualquier consulta SQL mediante trabajos de Spark. Para otorgar permiso para descargar políticas de Ranger, el usuario debe estar incluido en las listas policy.download.auth.users y tag.download.auth.users. Para obtener más información, consulte El trabajo de Spark puede fallar con un error 401 al intentar descargar las políticas de Ranger-Spark.

En lugar de especificar muchos usuarios, puede configurar el parámetro policy.download.auth.groups con un grupo de usuarios en el repositorio de Spark-Ranger en la interfaz de usuario de Ranger. Esto permite a todos los usuarios de ese grupo descargar políticas de Ranger y esta función es compatible con ODH versión 2.0.10 o posterior.

Ejemplo:

  1. Acceda a la interfaz de usuario de Ranger.
  2. Seleccione Editar en el repositorio de Spark.
  3. Vaya a la sección Add New Configurations.
  4. Agregue o actualice policy.download.auth.groups con el grupo de usuarios.

    Ejemplo:

    policy.download.auth.groups = spark,testgroup

  5. Seleccione Guardar.

Definición de permisos de nivel de usuario para Spark en Ranger

Para gestionar qué usuarios pueden acceder a los recursos de Spark, defina los permisos de nivel de usuario en la interfaz de usuario de Ranger.

  1. Acceda a la interfaz de usuario de administración de Ranger.
  2. En la lista de repositorios, seleccione el servicio Spark.
  3. Seleccione Agregar Nueva Política o seleccione una política existente para editarla.
  4. Seleccione el recurso (base de datos, servicio de chispas u otro) para el que desea definir permisos.
  5. En la sección Permitir condiciones, en Seleccionar usuario, seleccione el nombre de un usuario de la lista. A continuación, en Permisos, seleccione los permisos que desea otorgar a ese usuario.
  6. Seleccione Guardar.

Extensión de plugin de Spark-Ranger

La extensión del plugin Spark-Ranger no se puede sustituir en tiempo de ejecución en ODH versión 2.0.10 o posterior.

Nota

El control de acceso detallado no se puede aplicar por completo en casos de uso que no sean de Spark Thrift Server mediante el plugin de Spark Ranger. Se espera que el administrador de Ranger otorgue los permisos de acceso a archivos necesarios a los datos de HDFS mediante las políticas de ranger de HDFS.