Utilisation d'Apache Spark
Apache Spark est un moteur de traitement de données qui effectue des tâches de traitement pour les charges de travail Big Data.
Le serveur JDBC/ODBC Thrift correspond à HiveServer2 dans Hive intégré. Vous pouvez tester le serveur JDBC avec le script de liaison fourni avec Spark ou Hive. Pour vous connecter au serveur Thrift Spark à partir de n'importe quel ordinateur d'un cluster Big Data Service, utilisez la commande spark-beeline
.
Propriétés de configuration Spark
Propriétés de configuration Spark incluses dans Big Data Service 3.1.1 ou version ultérieure.
Configuration | Propriété | Description |
---|---|---|
spark3-env |
spark_history_secure_opts |
Options Java du serveur d'historique Spark si la sécurité est activée |
spark_history_log_opts |
Options Java de journalisation du serveur d'historique Spark | |
spark_thrift_log_opts |
Options Java de journalisation du serveur Spark Thrift | |
spark_library_path |
Chemins contenant des bibliothèques partagées pour Spark | |
spark_dist_classpath |
Chemins contenant les bibliothèques Hadoop pour Spark | |
spark_thrift_remotejmx_opts |
Options Java du serveur Spark Thrift si JMX distant est activé | |
spark_history_remotejmx_opts |
Options Java du serveur d'historique Spark si JMX distant est activé | |
livy2-env |
livy_server_opts |
Options Java Livy Server |
Autorisation de groupe de télécharger des stratégies
Vous pouvez accorder aux utilisateurs l'accès pour télécharger des stratégies Ranger à l'aide d'un groupe d'utilisateurs qui permet d'exécuter des requêtes SQL via un travail Spark.
Dans un cluster de haute disponibilité Big Data Service avec le module d'extension Ranger-Spark activé, vous devez avoir accès au téléchargement de stratégies Ranger pour exécuter toutes les requêtes SQL utilisant des travaux Spark. Pour autoriser le téléchargement des stratégies Ranger, l'utilisateur doit être inclus dans les listes policy.download.auth.users
et tag.download.auth.users
. Pour plus d'informations, reportez-vous à Echec possible du travail Spark avec une erreur 401 lors de la tentative de téléchargement des stratégies Ranger-Spark.
Au lieu de spécifier de nombreux utilisateurs, vous pouvez configurer le paramètre policy.download.auth.groups
avec un groupe d'utilisateurs dans le référentiel Spark-Ranger de l'interface utilisateur Ranger. Cela permet à tous les utilisateurs de ce groupe de télécharger les stratégies Ranger et cette fonctionnalité est prise en charge à partir d'ODH version 2.0.10 ou ultérieure.
Exemple :
Extension de module d'extension Spark-Ranger
L'extension de module d'extension Spark-Ranger ne peut pas être remplacée lors de l'exécution dans ODH version 2.0.10 ou ultérieure.
Le contrôle d'accès de niveau fin ne peut pas être entièrement appliqué dans les cas d'utilisation de serveurs Thrift autres que Spark via le module d'extension Spark Ranger. L'administrateur Ranger doit accorder les droits d'accès aux fichiers requis pour les données dans HDFS via les stratégies Ranger HDFS.