Apache Sparkの使用

Apache Sparkは、ビッグ・データ・ワークロードの処理タスクを実行するデータ処理エンジンです。

Thrift JDBC/ODBCサーバーは、組込みHiveのHiveServer2に対応します。JDBCサーバーは、SparkまたはHiveに付属のbeelineスクリプトでテストできます。ビッグ・データ・サービス・クラスタ内の任意のマシンからSpark Thrift Serverに接続するには、spark-beelineコマンドを使用します。

Spark構成プロパティ

ビッグ・データ・サービス3.1.1以降に含まれるSpark構成プロパティ。


設定	プロパティ	説明
`spark3-env`	`spark_history_secure_opts`	セキュリティが有効な場合のSpark履歴サーバーのJavaオプション
	`spark_history_log_opts`	Spark履歴サーバーのロギングJavaオプション
	`spark_thrift_log_opts`	Spark Thrift ServerロギングJavaオプション
	`spark_library_path`	Sparkの共有ライブラリを含むパス
	`spark_dist_classpath`	Spark用のHadoopライブラリを含むパス
	`spark_thrift_remotejmx_opts`	リモートJMXが有効な場合のSpark Thrift Server Javaオプション
	`spark_history_remotejmx_opts`	リモートJMXが有効な場合のSpark History Server Javaオプション
`livy2-env`	`livy_server_opts`	Livy Server Javaオプション

ポリシーをダウンロードするためのグループ権限

Sparkジョブを介したSQL問合せの実行を許可するユーザー・グループを使用して、Rangerポリシーをダウンロードするためのアクセス権をユーザーに付与できます。

Ranger-Sparkプラグインが有効になっているビッグ・データ・サービスHAクラスタでは、Sparkジョブを使用してSQL問合せを実行するには、Rangerポリシーをダウンロードするためのアクセス権が必要です。Rangerポリシーをダウンロードする権限を付与するには、ユーザーがpolicy.download.auth.usersおよびtag.download.auth.usersリストに含まれている必要があります。詳細は、Ranger-Sparkポリシーのダウンロード試行中にSparkジョブが401エラーで失敗することがあるを参照してください。

多数のユーザーを指定するかわりに、Ranger UIでSpark-Rangerリポジトリのユーザー・グループを使用してpolicy.download.auth.groupsパラメータを構成できます。これにより、そのグループ内のすべてのユーザーがRangerポリシーをダウンロードでき、この機能はODHバージョン2.0.10以降でサポートされます。

例:

Ranger UIにアクセスします。
Sparkリポジトリで「編集」を選択します。
「新規構成の追加」セクションにナビゲートします。
policy.download.auth.groupsを追加または更新します。

例:

policy.download.auth.groups = spark,testgroup
「保存」を選択します

Spark-Rangerプラグイン拡張

Spark-Rangerプラグイン拡張は、ODHバージョン2.0.10以降では実行時にオーバーライドできません。

ノート

ファイングレイン・アクセス制御は、Spark Rangerプラグインを介してSpark Thrift Server以外のユースケースで完全には適用できません。Ranger Adminは、HDFSレンジャー・ポリシーを介して、HDFS内のデータに必要なファイル・アクセス権限を付与する必要があります。

Oracle Cloud Infrastructureドキュメント

Apache Sparkの使用

Spark構成プロパティ

ポリシーをダウンロードするためのグループ権限

Spark-Rangerプラグイン拡張