C Sparkナレッジ・モジュール

この付録では、Sparkナレッジ・モジュールについて説明します。

この章の内容は次のとおりです。

第C.1項「LKM File to Spark」
第C.2項「LKM Spark to File」
第C.3項「LKM Hive to Spark」
第C.4項「LKM Spark to Hive」
第C.5項「XKM Spark Aggregate」
第C.6項「XKM Spark Distinct」
第C.7項「XKM Spark Expression」
第C.8項「XKM Spark Filter」
第C.9項「XKM Spark Flatten」
第C.10項「XKM Spark Join」
第C.11項「XKM Spark Lookup」
第C.12項「XKM Spark Pivot」
第C.13項「XKM Spark Set」
第C.14項「XKM Spark Sort」
第C.15項「XKM Spark Split」
第C.16項「XKM Spark Table Function」
第C.17項「IKM Spark Table Function」
第C.18「XKM Spark Unpivot」

C.1 LKM File to Spark

このKMはデータをファイルからSpark Python変数にロードし、実行ユニット、ソース・テクノロジであるファイル、ターゲット・テクノロジであるSpark Pythonの間のAPで定義できます。

次の表は、LKM File to Sparkのオプションについて説明します。

表C-1 LKM File to Spark

オプション	説明
ストレージ関数	データをロード/保存するのに使用されるストレージ関数。
CACHE_DATA	デフォルト・ストレージ・レベルを使用してデータを永続化します。
InputFormatClass	Hadoop InputFormatのクラス名。例: org.apache.hadoop.mapreduce.lib.input.TextInputFormat。
KeyClass	キーWritableクラスの完全修飾クラス名。例: org.apache.hadoop.io.Text。
ValueClass	値Writableクラスの完全修飾クラス名。例: org.apache.hadoop.io.LongWritable。
KeyConverter	キー・コンバータ・クラスの完全修飾クラス名。
ValueConverter	値コンバータ・クラスの完全修飾クラス名。
ジョブ構成	Hadoop構成。例: {'hbase.zookeeper.quorum': 'HOST', 'hbase.mapreduce.inputtable': 'TAB'}

C.2 LKM Spark to File

このKMはデータをSpark Python変数からファイルに保存し、実行ユニット、ソース・テクノロジであるSpark Python、ターゲット・テクノロジであるファイルの間のAPで定義できます。

次の表は、LKM Spark to Fileのオプションについて説明します。

表C-2 LKM Spark to File

オプション	説明
ストレージ関数	データをロード/保存するのに使用されるストレージ関数。
InputFormatClass	Hadoop InputFormatのクラス名。例: org.apache.hadoop.mapreduce.lib.input.TextInputFormat。
KeyClass	キーWritableクラスの完全修飾クラス名。例: org.apache.hadoop.io.Text。
ValueClass	値Writableクラスの完全修飾クラス名。例: org.apache.hadoop.io.LongWritable。
KeyConverter	キー・コンバータ・クラスの完全修飾クラス名。
ValueConverter	値コンバータ・クラスの完全修飾クラス名。
ジョブ構成	Hadoop構成。例: {'hbase.zookeeper.quorum': 'HOST', 'hbase.mapreduce.inputtable': 'TAB'}

C.3 LKM Hive to Spark

このKMはデータをHive表からSpark Python変数にロードし、実行ユニット、ソース・テクノロジであるHive、ターゲット・テクノロジであるSpark Pythonの間のAPで定義できます。

C.4 LKM Spark to Hive

このKMはデータをSpark Python変数からHive表に保存し、実行ユニット、ソース・テクノロジであるSpark Python、ターゲット・テクノロジであるHiveの間のAPで定義できます。

次の表は、LKM Spark to Hiveのオプションについて説明します。

表C-3 LKM Spark to Hive

オプション	説明
CREATE_TARGET_TABLE	ターゲット表を作成します。
OVERWRITE_TARGET_TABLE	ターゲット表を上書きします。

C.5 XKM Spark Aggregate

SUMやGROUP BYなどを使用して行を集約します。

次の表は、XKM Spark Aggregateのオプションについて説明します。

表C-4 XKM Spark Aggregate

オプション	説明
CACHE_DATA	デフォルト・ストレージ・レベルを使用してデータを永続化します。
NUMBER_OF_TASKS	タスク番号。

C.6 XKM Spark Distinct

データの重複を排除します。

次の表は、XKM Spark Distinctのオプションについて説明します。

表C-5 XKM Spark Distinct

オプション	説明
CACHE_DATA	デフォルト・ストレージ・レベルを使用してデータを永続化します。

C.7 XKM Spark Expression

単一のマッピングにおいて再使用される式を定義します。

C.8 XKM Spark Filter

フィルタ条件に基づいてデータのサブセットを生成します。

次の表は、XKM Spark Filterのオプションについて説明します。

表C-6 XKM Spark Filter

オプション	説明
CACHE_DATA	デフォルト・ストレージ・レベルを使用してデータを永続化します。

C.9 XKM Spark Flatten

指定のオプションに基づいて複合データをネスト解除します。

次の表は、XKM Spark Flattenのオプションについて説明します。

表C-7 XKM Spark Flatten

オプション	説明
デフォルト式	nullのネストされた表オブジェクトのデフォルト式。例: rating_table(obj_rating('-1', 'Unknown'))。 nullの各ネストされた表オブジェクトに対するデフォルト値が設定された行を返すのに使用されます。
CACHE_DATA	TRUEに設定すると、Sparkのデフォルト・ストレージ・レベルを使用して結果を永続化します。デフォルトはFALSEです。

オプション

説明

デフォルト式

nullのネストされた表オブジェクトのデフォルト式。例: rating_table(obj_rating('-1', 'Unknown'))。

nullの各ネストされた表オブジェクトに対するデフォルト値が設定された行を返すのに使用されます。

CACHE_DATA

TRUEに設定すると、Sparkのデフォルト・ストレージ・レベルを使用して結果を永続化します。

デフォルトはFALSEです。

C.10 XKM Spark Join

結合条件に基づいて複数の入力ソースを結合します。

次の表は、XKM Spark Joinのオプションについて説明します。

表C-8 XKM Spark Join

オプション	説明
CACHE_DATA	デフォルト・ストレージ・レベルを使用してデータを永続化します。
NUMBER_OF_TASKS	タスク番号。

C.11 XKM Spark Lookup

派生データ・ソースのデータをルックアップします。

次の表は、XKM Spark Lookupのオプションについて説明します。

表C-9 XKM Spark Join

オプション	説明
CACHE_DATA	デフォルト・ストレージ・レベルを使用してデータを永続化します。
NUMBER_OF_TASKS	タスク番号。

C.12 XKM Spark Pivot

別々の行のデータを取得して集計し、列に変換します。

次の表は、XKM Spark Pivotのオプションについて説明します。

表C-10 XKM Spark Pivot

オプション	説明
CACHE_DATA	デフォルト・ストレージ・レベルを使用してデータを永続化します。

C.13 XKM Spark Set

UNION、MINUSまたはその他の集合演算を実行します。

C.14 XKM Spark Sort

式を使用してデータをソートします。

次の表は、XKM Spark Sortのオプションについて説明します。

表C-11 XKM Spark Sort

オプション	説明
CACHE_DATA	デフォルト・ストレージ・レベルを使用してデータを永続化します。
NUMBER_OF_TASKS	タスク番号。

C.15 XKM Spark Split

データを複数の条件により複数のパスに分割します。

次の表は、XKM Spark Splitのオプションについて説明します。

表C-12 XKM Spark Split

オプション	説明
CACHE_DATA	デフォルト・ストレージ・レベルを使用してデータを永続化します。

C.16 XKM Spark Table Function

Spark表関数アクセス。

次の表は、XKM Spark Table Functionのオプションについて説明します。

表C-13 XKM Spark Table Function

オプション	説明
SPARK_SCRIPT_FILE	ユーザーがsparkスクリプト・ファイルのパスを指定します。
CACHE_DATA	デフォルト・ストレージ・レベルを使用してデータを永続化します。

C.17 IKM Spark Table Function

ターゲットとしてのSpark表関数。

次の表は、IKM Spark Table Functionのオプションについて説明します。

表C-14 IKM Spark Table Function

オプション	説明
SPARK_SCRIPT_FILE	ユーザーがsparkスクリプト・ファイルのパスを指定します。
CACHE_DATA	デフォルト・ストレージ・レベルを使用してデータを永続化します。

C.18 XKM Spark Unpivot

複数の属性の単一行を複数の行に効率的に変換します。

次の表は、XKM Spark Pivotのオプションについて説明します。

表C-15 XKM Spark Unpivot

オプション	説明
CACHE_DATA	デフォルト・ストレージ・レベルを使用してデータを永続化します。