この付録では、Sparkナレッジ・モジュールについて説明します。
この章の内容は次のとおりです。
このKMはデータをファイルからSpark Python変数にロードし、実行ユニット、ソース・テクノロジであるファイル、ターゲット・テクノロジであるSpark Pythonの間のAPで定義できます。
次の表は、LKM File to Sparkのオプションについて説明します。
表C-1 LKM File to Spark
オプション | 説明 |
---|---|
ストレージ関数 |
データをロード/保存するのに使用されるストレージ関数。 |
CACHE_DATA |
デフォルト・ストレージ・レベルを使用してデータを永続化します。 |
InputFormatClass |
Hadoop InputFormatのクラス名。 例: org.apache.hadoop.mapreduce.lib.input.TextInputFormat。 |
KeyClass |
キーWritableクラスの完全修飾クラス名。 例: org.apache.hadoop.io.Text。 |
ValueClass |
値Writableクラスの完全修飾クラス名。 例: org.apache.hadoop.io.LongWritable。 |
KeyConverter |
キー・コンバータ・クラスの完全修飾クラス名。 |
ValueConverter |
値コンバータ・クラスの完全修飾クラス名。 |
ジョブ構成 |
Hadoop構成。 例: {'hbase.zookeeper.quorum': 'HOST', 'hbase.mapreduce.inputtable': 'TAB'} |
このKMはデータをSpark Python変数からファイルに保存し、実行ユニット、ソース・テクノロジであるSpark Python、ターゲット・テクノロジであるファイルの間のAPで定義できます。
次の表は、LKM Spark to Fileのオプションについて説明します。
表C-2 LKM Spark to File
オプション | 説明 |
---|---|
ストレージ関数 |
データをロード/保存するのに使用されるストレージ関数。 |
InputFormatClass |
Hadoop InputFormatのクラス名。 例: org.apache.hadoop.mapreduce.lib.input.TextInputFormat。 |
KeyClass |
キーWritableクラスの完全修飾クラス名。 例: org.apache.hadoop.io.Text。 |
ValueClass |
値Writableクラスの完全修飾クラス名。 例: org.apache.hadoop.io.LongWritable。 |
KeyConverter |
キー・コンバータ・クラスの完全修飾クラス名。 |
ValueConverter |
値コンバータ・クラスの完全修飾クラス名。 |
ジョブ構成 |
Hadoop構成。 例: {'hbase.zookeeper.quorum': 'HOST', 'hbase.mapreduce.inputtable': 'TAB'} |
このKMはデータをHive表からSpark Python変数にロードし、実行ユニット、ソース・テクノロジであるHive、ターゲット・テクノロジであるSpark Pythonの間のAPで定義できます。
このKMはデータをSpark Python変数からHive表に保存し、実行ユニット、ソース・テクノロジであるSpark Python、ターゲット・テクノロジであるHiveの間のAPで定義できます。
次の表は、LKM Spark to Hiveのオプションについて説明します。
SUMやGROUP BYなどを使用して行を集約します。
次の表は、XKM Spark Aggregateのオプションについて説明します。
データの重複を排除します。
次の表は、XKM Spark Distinctのオプションについて説明します。
単一のマッピングにおいて再使用される式を定義します。
フィルタ条件に基づいてデータのサブセットを生成します。
次の表は、XKM Spark Filterのオプションについて説明します。
指定のオプションに基づいて複合データをネスト解除します。
次の表は、XKM Spark Flattenのオプションについて説明します。
結合条件に基づいて複数の入力ソースを結合します。
次の表は、XKM Spark Joinのオプションについて説明します。
派生データ・ソースのデータをルックアップします。
次の表は、XKM Spark Lookupのオプションについて説明します。
別々の行のデータを取得して集計し、列に変換します。
次の表は、XKM Spark Pivotのオプションについて説明します。
UNION、MINUSまたはその他の集合演算を実行します。
式を使用してデータをソートします。
次の表は、XKM Spark Sortのオプションについて説明します。
データを複数の条件により複数のパスに分割します。
次の表は、XKM Spark Splitのオプションについて説明します。
Spark表関数アクセス。
次の表は、XKM Spark Table Functionのオプションについて説明します。
ターゲットとしてのSpark表関数。
次の表は、IKM Spark Table Functionのオプションについて説明します。