プライマリ・コンテンツに移動
Oracle® Fusion Middleware Oracle Data IntegratorによるBig Dataの統合
12c (12.2.1.2.0)
E82655-01
  目次へ移動
目次
索引へ移動
索引

前
 
次
 

C Sparkナレッジ・モジュール

この付録では、Sparkナレッジ・モジュールについて説明します。

この章の内容は次のとおりです。

C.1 LKM File to Spark

このKMはデータをファイルからSpark Python変数にロードし、実行ユニット、ソース・テクノロジであるファイル、ターゲット・テクノロジであるSpark Pythonの間のAPで定義できます。

次の表は、LKM File to Sparkのオプションについて説明します。

表C-1 LKM File to Spark

オプション 説明

ストレージ関数

データをロード/保存するのに使用されるストレージ関数。

CACHE_DATA

デフォルト・ストレージ・レベルを使用してデータを永続化します。

InputFormatClass

Hadoop InputFormatのクラス名。

例: org.apache.hadoop.mapreduce.lib.input.TextInputFormat。

KeyClass

キーWritableクラスの完全修飾クラス名。

例: org.apache.hadoop.io.Text。

ValueClass

値Writableクラスの完全修飾クラス名。

例: org.apache.hadoop.io.LongWritable。

KeyConverter

キー・コンバータ・クラスの完全修飾クラス名。

ValueConverter

値コンバータ・クラスの完全修飾クラス名。

ジョブ構成

Hadoop構成。

例: {'hbase.zookeeper.quorum': 'HOST', 'hbase.mapreduce.inputtable': 'TAB'}


C.2 LKM Spark to File

このKMはデータをSpark Python変数からファイルに保存し、実行ユニット、ソース・テクノロジであるSpark Python、ターゲット・テクノロジであるファイルの間のAPで定義できます。

次の表は、LKM Spark to Fileのオプションについて説明します。

表C-2 LKM Spark to File

オプション 説明

ストレージ関数

データをロード/保存するのに使用されるストレージ関数。

InputFormatClass

Hadoop InputFormatのクラス名。

例: org.apache.hadoop.mapreduce.lib.input.TextInputFormat。

KeyClass

キーWritableクラスの完全修飾クラス名。

例: org.apache.hadoop.io.Text。

ValueClass

値Writableクラスの完全修飾クラス名。

例: org.apache.hadoop.io.LongWritable。

KeyConverter

キー・コンバータ・クラスの完全修飾クラス名。

ValueConverter

値コンバータ・クラスの完全修飾クラス名。

ジョブ構成

Hadoop構成。

例: {'hbase.zookeeper.quorum': 'HOST', 'hbase.mapreduce.inputtable': 'TAB'}


C.3 LKM Hive to Spark

このKMはデータをHive表からSpark Python変数にロードし、実行ユニット、ソース・テクノロジであるHive、ターゲット・テクノロジであるSpark Pythonの間のAPで定義できます。

C.4 LKM Spark to Hive

このKMはデータをSpark Python変数からHive表に保存し、実行ユニット、ソース・テクノロジであるSpark Python、ターゲット・テクノロジであるHiveの間のAPで定義できます。

次の表は、LKM Spark to Hiveのオプションについて説明します。

表C-3 LKM Spark to Hive

オプション 説明

CREATE_TARGET_TABLE

ターゲット表を作成します。

OVERWRITE_TARGET_TABLE

ターゲット表を上書きします。


C.5 XKM Spark Aggregate

SUMやGROUP BYなどを使用して行を集約します。

次の表は、XKM Spark Aggregateのオプションについて説明します。

表C-4 XKM Spark Aggregate

オプション 説明

CACHE_DATA

デフォルト・ストレージ・レベルを使用してデータを永続化します。

NUMBER_OF_TASKS

タスク番号。


C.6 XKM Spark Distinct

データの重複を排除します。

次の表は、XKM Spark Distinctのオプションについて説明します。

表C-5 XKM Spark Distinct

オプション 説明

CACHE_DATA

デフォルト・ストレージ・レベルを使用してデータを永続化します。


C.7 XKM Spark Expression

単一のマッピングにおいて再使用される式を定義します。

C.8 XKM Spark Filter

フィルタ条件に基づいてデータのサブセットを生成します。

次の表は、XKM Spark Filterのオプションについて説明します。

表C-6 XKM Spark Filter

オプション 説明

CACHE_DATA

デフォルト・ストレージ・レベルを使用してデータを永続化します。


C.9 XKM Spark Flatten

指定のオプションに基づいて複合データをネスト解除します。

次の表は、XKM Spark Flattenのオプションについて説明します。

表C-7 XKM Spark Flatten

オプション 説明

デフォルト式

nullのネストされた表オブジェクトのデフォルト式。例: rating_table(obj_rating('-1', 'Unknown'))。

nullの各ネストされた表オブジェクトに対するデフォルト値が設定された行を返すのに使用されます。

CACHE_DATA

TRUEに設定すると、Sparkのデフォルト・ストレージ・レベルを使用して結果を永続化します。

デフォルトはFALSEです。


C.10 XKM Spark Join

結合条件に基づいて複数の入力ソースを結合します。

次の表は、XKM Spark Joinのオプションについて説明します。

表C-8 XKM Spark Join

オプション 説明

CACHE_DATA

デフォルト・ストレージ・レベルを使用してデータを永続化します。

NUMBER_OF_TASKS

タスク番号。


C.11 XKM Spark Lookup

派生データ・ソースのデータをルックアップします。

次の表は、XKM Spark Lookupのオプションについて説明します。

表C-9 XKM Spark Join

オプション 説明

CACHE_DATA

デフォルト・ストレージ・レベルを使用してデータを永続化します。

NUMBER_OF_TASKS

タスク番号。


C.12 XKM Spark Pivot

別々の行のデータを取得して集計し、列に変換します。

次の表は、XKM Spark Pivotのオプションについて説明します。

表C-10 XKM Spark Pivot

オプション 説明

CACHE_DATA

デフォルト・ストレージ・レベルを使用してデータを永続化します。


C.13 XKM Spark Set

UNION、MINUSまたはその他の集合演算を実行します。

C.14 XKM Spark Sort

式を使用してデータをソートします。

次の表は、XKM Spark Sortのオプションについて説明します。

表C-11 XKM Spark Sort

オプション 説明

CACHE_DATA

デフォルト・ストレージ・レベルを使用してデータを永続化します。

NUMBER_OF_TASKS

タスク番号。


C.15 XKM Spark Split

データを複数の条件により複数のパスに分割します。

次の表は、XKM Spark Splitのオプションについて説明します。

表C-12 XKM Spark Split

オプション 説明

CACHE_DATA

デフォルト・ストレージ・レベルを使用してデータを永続化します。


C.16 XKM Spark Table Function

Spark表関数アクセス。

次の表は、XKM Spark Table Functionのオプションについて説明します。

表C-13 XKM Spark Table Function

オプション 説明

SPARK_SCRIPT_FILE

ユーザーがsparkスクリプト・ファイルのパスを指定します。

CACHE_DATA

デフォルト・ストレージ・レベルを使用してデータを永続化します。


C.17 IKM Spark Table Function

ターゲットとしてのSpark表関数。

次の表は、IKM Spark Table Functionのオプションについて説明します。

表C-14 IKM Spark Table Function

オプション 説明

SPARK_SCRIPT_FILE

ユーザーがsparkスクリプト・ファイルのパスを指定します。

CACHE_DATA

デフォルト・ストレージ・レベルを使用してデータを永続化します。


C.18 XKM Spark Unpivot

複数の属性の単一行を複数の行に効率的に変換します。

次の表は、XKM Spark Pivotのオプションについて説明します。

表C-15 XKM Spark Unpivot

オプション 説明

CACHE_DATA

デフォルト・ストレージ・レベルを使用してデータを永続化します。