変換は、ソース・データ・セットが処理されてStudioにロードされた後にプロジェクト・データ・セットに対して行うことができる変更です。変換は、データをクリーニングするETLプロセスの代替機能だと見なすことができます。変換により、既存の属性の上書き、属性の変更、または新しい属性の作成を行うことができます。
たとえば、次のいずれかの変換を行うことができます。
- 属性のデータ型の変更
- 値の大文字/小文字の変更
- 属性またはレコードの削除
- 列の新しい列への分割(新しい属性の作成による)
- 属性の追加または削除、または既存の属性の上書き
- 値のグループ化またはビン化
- 値からの情報の抽出
ほとんどの変換は、Studioの「変換」ページ内の特定のオプションから直接実行できます。
Big Data Discoveryで使用可能な事前定義済のGroovyベースのカスタム変換関数のリストとGroovyスクリプト言語を使用して、変換スクリプトを作成できます。変換スクリプトは様々な変換のコレクションです。変換スクリプトには、任意の変換関数を組み込むことができます。
また、「変換エディタ」を使用して、Studioの同じ「変換」ページからGroovyを使用して独自の変換を最初から作成することもできます。
変換スクリプトをプロジェクトにコミットすると、変換スクリプトはデータ・サンプルに対して実行されますが、
「カタログ」内のデータ・セットには影響しません。変換スクリプトを現在のプロジェクトに適用することも、変換スクリプトを使用して新しいデータ・セットを作成することもできます。
- 変換スクリプトをプロジェクトにコミットすると、「カタログ」に新しいエントリは作成されませんが、現在のプロジェクトに変換スクリプトの影響が表示されます。
- 変換スクリプトを使用して新しいデータ・セットを作成すると、新しいデータ・セット・エントリが「カタログ」に追加され、他のプロジェクトで使用できるようになります。この新しいデータ・セットは、変換スクリプトを適用した後における元のソースHive表の新しいサンプルです。この方法で新しいデータ・セットを作成した場合、変換スクリプトは現在のプロジェクトに適用されません。