プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Service Studioユーザー・ガイド

E65365-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

変換および変換スクリプトについて

「変換」は、ソース・データが処理されてStudioにロードされた後で、プロジェクト・データ・セットに対して行うことができる変更です。 変換は、実質的にはETLプロセスでデータを消去します。 変換では、既存の属性の上書き、属性の変更または新しい属性の作成を実行できます。 任意の数の変換を変換スクリプトに結合できます。 プロジェクト・データ・セットに対してスクリプトを実行します。 また、必要に応じて、変換済バージョンに基づいてカタログに新しいデータ・セットを作成することもできます。

「変換」ページでは、プロジェクト・データ・セットの修正および拡張を行えます。 変換はプロジェクトの範囲内で行われ、他のStudioユーザーのカタログのデータ・セットには影響しません。

たとえば、「変換」ページを使用して次のものを変更できます:
  • 属性のデータ型の変更
  • 値の資産計上の変更
  • 属性またはレコードの削除
  • 欠落値の移入
  • 列の新たな列への分割(新しい属性の作成)
  • 属性の追加または削除、あるいは既存の属性の上書き
  • 無効な値または一貫性のない値を修正してください。 たとえば、1つの属性が同じ値の複数のバージョンを持つことができます(Wal-Mart、Walmart、Wal*Mart)。
  • グループ値またはビン値
  • 値から情報を抽出
また、データに関する追加情報を提供したり、値を使用する新しい方法を提供することもできます。 たとえば、次のことが可能です。
  • よく使用される用語の識別
  • センチメントの分析

変換スクリプトでのカスタム変換

また、Groovyスクリプト言語を使用し、Studioで使用可能な事前定義済のGroovyベース「変換関数」のリストを使用して、「変換スクリプト」を作成することもできます。 変換スクリプトは様々な変換のコレクションであり、「変換関数」のいずれかを含めることができます。

「変換エディタ」を使用して、Studioの同じ「変換」ページ内で、Groovyを使用して最初から独自の変換を記述することもできます。

変換スクリプトの実行

変換スクリプトは、「変換」エディタで「プロジェクトへのコミット」をクリックして実行します。 プロジェクトに変換スクリプトをコミットすると、スクリプトがプロジェクト・データ・セットに対して実行され、スクリプトの各変換ステップでプロジェクト・データ・セットが変更されます。 ただし、操作は、プロジェクトのベースとなるカタログ内のパブリック・データ・セットには影響しません。

スクリプトをコミットする前に、変更の結果をプレビューできます。 スクリプトの実行中、「通知」パネルでスクリプトの進行状況を確認できます。

プロジェクト・データ・セットを変換した後、必要に応じて、変更に基づいて新規データ・セットを作成できます。 これにより、他のStudioユーザーはカタログの新規データ・セットにアクセスできます。

変換するデータ・セットのサイズ

ソース・データが百万レコードを超える場合は、収集プロセスでソース・データが自動的にサンプリングされ、最大百万件のレコードに制限されたデータ・セットが提供されます。

ソース・データが百万レコードよりも小さい場合、プロジェクトにはサンプリングされたデータ・セットではなくデータ・セット全体が含まれます。