「変換」ページでは、プロジェクト・データ・セットの修正と強化を行うことができます。変換はプロジェクトの範囲内で行われ、他のStudioユーザーの「カタログ」のデータ・セットには影響しません。
たとえば、
「変換」を使用して変更できるものを次に示します。
- 正しくないデータ型
- 正しくない書式設定(余分なスペースまたは一貫性のない大文字の使用)
- 欠落値
- 無効な値または矛盾した値。たとえば、属性によっては同じ値の複数のバージョンが存在することがあります(Wal-Mart、Walmart、Wal*Mart)。
また、
「変換」を使用して、データに関する追加情報を提供したり、値を使用する新しい方法を提供したりすることもできます。たとえば、次の操作が可能です。
- グループ化またはビン化を使用して、属性値のグループすなわち範囲を作成します。
- 属性を分割して、値から特定の情報を引き出します。
- 共通して使用される語を特定します。
- センチメントを分析します。
「変換」には、プロジェクト・データ・セットから属性またはレコードを削除するオプションもあります。
1つの変換スクリプトにいくつもの変換を組み合せることができます。プロジェクト・データ・セットに対してスクリプトを実行します。また、必要であれば、変換されたデータ・セットに基づいて新しいデータ・セットを「カタログ」に作成できます。
「変換」ページのヘッダー情報とリンク
「変換」の一番上に、プロジェクト・データ・セットのサマリーがあります。次に例を示します。
このサマリーには、次の情報が含まれています。
- 使用中のサンプルのレコード数
- データ・セット全体のレコード数
- 現在の絞込みと一致するサンプルのレコード数
- データ・セットの属性数
- お気に入りとしてマークされた属性
- データ型に基づいて属性を見つけるための「データ型」ドロップダウン
- 名前に基づいて属性を見つけるための「名前」ドロップダウン
- 非表示の属性を表示するための「非表示」コントロール
ページ・ヘッダーには以下が含まれることもあります。
- カスタム変換エディタの表示/非表示を切り替えるリンク
- データ・セット・プロパティの表示/非表示を切り替えるリンク
- このプロジェクト・データ・セットに適用された変換数を示す値。
変換するデータ・セットのサイズ
ソース・データが100万レコードを超える場合は、収集プロセスでソース・データが自動的にサンプリングされ、最大100万件のレコードに制限されたデータ・セットが提供されます。
ソース・データが100万件よりも少ない場合、データ・セットはサンプリングされず、プロジェクトにデータ・セット全体が含まれます。