データ準備について
分析用に準備しているデータを変換およびエンリッチできます。
プロジェクトを作成してデータ・セットを追加すると、データの典型的なサンプルに対して実行される列レベルのプロファイリングが行われます。データのプロファイリング後、データ・セット内の認識可能な列に対して提供された変換およびエンリッチメント推奨を実装できます。提供される推奨事項は次のようなもので、変換やエンリッチメントを1回のクリックでデータに適用できます。
- 市区町村または郵便番号の緯度や経度など、全地球測位システムのエンリッチメント。
- 参照ベースのエンリッチメント。たとえば、個人名の名前を性別判定の属性に使用して、性別を追加できます。
- 列の連結。たとえば、個人の姓と名を格納した値を追加します。
- 部分抽出。たとえば、住所の番地名から家屋番号を抜き出します。
- セマンティック抽出。たとえば、電子メール・アドレスのドメインなど、認識されたセマンティック・タイプから情報を抜き出します。
- 日付部分の抽出。たとえば、月、日、年書式を使用する日付から曜日を抜き出し、ビジュアライゼーションで日付がより役立つようにします。
- 検出された機密フィールドの全体的または部分的な不明瞭化またはマスキング。
- 検出された機密フィールドを含む列についての削除推奨。
列の「オプション」メニューから様々なデータ変換を使用および構成することもできます。列のメニュー・オプションを使用したデータの変換を参照してください。
変換の適用
データ・セットに適用するデータ変換およびエンリッチメントの変更は、同じデータ・セットを使用するすべてのプロジェクトおよびデータ・フローに影響を及ぼします。同じデータ・セットを使用しているプロジェクトを開くと、更新されたデータがプロジェクトで使用されていることを示すメッセージが表示されます。データ・セットのデータをリフレッシュすると、リフレッシュしたデータに準備スクリプトの変更が自動的に適用されます。
データを変換すると、「準備スクリプト」ペインにステップが自動的に追加されます。青色のドットは、ステップがまだ適用されていないことを示します。スクリプトの適用後、データ・セットに追加の変更を加えたり、プロジェクトを作成できます。