예측을 수행하기 전에 데이터 평가 및 관리 방법(예: 이상치 또는 누락된 값 처리 방법)을 정의합니다. 이러한 데이터 준비 옵션은 예측에 사용되는 데이터의 품질을 향상시킬 수 있습니다.
각 동인에 대한 데이터를 관리하는 방법을 정의합니다. 타겟 값 예는 예측 중인 타겟 측정항목을 나타냅니다.
누락된 값은 통계 예측(단변량 예측)을 사용하여 예측되며 ML 모델 학습에 사용됩니다.
측정 실패, 형식 지정 문제, 인적 오류 또는 정보 부족과 같은 여러 가지 이유로 누락된 값이 데이터에 포함될 수 있습니다. 이러한 누락된 값을 채우는 방법을 정의하여 데이터 세트의 누락된 항목에 표준화된 값을 추가합니다.
mean +/- 3*Standard Deviation 범위를 벗어나는 값입니다.
없음 - 아무 작업도 수행하지 않고 그대로 데이터를 전송합니다.
0으로 바꾸기 - 0으로 바꿉니다.
평균으로 바꾸기 - 평균으로 바꿉니다.
Z_score로 바꾸기 - z_score로 바꿉니다.
숫자 열의 경우 mean +/- 3*Standard Deviation(std dev)에서 벗어나는 값은 이상치로 처리됩니다. mean - 3*std dev 미만인 값은 mean -3*std dev로 바뀝니다. mean + 3*std dev를 초과하는 값은 mean + 3*std dev로 바뀝니다.