내가 보기위한 챗지피티 답변 모음
1. 정규화 (Normalization):
목적:
- 변수들 간의 상대적인 중요도를 균형있게 만들기 위해 사용됩니다.
적용 대상:
- 주로 정규 분포를 따르는 데이터에 적용됩니다.
적용 상황:
- 데이터가 정규 분포를 따르고 있으며, 이를 유지하고자 할 때.
- 변수들 간의 상대적인 중요도를 유지하면서 스케일을 맞추고자 할 때.
적용 기준:
- 데이터의 분포가 대략적으로 정규 분포에 가깝거나, 이상치가 적은 경우.
- 변수들 간의 범위가 크게 차이 나지 않을 때.
스케일 조정:
- 변수 값을 [0, 1] 또는 [-1, 1] 범위로 변환합니다.
예시:
- 이미지 픽셀 값: 이미지의 픽셀 값은 일반적으로 0과 255 사이의 범위에 있으므로 Min-Max Scaling을 통해 [0, 1]로 정규화할 수 있습니다.
- Min-Max Scaling이 일반적인 정규화 방법 중 하나입니다.
2. 표준화 (Standardization):
목적:
- 각 변수의 평균을 0, 분산을 1로 만들어 스케일을 맞추는 데 사용됩니다.
적용 대상:
- 주로 정규 분포를 따르는 데이터에 적용됩니다.
적용 상황:
- 데이터가 정규 분포를 따르지 않거나, 이상치가 존재할 때.
- 변수들 간의 상대적인 중요도를 무시하고 스케일을 맞추고자 할 때.
적용 기준:
- 데이터의 분포가 정규 분포를 따르지 않거나, 이상치가 많은 경우.
- 변수들 간의 범위가 크게 차이 날 때.
스케일 조정:
- 변수 값을 평균에서 빼고 표준편차로 나누어 변환합니다.
예시:
- 텍스트 데이터: 자연어 처리에서는 각 단어의 빈도를 표준화하여 변수 간의 스케일을 맞출 수 있습니다.
- Z-Score Normalization이 일반적인 표준화 방법 중 하나입니다.
선택 기준:
- 데이터의 특성과 분포를 파악한 후, 모델에 어떤 스케일 조정이 필요한지 평가합니다.
- 정규화는 주로 데이터가 정규 분포를 따르고 있고, 이를 유지하고자 할 때 선택됩니다.
- 표준화는 데이터가 정규 분포를 따르지 않거나 이상치가 있을 때, 상대적인 중요도를 무시하고 스케일을 맞추고자 할 때 선택됩니다.
---------------------------------------------
로그 변환:
- 목적: 데이터의 분포를 변경하거나, 데이터의 스케일이 큰 경우에 사용됩니다.
- 적용 대상: 주로 양수인 값이나 양의 값을 가지는 변수에 사용됩니다.
- 예시: 왜도(skewness)가 높은 데이터에 로그를 취해 정규분포에 가깝게 만들거나, 변동이 큰 데이터를 안정화시킬 때 사용됩니다.
'데이터분석' 카테고리의 다른 글
리텐션(Retention) 개선 (0) | 2023.04.26 |
---|---|
고착도 (Stickiness) (0) | 2023.04.14 |
AARRR 프레임워크 / 클래식 리텐션 (Classic Retention) / 롤링 리텐션 (Rolling Retention) / 범위 리텐션 (Range Retention) (0) | 2023.04.08 |