본문 바로가기

데이터분석

정규화 VS 표준화, 로그변환

내가 보기위한 챗지피티 답변 모음

 

1. 정규화 (Normalization):

목적: 

  • 변수들 간의 상대적인 중요도를 균형있게 만들기 위해 사용됩니다.

적용 대상:

  • 주로 정규 분포를 따르는 데이터에 적용됩니다.

적용 상황: 

  • 데이터가 정규 분포를 따르고 있으며, 이를 유지하고자 할 때.
  • 변수들 간의 상대적인 중요도를 유지하면서 스케일을 맞추고자 할 때.

적용 기준:

  • 데이터의 분포가 대략적으로 정규 분포에 가깝거나, 이상치가 적은 경우.
  • 변수들 간의 범위가 크게 차이 나지 않을 때.

스케일 조정: 

  • 변수 값을 [0, 1] 또는 [-1, 1] 범위로 변환합니다.

예시:

  • 이미지 픽셀 값: 이미지의 픽셀 값은 일반적으로 0과 255 사이의 범위에 있으므로 Min-Max Scaling을 통해 [0, 1]로 정규화할 수 있습니다.
  • Min-Max Scaling이 일반적인 정규화 방법 중 하나입니다.

 

2. 표준화 (Standardization):

목적: 

  •  각 변수의 평균을 0, 분산을 1로 만들어 스케일을 맞추는 데 사용됩니다.

적용 대상:

  • 주로 정규 분포를 따르는 데이터에 적용됩니다.

적용 상황:

  • 데이터가 정규 분포를 따르지 않거나, 이상치가 존재할 때.
  • 변수들 간의 상대적인 중요도를 무시하고 스케일을 맞추고자 할 때.

적용 기준:

  • 데이터의 분포가 정규 분포를 따르지 않거나, 이상치가 많은 경우.
  • 변수들 간의 범위가 크게 차이 날 때.

스케일 조정: 

  • 변수 값을 평균에서 빼고 표준편차로 나누어 변환합니다.

예시:

  • 텍스트 데이터: 자연어 처리에서는 각 단어의 빈도를 표준화하여 변수 간의 스케일을 맞출 수 있습니다.
  • Z-Score Normalization이 일반적인 표준화 방법 중 하나입니다.

선택 기준:

  • 데이터의 특성과 분포를 파악한 후, 모델에 어떤 스케일 조정이 필요한지 평가합니다.
  • 정규화는 주로 데이터가 정규 분포를 따르고 있고, 이를 유지하고자 할 때 선택됩니다.
  • 표준화는 데이터가 정규 분포를 따르지 않거나 이상치가 있을 때, 상대적인 중요도를 무시하고 스케일을 맞추고자 할 때 선택됩니다.
---------------------------------------------


로그 변환:

  • 목적: 데이터의 분포를 변경하거나, 데이터의 스케일이 큰 경우에 사용됩니다.
  • 적용 대상: 주로 양수인 값이나 양의 값을 가지는 변수에 사용됩니다.
  • 예시: 왜도(skewness)가 높은 데이터에 로그를 취해 정규분포에 가깝게 만들거나, 변동이 큰 데이터를 안정화시킬 때 사용됩니다.