감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나 (1)

oatmeal 2024. 2. 8. 18:57

Part 1. Basic - 김 팀장, 데이터 분석으로 첫 보고 하다.

Ch 1. 예측과 추론

💡 데이터를 분석하는 목적 두 가지

  1. 예측: 결과를 맞히는 것
  2. 추론: 원인과 결과 사이의 관계를 분석하는 것

추론의 결과가 예측이고, 예측 과정이 추론 아닌가요?

  • 예측에서는 관계보다 결과를 정확하게 맞히는 것이 더 중요하다.
    • 오차를 최소화 하는 것을 목적으로 함 (정확한 결괏값)
    • 예시) 신규 매장을 ‘열지 말지’를 결정해야 한다면 매출을 예측하는 것이 중요함
  • 추론에서는 원인과 결과 간 관계에 더 초점을 둔다.
    • x1, x2, xn의 변화에 따른 y의 변화를 이해하는 데 관심이 있음
    • 예시) 이미 신규매장을 열기로 결정했다면, 매출을 높이는 요인이 무엇인지 분석해서 매출을 높이는 방안을 찾는 것이 중요함

우산을 든 사람 사진을 보고

‘우산을 든 사람의 성별이 무엇인가?’를 맞히는 것은 예측.

‘왜 우산을 들고 있는가?’를 분석하는 것은 추론.

 

예측에서는 왜 그렇게 예측했는지 과정은 크게 중요하지 않음 맞추는 것이 중요함

따라서 데이터 분석의 목적이 무엇인지 파악하고 (예측인지, 추론인지) 그에 맞게 접근해야 한다.

 

추론

  1. 직관에 의한 추론 → 수치화하기 어려움
  2. 데이터 분석에 근거한 추론 → 구체적인 수치를 제시할 수 있는 장점 → 합리적인 판단에 도움 </aside>

Ch 2. 선형 회귀

3줄 요약

  • 데이터 분석 결과를 볼 때 모형의 적합도를 판단하려면 모형의 p-value가 0.05보다 작은지 확인하고, r2가 해당 분야에서 요구하는 값과 비교하여 적절한지 확인한다
  • 개별 요인이 유의미한지는 개별 요인의 p-value가 0.05보다 작은지를 보고 판단한다
  • 개별 요인의 계수를 이용해 회귀식을 만들어 보고한다

핵심 지표 4가지

  • 유의확률 (Pr) p-value, significance probability - 귀무가설을 잘못 기각할 확률
    • 유의수준 significance level (0.05) 보다 큰지 작은지 확인
    • p-value가 0.05보다 작으면 95% 신뢰수준으로 판단했을 때 믿을 수 있는 모형이라는 뜻
    • 모형을 신뢰해도 되는지 확인 = 모형의 적합도
  • 결정계수 r2
    • 모형이 전체 현상을 얼마나 설명하는지를 확인
    • r2에 대한 기준은 분야마다 다름
      • 공학, 자연과학: 0.7 이상이면 ㄱㅊㄱㅊ
      • 사회과학, 경영학: 0.3, 0.4 정도여도 ㄱㅊㄱㅊ
    • 수정 결정계수 adj r2
      • 지나치게 많은 요인을 사용해서 모형을 만들 경우 설명력이 높아지는 현상을 보완하기 위해 만들어진 지표
      • 요인이 2개 이상일 때부터 r2보다 조금씩 작아진다
      • 실무에서는 두 값에 큰 차이가 없어서 어떤 값을 봐도 큰 상관은 없다 요인이 많을 수록 두 값의 차이가 커지지만, 실무에서는 10개가 넘는 요인을 고려하는 경우가 드물다.
  • 개별 요인의 유의확률
    • 개별 요인의 p-value: Pr>|t|
      • 전체 모델의 p-value가 0.05보다 낮아도 개별 요인의 p-value는 0.05보다 높을 수 있음 그래서 개별 요인의 p-value를 확인하는 것이 중요함!
  • 계수 parameter estimates
    • 개별 요인마다 영향을 주는 정도
    • 다른 요인이 통제된 상황에서 a가 한 단위 증가할 때 b가 몇 단위 증가하는지를 보여주는 값
    • 만약 매장 크기 단위가 m2이고 매출 단위가 억 원일 때, 계수가 2라면, 매장 크기가 1m2 증가할 때 매출이 2억 원 증가. ⇒ 따라서 실제 비즈니스에서 의미 있는 값은 계수임
  • 절편 intercept
    • 데이터 분석에서 빠지거나 제외한 요인이 y에 영향을 주기 때문에 존재함 (포함한 요인 = x)

분산 분석 ANOVA (Analysis of Variance)

: 모형의 적합도를 검정. 모형이 얼마나 잘 만들어졌는지 보여줌

 

Ch 3. 데이터 수집

1. 현업에서 데이터가 축적되지 않은 경우가 많다. -> 데이터를 모으는 게 먼저! 

2. 질적 데이터를 양적 데이터로 변환화는 것은 어렵다 ㅎ ㅠ (ex. 점장의 역량)

Ch 4. 분석력과 예측력

분석할 때 선택지 두 가지

1. 정밀하게 분석 precision  - 모형이 단순하고 해석이 쉽다. (편향이 높고 분산이 낮음)

2. 정확하게 분석 accuracy - 모형이 복잡하고 해석이 어렵다. (편향이 낮고 분산이 높음)

 

편항, 분산이 둘 다 낮을 수록 좋다!

 

헷갈려서 조금 더 찾아보니, 

정밀도: 측정 재현성의 정도

정확도: 참값에 근접한 정도

 

R^2 값을 높이려고 해도 데이터가 없거나, 가성비가 나쁘거나, 해석하기 어려운 경우가 많다.

(모형이 복잡해지고 해석이 어려워져서 추론이 중요한 의사결정에는 활용하기 어려워진다)

 

Ch 5. 변수와 상관관계

상관관계 != 인과관계

 

회귀 분석을 할 때 독립변수간 선형 상관관계가 있는지 확인하여 다중 공선성 문제가 없도록 한다.