감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나 (1)
Part 1. Basic - 김 팀장, 데이터 분석으로 첫 보고 하다.
Ch 1. 예측과 추론
💡 데이터를 분석하는 목적 두 가지
- 예측: 결과를 맞히는 것
- 추론: 원인과 결과 사이의 관계를 분석하는 것
추론의 결과가 예측이고, 예측 과정이 추론 아닌가요?
- 예측에서는 관계보다 결과를 정확하게 맞히는 것이 더 중요하다.
- 오차를 최소화 하는 것을 목적으로 함 (정확한 결괏값)
- 예시) 신규 매장을 ‘열지 말지’를 결정해야 한다면 매출을 예측하는 것이 중요함
- 추론에서는 원인과 결과 간 관계에 더 초점을 둔다.
- x1, x2, xn의 변화에 따른 y의 변화를 이해하는 데 관심이 있음
- 예시) 이미 신규매장을 열기로 결정했다면, 매출을 높이는 요인이 무엇인지 분석해서 매출을 높이는 방안을 찾는 것이 중요함
우산을 든 사람 사진을 보고
‘우산을 든 사람의 성별이 무엇인가?’를 맞히는 것은 예측.
‘왜 우산을 들고 있는가?’를 분석하는 것은 추론.
예측에서는 왜 그렇게 예측했는지 과정은 크게 중요하지 않음 맞추는 것이 중요함
따라서 데이터 분석의 목적이 무엇인지 파악하고 (예측인지, 추론인지) 그에 맞게 접근해야 한다.
추론
- 직관에 의한 추론 → 수치화하기 어려움
- 데이터 분석에 근거한 추론 → 구체적인 수치를 제시할 수 있는 장점 → 합리적인 판단에 도움 </aside>
Ch 2. 선형 회귀
3줄 요약
- 데이터 분석 결과를 볼 때 모형의 적합도를 판단하려면 모형의 p-value가 0.05보다 작은지 확인하고, r2가 해당 분야에서 요구하는 값과 비교하여 적절한지 확인한다
- 개별 요인이 유의미한지는 개별 요인의 p-value가 0.05보다 작은지를 보고 판단한다
- 개별 요인의 계수를 이용해 회귀식을 만들어 보고한다
핵심 지표 4가지
- 유의확률 (Pr) p-value, significance probability - 귀무가설을 잘못 기각할 확률
- 유의수준 significance level (0.05) 보다 큰지 작은지 확인
- p-value가 0.05보다 작으면 95% 신뢰수준으로 판단했을 때 믿을 수 있는 모형이라는 뜻
- 모형을 신뢰해도 되는지 확인 = 모형의 적합도
- 결정계수 r2
- 모형이 전체 현상을 얼마나 설명하는지를 확인
- r2에 대한 기준은 분야마다 다름
- 공학, 자연과학: 0.7 이상이면 ㄱㅊㄱㅊ
- 사회과학, 경영학: 0.3, 0.4 정도여도 ㄱㅊㄱㅊ
- 수정 결정계수 adj r2
- 지나치게 많은 요인을 사용해서 모형을 만들 경우 설명력이 높아지는 현상을 보완하기 위해 만들어진 지표
- 요인이 2개 이상일 때부터 r2보다 조금씩 작아진다
- 실무에서는 두 값에 큰 차이가 없어서 어떤 값을 봐도 큰 상관은 없다 요인이 많을 수록 두 값의 차이가 커지지만, 실무에서는 10개가 넘는 요인을 고려하는 경우가 드물다.
- 개별 요인의 유의확률
- 개별 요인의 p-value: Pr>|t|
- 전체 모델의 p-value가 0.05보다 낮아도 개별 요인의 p-value는 0.05보다 높을 수 있음 그래서 개별 요인의 p-value를 확인하는 것이 중요함!
- 개별 요인의 p-value: Pr>|t|
- 계수 parameter estimates
- 개별 요인마다 영향을 주는 정도
- 다른 요인이 통제된 상황에서 a가 한 단위 증가할 때 b가 몇 단위 증가하는지를 보여주는 값
- 만약 매장 크기 단위가 m2이고 매출 단위가 억 원일 때, 계수가 2라면, 매장 크기가 1m2 증가할 때 매출이 2억 원 증가. ⇒ 따라서 실제 비즈니스에서 의미 있는 값은 계수임
- 절편 intercept
- 데이터 분석에서 빠지거나 제외한 요인이 y에 영향을 주기 때문에 존재함 (포함한 요인 = x)
분산 분석 ANOVA (Analysis of Variance)
: 모형의 적합도를 검정. 모형이 얼마나 잘 만들어졌는지 보여줌
Ch 3. 데이터 수집
1. 현업에서 데이터가 축적되지 않은 경우가 많다. -> 데이터를 모으는 게 먼저!
2. 질적 데이터를 양적 데이터로 변환화는 것은 어렵다 ㅎ ㅠ (ex. 점장의 역량)
Ch 4. 분석력과 예측력
분석할 때 선택지 두 가지
1. 정밀하게 분석 precision - 모형이 단순하고 해석이 쉽다. (편향이 높고 분산이 낮음)
2. 정확하게 분석 accuracy - 모형이 복잡하고 해석이 어렵다. (편향이 낮고 분산이 높음)
편항, 분산이 둘 다 낮을 수록 좋다!
헷갈려서 조금 더 찾아보니,
정밀도: 측정 재현성의 정도
정확도: 참값에 근접한 정도
R^2 값을 높이려고 해도 데이터가 없거나, 가성비가 나쁘거나, 해석하기 어려운 경우가 많다.
(모형이 복잡해지고 해석이 어려워져서 추론이 중요한 의사결정에는 활용하기 어려워진다)
Ch 5. 변수와 상관관계
상관관계 != 인과관계
회귀 분석을 할 때 독립변수간 선형 상관관계가 있는지 확인하여 다중 공선성 문제가 없도록 한다.