본문 바로가기

감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나 (2)

Part 2. Advanced - 다른 부서의 데이터 문제를 해결하다

Ch 6. 로지스틱 회귀

  • 재구매 여부 ⇒ 분류 문제?!
    • 결과 유형 2가지: 수치형, 범주형
      • 범주형 → 분류 문제 (수치형처럼 보이는 범주형 주의 ex. 등급, 우편번호, 순위)
      • 수치형 → 회귀 문제
    • 1등급 2등급처럼.. 재구매 확률도 분류문제로 풀어야한다고!
      • 재구매 한다/ 안 한다 두 가지 경우 밖에 없지만 재구매 할지 안 할지 결과를 확실히 알 수 없으니까 확률로써 보여줌
  • 회귀 방법론
    • 선형 회귀 linear regression
    • t-검정, 분산 분석
  • 분류 방법론
    • 로지스틱 회귀 logistic regression
    • 판별 분석 (discriminant analysis), 서포트 벡터 머신 (SVM), 의사결정나무, k-최근접 이웃 (k-nearest neighbors)
  • 로지스틱 회귀
    • 분류인데 왜 회귀가 들어가나요?
      • 결괏값을 회귀식으로 보여주기 때문
      • 선형 회귀와 로지스틱 회귀의 차이
        • 선형 회귀: 예측 y값이 0-1 범위를 벗어날 수 있다
        • 로지스틱 회귀: 예측 y값이 0-1 범위 내에 있다
    • 임계값 (cut-off value) - 나누는 기준
      • 50% 이상이면 재구매를 한다. ← 여기서 임계값이 50%

Ch 7. 의사결정나무

  • 액션 플랜 → 기준 필요 → 의사결정나무 사용
    • 회귀,분류는 변수 간 관계를 설명해줄뿐 기준 설정에는 적합하지 않다
  • 의사결정나무 장점
    1. 분할 결과 = 액션 플랜
    2. 회귀, 분류 둘 다 적용 가능
  • 의사결정나무 단점
    • 정확도가 조금 떨어짐. 하지만 실용적이어서 많이 쓰임
  • 실용적이다 ⇒ 빠르고 간단하게 액션 플랜을 수립할 때 사용하기 좋다

Ch 8. 그룹화와 거리 측정

  • 비슷한 상품 측정
  • 거리 측정 방법 - 유클리드 거리, 맨해튼 거리, 피어슨 거리, 마할라노비스 거리
    • 유클리드 거리 - 두 지점 간 직선 거리
      • 비슷한 패턴을 보이는 경우 거리가 가까운 편
      • 값 범주: 0 이상 → 값이 작을 수록 비슷함
      • 변수 표준화 필요
    • 피어슨 상관 거리
      • 비슷한 수치(양)을 보이는 경우 거리가 가까운 편
      • 값 범주: -1 ~ 1 → 1에 가까울 수록 비슷함
  • 어떤 측정법을 사용할지는 의사결정권자가 선택

Ch 9. k-평균 군집 분석

  • 머신러닝
    • 지도 학습 - 회귀, 분류
    • 비지도 학습 - 그룹화(k-평균 군집, 덴드로그램), 차원 축소
  • k 결정 지표: CCC 통계량, 스크리 플롯 (w/ 설명 변동량)

책에서는 k means랑 덴드로그램이랑 사용 차이가 k값이 정해져 있을 때 아닐때로 구분하던데

덴드로그램을 처음 들어봐서! 챗지피티한테 조금 더 물어본 내용

k-평균 군집 vs 덴드로그램

  • 기본 원리: K-means 클러스터링은 데이터 포인트들을 K개의 클러스터로 그룹화합니다. 이 과정에서 클러스터 내의 분산을 최소화하며, 각 데이터 포인트는 가장 가까운 클러스터 센터(centroid)에 할당됩니다.
  • 적용 상황: K-means는 큰 데이터 세트에 적합하며, 클러스터 수(K)를 사전에 알고 있거나 결정할 수 있을 때 사용됩니다. 클러스터의 모양이 구형이고, 클러스터 크기가 비슷한 경우에 잘 작동합니다.
  • 예시: 고객 세분화, 시장 조사에서 비슷한 특성을 가진 고객 그룹을 식별할 때 사용할 수 있습니다. 예를 들어, 고객의 연령, 구매력, 구매 이력 등을 기준으로 고객을 여러 그룹으로 나누어 마케팅 전략을 수립할 수 있습니다.

덴드로그램(계층적 클러스터링)

  • 기본 원리: 덴드로그램은 계층적 클러스터링 방법의 일종으로, 개별 데이터 포인트를 시작으로 점차적으로 클러스터를 합쳐 나가면서 클러스터의 계층을 형성합니다. 이 과정은 트리 구조의 덴드로그램으로 시각화되어, 다양한 클러스터링 레벨을 한눈에 볼 수 있게 합니다.
  • 적용 상황: 덴드로그램은 클러스터의 수를 사전에 결정할 필요가 없으며, 데이터의 계층적 구조를 이해하고 싶을 때 유용합니다. 소규모 또는 중간 규모의 데이터 세트에 적합하며, 복잡하거나 불규칙한 데이터 구조를 다룰 때 효과적입니다.
  • 예시: 유전학에서 유전자의 표현 패턴을 분석하거나, 문서 또는 뉴스 기사의 유사성을 기반으로 그룹을 형성할 때 사용될 수 있습니다. 또한, 소비자의 행동 패턴이나 제품의 유사성을 분석하여 계층적인 구조를 파악하는 데에도 활용될 수 있습니다.

결론

  • K-means 클러스터링은 사전에 클러스터의 수를 알고 있고, 대규모 데이터와 구형 클러스터에 적합합니다.
  • 덴드로그램(계층적 클러스터링)은 클러스터의 수를 미리 정하지 않아도 되며, 데이터의 계층적 구조를 파악하고자 할 때 유용합니다. 또한, 비교적 소규모 또는 중간 규모의 데이터에 적합합니다.

Ch 10. 주성분 분석

  • 차원의 저주
    • 탈출 방법: 변수 선택, 수축(고급 방법론), 차원 축소
  • 차원 축소: 여러 변수를 묶어서 새로운 변수로 만드는 것
    • 방법: 주성분 분석
      • 회귀, 분류 문제를 풀기 위해 선행 과정으로 많이 사용된다.
      • 주성분 분석에서도 스크리 도표를 사용해서 적절한 주성분의 개수를 찾을 수 있다

Ch 11. 기술 통계 (Descriptive Statistics)

ㅋㅋ 처음에 테크놀로지 그 기술인 줄 앎,, 아직도,,!

  • 기술통계량: 평균, 최댓값, 최솟값, 표준오차, 표준편차
  • 엑셀에서 기술통계량을 확인할 수 있는 기능이 있음
  • 예를 들어 최소 나이가 마이너스가 나온다면 그건 잘못된 데이터임! 이처럼 기술통계량을 보고 어떤 조치를 취할지 참고할 수 있음. 이때 나이가 마이너스 값이 될 수 없다는 걸 판단했듯이, 조치가 필요한지 판단하기위해 보고 있는 데이터에 대한 도메인 지식이 중요함!
  • 표준오차 (standard error): 표본 평균들의 표준 편차. 하지만 비즈니스에서는 일반적으로 표본 추출을 한 번만 하기 때문에 표준오차가 없다.
  • 표준편차 (standard deviation): 각각의 값이 평균에서 얼마나 떨어져 있는지에 대한 수치. 시그마로 표기. 분산에 루트를 씌운 값.
  • 분산: 각 데이터와 평균과의 차이(편차)를 합친 것. 전체 데이터가 평균과 얼마나 차이나는지 보여준다.
  • 상당수의 추론 분석은 데이터의 정규 분포를 가정한다. 그래서 데이터가 적거나 정규 분포를 띠지 않을 때 설명력이 떨어짐. 실제로 데이터가 정규 분포를 띠는 경우는 적기 때문에, 기술통계량과 분포(왜도, 첨도)를 확인하는 습관을 들여야 한다.
  • 왜도: 0 이면 완전 대칭. 왼쪽 꼬리 < 0 < 오른쪽 꼬리. +-2 사이이면 정규 분포에 가깝다고 본다.
  • 첨도: 3일 때 완전 정규 분포. 그런데 많은 소프트웨어가 0을 기준으로 보여줌. 그래서 첨도도 +-2 사이면 정규분포라고 본다
  • 데이터가 많을수록 정규 분포에 가까워질 가능성이 높다.
  • 결측값에 통계량(평균, 중앙값, 최빈값)을 사용하기도 함

Ch 12. 상자 그림

  • 기초통계량을 숫자로만 보면 분석에 한계가 있다. 먼저 그림으로 그려서 전반적인 데이터 분포를 확인해야 한다. 그리고 기술통계량을 시각화할 때 상자그림을 그려서 비교하면 좋다.
  • 상자 그림: 평균, 중앙값, 최솟값, 최댓값, 사분위수, 이상치를 보여준다
  • (q1-1.5iqr, q3+1.5iqr) 범위를 벗어나면 이상치로 간주한다. 만약 이상치가 너무 많다면 이상치 그룹 자체가 어떤 경향이나 현상을 의미한다(중요 변수가 누락 되었다던가).

후기

1. 이 책을 알게 된지는 오래됐는데 드디어 읽고있다. 뭔가.. 프로젝트를 몇번 하고 나서 읽어서 훨씬 이해가 잘 된다는 생각이 든다. 처음 이 책을 추천 받았을 때 바로 읽었으면 어땠을까? 일단 지금같은 감정은 못 느꼈을거고, 지금은 정말 쉽게 설명해주는 잘 쓰인 책이라는 생각을 하지만 그때에 아무것도 모르는 내가 읽었다면 얼마나 와닿았을지 궁금하다 ㅋㅋ 그리고 무엇보다 실무와 관련해서 예시를 들어서 더 재밌다. 한창 데이터 분석이 화두에 올랐을 때, 많은 회사에서 데이터 기반의 의사결정을 막 시작했을 때 회사 상황을 들여다보는 것 같다. 물론,, 책이라서 많이 순화되어있고 아주 단편적인 부분만 보여주겠지만 그럼에도 회사 설정이 많은 사람들의 공감을 이끌어냈을 것 같다 ㅋㅋ 

 

2. 책을 어떻게 읽어야 할지가 고민이다. 한 챕터씩 읽은 후 요약해두고 다 모아서 블로그에 올리는건데,,, 일단은 내가 이걸 블로그에 올려서 다음에 또 볼 것인가? ㅋㅋㅋㅋㅋ에 대한 의문이 있고.. 또 요약을 해야하니까,, 틈틈이 읽기가 어렵다. 이동할 때나 자기 전이나 잠깐 잠깐 읽어서는 메모하기가 어렵고 메모를 안 하면 돌아서면 까먹기 때문에.. (눈물) 각 잡고 앉아서 읽어야 메모하면서 한 번 더 이해하고 정리할 수 있어서 뭐랄까 책 읽는 진입장벽이 조금 더 높아졌다고 해야하나?? 그래도 매 챕터를 요약해보니 요약하면서 내가 어디까지 이해했는지 인지하게 되고 더 찾아보게 되어서 좋긴.. 하다...! 그만큼 에너지가 더 쓰일 뿐... 그리고 글을 못 쓰는,, 생각 정리를 잘 못하는 나에게 좋은 훈련이라는 생각도 든다. 일단은 이 방식을 조금 더 시도해보긴 할 건데,, 어떻게 되려나,, 얼마나 가려나 ㅋㅋㅋㅋㅋㅋㅋㅋㅋ