Part 2. Applications - 데이터로 비즈니스를 혁신하다
Ch 13. 추천 시스템: 회사 온라인 쇼핑몰의 추천 화면을 바꿔서 매출을 높이다
- 추천 시스템이 추천하는 것
- (대분류) 베스트셀러 ← 가장 효과가 좋다
- (소분류) 대체재: 이 상품을 봤던 다른 사람이 많이 보거나 구매한 상품
- (중분류) 보완재: 이 상품을 산 사람이 추가로 산 상품
- 먼저 베스트셀러를 보여주면 고객이 관심있는 상품을 클릭→ 아래에 대체재, 보완재 추천
- 기본적으로 같은 카테고리 안에서 추천할 때 가장 효과가 좋다 → 카테고리가 잘 갖춰져있어야함
Ch 14. 협업 필터링: 구매 정보를 분석하여 고객마다 추천 제품을 달리 보여주다
- 추천 시스템
- 정보 필터링
- 하이브리드
- 콘텐츠 기반
→ 과거에 주로 사용. 키워드 기반 추천 - 협업 필터링
- 모델 기반 → 차원 축소, 그룹화 사용
ex) 사용자는 많은데 구매를 주기가 긴 통신사 휴대폰 사이트 - 메모리 기반
- 사용자 기반
→ 유사도라는 가중치가 들어간 평균을 낸다
→ 계산량이 어마어마 함 ⇒ 비용 증가 ⇒ 따라서 추천 시스템을 돌릴 적절한 주기를 판단해서 설정
→ 사용자간 유사도를 기반으로 추천. 피어슨 상관계수 사용 - 아이템 기반
→ 아이템 기반을 사용하는이유: 사용자 기반은 사용자가 많아질 수록 계산 시간과 비용이 많이 들어서 사용하기 어렵다. 이를 줄이기 위해 아이템 기반을 사용함 (고객 수보다 상품 수가 훨씬 적은 상황)
→ 상품간 유사도를 기반으로 추천. 코사인 유사도, 피어슨 상관계수 사용
- 사용자 기반
- 모델 기반 → 차원 축소, 그룹화 사용
- 연관성 분석
- 기타
- 베스트셀러
- 질의응답
- 정보 필터링
- 상황인지형 추천 시스템
- 기존 협업 필터링 + 상황 (음악을 들을 때 눈이 오는지 비가 오는지 데이터베이스에 상황을 추가로 저장)
- 신뢰인지형 추천 시스템
- 신뢰할 수 있는 지인이 사거나 본 상품을 분석해서 추천 → 효과 굿,, → 따라서 사용자가 많은 소셜 미디어의 가치가 높다
- 추천 시스템 성과 측정: A/B test
- 추천 시스템 고도화 전 발생하는 현실 문제
- 초기 사용자 문제 cold start problem → 과거 이력이 없는 경우 개인화가 어렵다
- 조작 공격 shilling attact → 리뷰, 평점 조작
⇒ 협업 필터링, 콘텐츠 기반 추천 시스템을 기본적으로 많이 사용.
최신 알고리즘을 적용하기 보다는 기본적인 알고리즘을 회사 상황에 맞게 적용하는 것이 우선.
Ch 15. 소셜 네트워크 분석: 소통 데이터를 분석하여 임직원의 협업 문화를 혁신하다
- 소셜 네트워크 분석
- 개인과 집단 간 관계를 노드와 링크로 표현해서 분석하는 방법 → 누가 누구랑 협업하는지 분석
- 링크: 개인/집단 사이의 소통의 정도나 방향
- 네트워크 접근
- 정규 분포를 가정하지 않고 멱함수 분포를 가정함.
- 멱함수 분포: 노드의 수가 많아질 수록 특정 노드에 링크가 집중된다
- ex) 수많은 공항 중 비행 노선이 집중되는 공항이 존재 (두바이, 런던, 홍콩, 인천)
- 통계적 접근은 원자(개체의 속성, 변수 데이터)를 뜯어본다면,
네트워크 접근은 전체 구조(개체 간 관계 데이터)를 본다. (통계적 접근과 분석 관점이 다르다)
ex) 통계적 접근은 누가 이메일을 얼마나 썼느냐가 중요하다면, 네트워크 분석에서는 누가 이메일을 누구에게 썼느냐가 중요함- 통계적 접근
- 데이터 수집: 표본 추출
- 핵심 분석 방법: 속성 간 상관관계 (속성의 유사성)
- 목적: 어떤 경향 확인 (ex. 감염자 수, 병 증상)
- 네트워크 접근
- 데이터 수집: 모집단 전체 분석
- 핵심 분석 방법: 구조적 위치 (관계 패턴의 유사성)
- 목적: 구체적인 지점 확인 (ex. 감염 경로, 전파력)
- 통계적 접근
- 적용 분야: 소셜 미디어 분석, 금융 사기 탐지, 지식 탐색, 고객 관계 관리, 조직 진단 등
- 데이터 분석가와 현업 전문가가 함께 해석하고 문제점을 찾아 해결해야함 (분석가가 결과를 그려줄 순 있지만 해석을 하기엔 어려울 수 있음)
- 정규 분포를 가정하지 않고 멱함수 분포를 가정함.
Ch 16. 프로세스 마이닝: 고객 동선을 분석하여 매장 레이아웃을 혁신하라
- 프로세스 마이닝: 센서 측정 기술을 이용해서 고객의 이동 동선을 프로세스화 하는 것
- 어떤 경로로 이동하고 어디서 이탈, 체류했는지 분석할 수 있음
- 실내 포지셔닝 시스템을 이용한 매장 레이아웃 최적화
- 현업에서 데이터 분석에 반발하는 경우가 많다..→ 현업과 충분히 협의하고 데이터 분석가는 반드시 현장을 확인할 것
- 공을 가로채면 현업이 싫어한다,,,
Ch 17. 최적화: 배분 방식을 개선하여 대리점 재고 관리를 혁신하다
- 최적화: 예를 들어 (초도 물량 배분 문제에서) 다중선형 회귀로 재고량을 예측했을 때 결과가 소수점으로 나오는 문제를 해결하는 것 → 최소 배분 수량과 같은 조건을 여러개 설정해서 최적의 답을 찾음
- 몬테카를로 시뮬레이션 → 정수로 떨어짐
- 최적화에서 많이 사용하는 방법
- 의사결정나무처럼 액션 플랜을 바로 수립할 수 있다 → 정확한 계산 X 의사결정 O
- 소프트웨어가 알아서 계산하니까 세부내용을 알 필요는 없다
- 몬테카를로 시뮬레이션 + 박스 구성 최적화
- 한 박스에 5벌이 들어갈 때, 6벌이 필요한 매장에 두 박스를 쓰기엔 박스가 아까운 문제 이럴 때는 4벌이 필요한 메장에 한벌 더 주는 게 나음 → 박스 크기를 고려하는 조건을 몬테카를로 시뮬레이션과 결합
- 데이터 분석 발전 단계
- 기술 분석(무슨 일이 발생했는가) → 진단 분석(일이 왜 발생했는가) → 예측 분석(무슨 일이 발생할 것인가) → 처방 분석 (무엇을 해야 하는가)
- 데이터 분석은 결국 무엇을 어떻게 해야하는지 의사결정하게 도와주는 처방분석을 목표로 함 ← 그리고 처방분석 단계가 젤 어려운,,
추천 시스템 말고는 처음 들어보는 내용이라 흥미로웠다! 읽을 때마다 진짜 쉽게 설명해주는 책이라서 좋다는 생각이 든다 술술 읽히고 재밌음 ㅎㅎ
'책' 카테고리의 다른 글
감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나 (2) (0) | 2024.02.08 |
---|---|
감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나 (1) (1) | 2024.02.08 |
컨버티드: 마음을 훔치는 데이터분석의 기술 (3) (1) | 2024.01.25 |
컨버티드: 마음을 훔치는 데이터분석의 기술 (2) (0) | 2024.01.21 |
컨버티드: 마음을 훔치는 데이터분석의 기술 (1) (1) | 2024.01.12 |