Data Analyst/데이터 활용

실험을 통한 의사결정

e_mily.dy 2023. 9. 15. 20:04
728x90

모수와 표본

1) 모집단 정의 → 2) 표본 정의 → 3) 표본을 구하는 방법을 고민 → 4) 데이터 수집

 

1) 전체 사용자의 구매 패턴

2) 2020년 12월 한 달 간 구매 사용자에 대한 구매 데이터

  • 큰 수의 법칙 ‘표본의 크기가 충분히 크다면 표본평균은 모평균에 충분히 가까워진다’
  • 모수 값을 근거로 모집단의 형태를 추정 (모집단의 수치적 요약값, 통계값 )
  • 중심 극한 정리 로도 모집단의 형태를 추정
  • ‘동일한 확률분포를 가진 독립 변수 확률 n개의 평균의 분포는 n이 적당히 크면 정규분포에 가까워 진다’

 

 

확률과 분포

  • 확률: 시행 결과값의 평균을 0 ~ 1 사이로 나타낸 것
  • 분포: 확률이 어떤 모습으로 퍼져 있는지를 나타낸 것

 

  • 데이터가 없는 상태에서 확률을 구하고 싶을 때, 실험을 통해 데이터를 얻는다
  • 확률은 미래를 보장하지는 않는다. 언제나 확률 분포의 평균값을 얻을 수는 없지만, 큰 수의 법칙에 따라 시간이 지날수록 확률의 평균값에 가까워질 수는 있다
  • 실험 기간의 데이터를 그대로 사용한 데이터 분석 결과는 다소 신뢰도가 낮아질 수 밖에 없다
    • 설계된 환경 속에서 실험한 결과 데이터는 다른 분석에 쓰일 수 없다는 것으로 이해했다

 

 

A/B Testing

  • Treatement Group / Control Group
  • 실험을 통해 데이터를 수집하고 의사결정을 한다
  • 사전에 두 집단의 ‘통계적 유의성’을 미리 파악해 유의하다고 판단되는 선에서 실험을 진행해야 한다
  • 통계적 유의성
    • t-검정, f-검정 등 두 집단의 평균/분산이 차이가 있을 것이다 ~ 등
  • 실험 도중에 다른 변수가 생기면, 중단하거나 재설계 하는 등 조치를 취한다