정량 데이터

: 데이터가 얼마나 많은 행동이 일어나고 있는지 알려줌

 

기술통계

: 데이터의 특성을 파악하는데 활용

 

  1) 평균, 중앙값(극단값이 많을 경우 사용), 최빈값, 빈도

      note. 평균값과 중앙값이 차이가 많이날수록 극단값이 많이 존재하는 것이겠군!

  2) 데이터 시각화 방법

     : 범주형 데이터 - 파이 차트와 누적 막대그래프/ 수치형 데이터 - 막대그래프와 선 그래프/ 방사형 그래프와 산점도

 

추론 통계

: 데이터 정규성이 가정되었을때 표본을 통해 모집단을 추론하거나 가설을 검정하기 위한 방법

    ! 알아가고 넘어갈 개념.

     - 모집단(population): 전체 사용자 집단

     - 표본(sample): 사용자 조사의 참가자(일부 사용자)

     --> 표본이 모집단을 대표할 수 잇는지 검증하는 과정이 추론 통계! 

          모수 통계(parametric statistics): 검증하는 과정에서 표본으로 수집된 데이터가 정규성이 확보되는지 확인(정규분포)

      --> 분석 결과가 통계적으로 유의미한지 검증 : p-value가 0.05이하인지 확인

            = 표본에서 관찰된 결과가 모집단에서 다시 샘플링해 측정해도 다른 결과가 나타날 가능성이 20번 중에 1번보다 적다는 것을 의미

           

  1) t 검정과 분산분석(ANOVA)

      : 집단 간의 차이를 밝히는 분석 방법

      - 검정 통계량(Statistic) 계산: 일반적으로 두 집단의 평균의 차이를 표준 오차로 나눈 t-값을 사용

                                                     (두 집단의 평균, 표준 편차, 샘플 크기를 사용하기도 함)

                                                     비교 대상이 2개일 경우 t- score를 통해 검증

      - 분산분석(ANOVA): 비교대상 2개 초과하면 분산분석을 통해 분석

                                        p-value가 0.05 이하여도 어느 그룹에서 차이가 있었는지 파악하기 위해 사후 검증의 과정 필요

 2) 상관 분석과 회귀 분석

     : 변수들 간의 관계 파악하는데 사용

     - 상관 분석: 2개 이상의 변수들의 선형적인 관계를 살펴보기 위한 분석방법

  • p-value 값: 변수들 간의 관계가 유의미한 관련이 있는지에 대한 검증 결과
  • 상관계수 r값: 변수들 간의 관계가 긍정인지 부정인지, 얼마만큼 연관되어 있는지 나타냄

     - 회귀 분석: 하나의 종속변수에 대해 다수의 독립변수들이 어떻게 영향을 미치는지에 대한 인과 관계를 분석할 때 많이 활용되는 방법

  • p-value 값: 회귀 모형의 적합도
  • R^2: 모델 설명력
  • 회귀계수(beta): 각 독립변수가 종속변수에 미치는 영향력

 

정성데이터

: 행동이 일어난 이유에 대해 알려줌

 

참조:사용자 데이터를 효과적으로 분석하는 법 | 요즘IT (wishket.com)

'Data Scientist > Statistics' 카테고리의 다른 글

로그 정규분포  (0) 2021.04.07

+ Recent posts