정량 데이터
: 데이터가 얼마나 많은 행동이 일어나고 있는지 알려줌
기술통계
: 데이터의 특성을 파악하는데 활용
1) 평균, 중앙값(극단값이 많을 경우 사용), 최빈값, 빈도
note. 평균값과 중앙값이 차이가 많이날수록 극단값이 많이 존재하는 것이겠군!
2) 데이터 시각화 방법
: 범주형 데이터 - 파이 차트와 누적 막대그래프/ 수치형 데이터 - 막대그래프와 선 그래프/ 방사형 그래프와 산점도
추론 통계
: 데이터 정규성이 가정되었을때 표본을 통해 모집단을 추론하거나 가설을 검정하기 위한 방법
! 알아가고 넘어갈 개념.
- 모집단(population): 전체 사용자 집단
- 표본(sample): 사용자 조사의 참가자(일부 사용자)
--> 표본이 모집단을 대표할 수 잇는지 검증하는 과정이 추론 통계!
모수 통계(parametric statistics): 검증하는 과정에서 표본으로 수집된 데이터가 정규성이 확보되는지 확인(정규분포)
--> 분석 결과가 통계적으로 유의미한지 검증 : p-value가 0.05이하인지 확인
= 표본에서 관찰된 결과가 모집단에서 다시 샘플링해 측정해도 다른 결과가 나타날 가능성이 20번 중에 1번보다 적다는 것을 의미
1) t 검정과 분산분석(ANOVA)
: 집단 간의 차이를 밝히는 분석 방법
- 검정 통계량(Statistic) 계산: 일반적으로 두 집단의 평균의 차이를 표준 오차로 나눈 t-값을 사용
(두 집단의 평균, 표준 편차, 샘플 크기를 사용하기도 함)
비교 대상이 2개일 경우 t- score를 통해 검증
- 분산분석(ANOVA): 비교대상 2개 초과하면 분산분석을 통해 분석
p-value가 0.05 이하여도 어느 그룹에서 차이가 있었는지 파악하기 위해 사후 검증의 과정 필요
2) 상관 분석과 회귀 분석
: 변수들 간의 관계 파악하는데 사용
- 상관 분석: 2개 이상의 변수들의 선형적인 관계를 살펴보기 위한 분석방법
- p-value 값: 변수들 간의 관계가 유의미한 관련이 있는지에 대한 검증 결과
- 상관계수 r값: 변수들 간의 관계가 긍정인지 부정인지, 얼마만큼 연관되어 있는지 나타냄
- 회귀 분석: 하나의 종속변수에 대해 다수의 독립변수들이 어떻게 영향을 미치는지에 대한 인과 관계를 분석할 때 많이 활용되는 방법
- p-value 값: 회귀 모형의 적합도
- R^2: 모델 설명력
- 회귀계수(beta): 각 독립변수가 종속변수에 미치는 영향력
정성데이터
: 행동이 일어난 이유에 대해 알려줌
'Data Scientist > Statistics' 카테고리의 다른 글
로그 정규분포 (0) | 2021.04.07 |
---|