정량 데이터와 정성데이터

아리멤모장 2023. 4. 17. 16:16

2023. 4. 17. 16:16

정량 데이터

: 데이터가 얼마나 많은 행동이 일어나고 있는지 알려줌

기술통계

: 데이터의 특성을 파악하는데 활용

1) 평균, 중앙값(극단값이 많을 경우 사용), 최빈값, 빈도

note. 평균값과 중앙값이 차이가 많이날수록 극단값이 많이 존재하는 것이겠군!

2) 데이터 시각화 방법

: 범주형 데이터 - 파이 차트와 누적 막대그래프/ 수치형 데이터 - 막대그래프와 선 그래프/ 방사형 그래프와 산점도

추론 통계

: 데이터 정규성이 가정되었을때 표본을 통해 모집단을 추론하거나 가설을 검정하기 위한 방법

! 알아가고 넘어갈 개념.

- 모집단(population): 전체 사용자 집단

- 표본(sample): 사용자 조사의 참가자(일부 사용자)

--> 표본이 모집단을 대표할 수 잇는지 검증하는 과정이 추론 통계!

모수 통계(parametric statistics): 검증하는 과정에서 표본으로 수집된 데이터가 정규성이 확보되는지 확인(정규분포)

--> 분석 결과가 통계적으로 유의미한지 검증 : p-value가 0.05이하인지 확인

= 표본에서 관찰된 결과가 모집단에서 다시 샘플링해 측정해도 다른 결과가 나타날 가능성이 20번 중에 1번보다 적다는 것을 의미

1) t 검정과 분산분석(ANOVA)

: 집단 간의 차이를 밝히는 분석 방법

- 검정 통계량(Statistic) 계산: 일반적으로 두 집단의 평균의 차이를 표준 오차로 나눈 t-값을 사용

(두 집단의 평균, 표준 편차, 샘플 크기를 사용하기도 함)

비교 대상이 2개일 경우 t- score를 통해 검증

- 분산분석(ANOVA): 비교대상 2개 초과하면 분산분석을 통해 분석

p-value가 0.05 이하여도 어느 그룹에서 차이가 있었는지 파악하기 위해 사후 검증의 과정 필요

2) 상관 분석과 회귀 분석

: 변수들 간의 관계 파악하는데 사용

- 상관 분석: 2개 이상의 변수들의 선형적인 관계를 살펴보기 위한 분석방법

p-value 값: 변수들 간의 관계가 유의미한 관련이 있는지에 대한 검증 결과
상관계수 r값: 변수들 간의 관계가 긍정인지 부정인지, 얼마만큼 연관되어 있는지 나타냄

- 회귀 분석: 하나의 종속변수에 대해 다수의 독립변수들이 어떻게 영향을 미치는지에 대한 인과 관계를 분석할 때 많이 활용되는 방법

p-value 값: 회귀 모형의 적합도
R^2: 모델 설명력
회귀계수(beta): 각 독립변수가 종속변수에 미치는 영향력

정성데이터

: 행동이 일어난 이유에 대해 알려줌

참조:사용자 데이터를 효과적으로 분석하는 법 | 요즘IT (wishket.com)

'Data Scientist > Statistics' 카테고리의 다른 글

로그 정규분포 (0)	2021.04.07

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

아리곤듀의 개발 성장 일기