Loading [MathJax]/jax/output/CommonHTML/jax.js
모비율의 추정::::수학과 사는 이야기

모비율의 추정

수학이야기/확률통계 2011. 10. 17. 11:48
반응형

지지율, 시청률, 실업률 따위와 같이 모집단에서 어떤 사건에 대한 비율을 모비율이라 하고 기호로 p로 쓴다. 또 그 모집단에서 임의추출한 표본에서 그 사건의 비율을 표본비율이라 하고 기호로 ˆp로 쓴다. 일반적으로 어떤 사건에 대한 표본비율은 다음과 같이 구한다.

크기가 n인 표본에서 어떤 사건이 일어난 횟수를 확률변수 X라고 할 때, 그 사건에 대한 표본비율 ˆp

ˆp=Xn

표본비율 ˆp=Xn에서 확률변수 X는 확률이 pn번의 독립시행에서 그 사건이 일어난 횟수이므로 이항분포 B(n,p)를 따른다. 이항분포 B(n,p)를 따르는 확률변수 X의 평균과 분산이

E(X)=np,V(X)=npq (단, q=1p)

이므로 표본비율 ˆp의 평균과 분산, 표준편차는 다음과 같다.

E(ˆp)=E(Xn)=1nE(X)=p

V(ˆp)=V(Xn)=1n2V(X)=pqn

σ(ˆp)=V(ˆp)=pqn

일반적으로 표본크기 n이 충분히 클 때, 표본비율은 정규분포 N(p,pqn)를 따른다고 알려져 있다.

(참고 np5,n(1p)5이면 n이 충분히 크다고 생각한다.)


표본비율 ˆp의 분포

표본비율 ˆp의 분포는 표본크기 n이 충분히 클 때, 정규분포 N(p,pqn)를 따른다. 

이를 표준화한 Z=ˆpppqn는 표준정규분포 N(0,1)을 따른다. (단, q=1p)


이를 바탕으로 모비율을 추정한다.

표본크기 n이 충분히 클 때, 표본비율 ˆp의 분산 pqn에서 p,q값 대신 표본비율 ˆp,ˆq을 사용한 Z=ˆppˆpˆqn도 표준정규분포 N(0,1)을 따른다는 것이 알려져 있다.

표준정규분포에서 P(1.96Z1.96)=0.95이므로

P(1.96ˆppˆpˆqn1.96)=0.95

P(ˆp1.96ˆpˆqnpˆp+1.96ˆpˆqn)=0.95
[ˆp1.96ˆpˆqn,ˆp+1.96ˆpˆqn]를 신뢰도 95% 신뢰구간이라고 한다.


신뢰도 99% 신뢰구간은 [ˆp2.58ˆpˆqn,ˆp+2.58ˆpˆqn]이다.

반응형

수학이야기님의
글이 좋았다면 응원을 보내주세요!