모비율의 추정
수학이야기/확률통계 2011. 10. 17. 11:48지지율, 시청률, 실업률 따위와 같이 모집단에서 어떤 사건에 대한 비율을 모비율이라 하고 기호로 p로 쓴다. 또 그 모집단에서 임의추출한 표본에서 그 사건의 비율을 표본비율이라 하고 기호로 ˆp로 쓴다. 일반적으로 어떤 사건에 대한 표본비율은 다음과 같이 구한다.
크기가 n인 표본에서 어떤 사건이 일어난 횟수를 확률변수 X라고 할 때, 그 사건에 대한 표본비율 ˆp은
ˆp=Xn
표본비율 ˆp=Xn에서 확률변수 X는 확률이 p인 n번의 독립시행에서 그 사건이 일어난 횟수이므로 이항분포 B(n,p)를 따른다. 이항분포 B(n,p)를 따르는 확률변수 X의 평균과 분산이
E(X)=np,V(X)=npq (단, q=1−p)
이므로 표본비율 ˆp의 평균과 분산, 표준편차는 다음과 같다.
E(ˆp)=E(Xn)=1nE(X)=p
V(ˆp)=V(Xn)=1n2V(X)=pqn
σ(ˆp)=√V(ˆp)=√pqn
일반적으로 표본크기 n이 충분히 클 때, 표본비율은 정규분포 N(p,pqn)를 따른다고 알려져 있다.
(참고 np≥5,n(1−p)≥5이면 n이 충분히 크다고 생각한다.)
표본비율 ˆp의 분포
표본비율 ˆp의 분포는 표본크기 n이 충분히 클 때, 정규분포 N(p,pqn)를 따른다.
이를 표준화한 Z=ˆp−p√pqn는 표준정규분포 N(0,1)을 따른다. (단, q=1−p)
이를 바탕으로 모비율을 추정한다.
표본크기 n이 충분히 클 때, 표본비율 ˆp의 분산 pqn에서 p,q값 대신 표본비율 ˆp,ˆq을 사용한 Z=ˆp−p√ˆpˆqn도 표준정규분포 N(0,1)을 따른다는 것이 알려져 있다.
표준정규분포에서 P(−1.96≤Z≤1.96)=0.95이므로
P(−1.96≤ˆp−p√ˆpˆqn≤1.96)=0.95
P(ˆp−1.96√ˆpˆqn≤p≤ˆp+1.96√ˆpˆqn)=0.95
[ˆp−1.96√ˆpˆqn,ˆp+1.96√ˆpˆqn]를 신뢰도 95% 신뢰구간이라고 한다.
신뢰도 99% 신뢰구간은 [ˆp−2.58√ˆpˆqn,ˆp+2.58√ˆpˆqn]이다.
수학이야기님의
글이 좋았다면 응원을 보내주세요!