모비율의 추정::::수학과 사는 이야기

모비율의 추정

수학이야기/확률통계 2011. 10. 17. 11:48
반응형

지지율, 시청률, 실업률 따위와 같이 모집단에서 어떤 사건에 대한 비율을 모비율이라 하고 기호로 $p$로 쓴다. 또 그 모집단에서 임의추출한 표본에서 그 사건의 비율을 표본비율이라 하고 기호로 $\hat p$로 쓴다. 일반적으로 어떤 사건에 대한 표본비율은 다음과 같이 구한다.

크기가 $n$인 표본에서 어떤 사건이 일어난 횟수를 확률변수 $X$라고 할 때, 그 사건에 대한 표본비율 $\hat p$은

$\hat p =\frac{X}{n}$

표본비율 $\hat p =\frac{X}{n}$에서 확률변수 $X$는 확률이 $p$인 $n$번의 독립시행에서 그 사건이 일어난 횟수이므로 이항분포 $B(n,p)$를 따른다. 이항분포 $B(n,p)$를 따르는 확률변수 $X$의 평균과 분산이

$E(X)=np,  V(X)=npq $ (단, $q=1-p$)

이므로 표본비율 $\hat p$의 평균과 분산, 표준편차는 다음과 같다.

$$E(\hat p)=E(\frac{X}{n})=\frac{1}{n} E(X)=p$$

$$V(\hat p)=V(\frac{X}{n})=\frac{1}{n^2} V(X)=\frac{pq}{n}$$

$$\sigma(\hat p)=\sqrt {V(\hat p)}=\sqrt {\frac{pq}{n} }$$

일반적으로 표본크기 $n$이 충분히 클 때, 표본비율은 정규분포 $\displaystyle{N(p, \frac{pq}{n})}$를 따른다고 알려져 있다.

(참고 $np \ge 5,  n(1-p) \ge5$이면 $n$이 충분히 크다고 생각한다.)


표본비율 $\hat p$의 분포

표본비율 $\hat p$의 분포는 표본크기 $n$이 충분히 클 때, 정규분포 $\displaystyle{N(p, \frac{pq}{n})}$를 따른다. 

이를 표준화한 $Z= \cfrac{\hat {p} - p}{\sqrt {\cfrac{pq}{n}}}$는 표준정규분포 $N(0,1)$을 따른다. (단, $q=1-p$)


이를 바탕으로 모비율을 추정한다.

표본크기 $n$이 충분히 클 때, 표본비율 $\hat p$의 분산 $\displaystyle{\frac{pq}{n}}$에서 $p,q$값 대신 표본비율 $\hat p,\hat q$을 사용한 $Z= \cfrac{\hat p -p}{\sqrt{\cfrac{\hat p \hat q}{n}}}$도 표준정규분포 $N(0,1)$을 따른다는 것이 알려져 있다.

표준정규분포에서 $P(-1.96 \le Z \le1.96)=0.95$이므로

$$P(-1.96 \le \frac{\hat p -p}{\sqrt{\frac{\hat p \hat q}{n}}} \le1.96 )=0.95$$

$$P(\hat p-1.96 \sqrt{\frac{\hat p \hat q}{n}} \le p  \le\hat p+1.96 \sqrt{\frac{\hat p \hat q}{n}})=0.95$$
$$[ \hat p-1.96 \sqrt{\frac{\hat p \hat q}{n}} ,     \hat p+1.96 \sqrt{\frac{\hat p \hat q}{n}} ]$$를 신뢰도 95% 신뢰구간이라고 한다.


신뢰도 99% 신뢰구간은 $$[ \hat p-2.58 \sqrt{\frac{\hat p \hat q}{n}} ,     \hat p+2.58 \sqrt{\frac{\hat p \hat q}{n}} ]$$이다.

반응형