모비율의 추정::::수학과 사는 이야기

지지율, 시청률, 실업률 따위와 같이 모집단에서 어떤 사건에 대한 비율을 모비율이라 하고 기호로 $p$ 로 쓴다. 또 그 모집단에서 임의추출한 표본에서 그 사건의 비율을 표본비율이라 하고 기호로 $\hat p$ 로 쓴다. 일반적으로 어떤 사건에 대한 표본비율은 다음과 같이 구한다.

크기가 $n$ 인 표본에서 어떤 사건이 일어난 횟수를 확률변수 $X$ 라고 할 때, 그 사건에 대한 표본비율 $\hat p$ 은

$\hat p =\frac{X}{n}$

표본비율 $\hat p =\frac{X}{n}$ 에서 확률변수 $X$ 는 확률이 $p$ 인 $n$ 번의 독립시행에서 그 사건이 일어난 횟수이므로 이항분포 $B(n,p)$ 를 따른다. 이항분포 $B(n,p)$ 를 따르는 확률변수 $X$ 의 평균과 분산이

$E(X)=np, V(X)=npq$ (단, $q=1-p$ )

이므로 표본비율 $\hat p$ 의 평균과 분산, 표준편차는 다음과 같다.

$E(\hat p)=E(\frac{X}{n})=\frac{1}{n} E(X)=p$

$V(\hat p)=V(\frac{X}{n})=\frac{1}{n^2} V(X)=\frac{pq}{n}$

$\sigma(\hat p)=\sqrt {V(\hat p)}=\sqrt {\frac{pq}{n} }$

일반적으로 표본크기 $n$ 이 충분히 클 때, 표본비율은 정규분포 $\displaystyle{N(p, \frac{pq}{n})}$ 를 따른다고 알려져 있다.

(참고 $np \ge 5, n(1-p) \ge5$ 이면 $n$ 이 충분히 크다고 생각한다.)

표본비율 $\hat p$ 의 분포

표본비율 $\hat p$ 의 분포는 표본크기 $n$ 이 충분히 클 때, 정규분포 $\displaystyle{N(p, \frac{pq}{n})}$ 를 따른다.

이를 표준화한 $Z= \cfrac{\hat {p} - p}{\sqrt {\cfrac{pq}{n}}}$ 는 표준정규분포 $N(0,1)$ 을 따른다. (단, $q=1-p$ )

이를 바탕으로 모비율을 추정한다.

표본크기 $n$ 이 충분히 클 때, 표본비율 $\hat p$ 의 분산 $\displaystyle{\frac{pq}{n}}$ 에서 $p,q$ 값 대신 표본비율 $\hat p,\hat q$ 을 사용한 $Z= \cfrac{\hat p -p}{\sqrt{\cfrac{\hat p \hat q}{n}}}$ 도 표준정규분포 $N(0,1)$ 을 따른다는 것이 알려져 있다.

표준정규분포에서 $P(-1.96 \le Z \le1.96)=0.95$ 이므로

$P(-1.96 \le \frac{\hat p -p}{\sqrt{\frac{\hat p \hat q}{n}}} \le1.96 )=0.95$

$P(\hat p-1.96 \sqrt{\frac{\hat p \hat q}{n}} \le p \le\hat p+1.96 \sqrt{\frac{\hat p \hat q}{n}})=0.95$
$[ \hat p-1.96 \sqrt{\frac{\hat p \hat q}{n}} , \hat p+1.96 \sqrt{\frac{\hat p \hat q}{n}} ]$ 를 신뢰도 95% 신뢰구간이라고 한다.

신뢰도 99% 신뢰구간은 $[ \hat p-2.58 \sqrt{\frac{\hat p \hat q}{n}} , \hat p+2.58 \sqrt{\frac{\hat p \hat q}{n}} ]$ 이다.

저작자표시 비영리 변경금지

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

수학과 사는 이야기

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

꼬리표

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역