표본과 표본평균::::수학과 사는 이야기

표본과 표본평균

수학이야기/확률통계 2015. 10. 28. 10:46
반응형

두 이산확률변수 $X,Y$의 확률함수는 각각 $P(X=x_i)=p_i$ , $P(Y=y_i)=q_i$라고 하자. 새로운 확률변수 $X+Y$의 평균과 분산을 구하여라. (단, $i=1,2,\cdots ,n$이고 $j=1,2,\cdots ,m$이다. $E(X)=\mu_x, E(Y)=\mu_y$이다.)

$\displaystyle{E(X+Y)=\sum_{i=1}^n \sum_{j=1}^m (x_i +y_j )p_i q_j=\sum_{i=1}^n \bigg( x_i p_i \sum_{j=1}^m q_j +p_i \sum_{j=1}^m y_j q_j \bigg)}$

$=\displaystyle{\sum_{i=1}^n x_i p_i \sum_{j=1}^m q_j +\sum_{i=1}^n p_i \sum_{j=1}^m y_j q_j =E(X)+E(Y)=\mu_x +\mu_y}$

$\displaystyle{V(X+Y)=\sum_{i=1}^n \sum_{j=1}^m (x_i +y_j -\mu_x -\mu_y )^2 p_i q_j }$

$\displaystyle{=\sum_{i=1}^n \sum_{j=1}^m (x_i -\mu_x +y_j -\mu_y )^2 p_i q_j }$

$\displaystyle{=\sum _{i=1} ^{n} \sum _{j=1} ^{m} \{ (x_{i} - \mu_{x} )^{2} +(y_{j} - \mu_{y} )^{2} +2(x_{i} - \mu_{x} )(y_{j} - \mu_{y} ) \} p_{i} q_{j}}$

$\displaystyle{=\sum _{i=1} ^{n} \left \{ \sum_{j=1}^{m} (x_{i} - \mu_{x} )^{2} p_{i} q_{j} + \sum_{j=1}^{m} (y_{j} - \mu_{y} )^{2} p_{i} q_{j} +2 \sum_{j=1} ^{m} (x_{i} - \mu_{x} )(y_{j} - \mu_{y} )p_{i} q_{j} \right\}}$

$\displaystyle{=\sum_{i=1}^{n} \left \{ (x_{i} - \mu_{x} )^{2} p_{i} +p_{i} \sum_{j=1} ^{m} (y_{j} - \mu_{y} )^{2} q_{j} +2(x_{i} - \mu_{x} )p_{i} \sum_{j=1}^{m} (y_{j} - \mu_{y} )q_{j} \right\}}$

$\displaystyle{=\sum_{i=1}^{n} (x_{i} - \mu_{x} )^{2} p_{i} + \sum_{i=1}^{n} p_{i} \sum_{j=1}^{m} (y_{j} - \mu_{y} )^{2} q_{j} }$

$\displaystyle{=V(X)+V(Y)}$

모집단에서 복원 추출로 크기가 $n$인 표본 $x_1 ,x_2 , x_3 ,\cdots,x_n$을 얻었다고 하자. 우리는 이 표본의 평균인 $$\overline{x} = \frac{1}{n} (x_1 +x_2 + x_3 +\cdots+x_n )$$의 값으로 모집단의 평균 $\mu$을 미루어 짐작하고자 할 것이다. 표본을 추출할 때 $x_1 ,x_2 , x_3 ,\cdots,x_n$을 결정하는 확률변수를 각각  $X_1 , X_2 , X_3 ,\cdots,X_n$이라고 하면 표본평균도 새로운 확률변수이다.(참고 : 확률변수의 정의)

$$\overline{X} = \frac{1}{n} (X_1 +X_2 + X_3 +\cdots+X_n )$$

따라서 새로운 확률변수인 표본평균($\overline{X}$)이 이루는 분포와 모집단의 확률변수 $X$가 이루는 분포가 어떤 관계에 있는가 알아야 한다.

$$E(\overline{X})=\frac{1}{n}E(X_1 +X_2 + X_3 +\cdots+X_n)=\frac{1}{n}\times \mu n=\mu$$

$$V(\overline{X})=\frac{1}{n^2 }V(X_1 +X_2 + X_3 +\cdots+X_n)=\frac{1}{n^2}\times \sigma^2 n=\frac{\sigma^2}{n}$$

이를 정리하면 표본평균이 다음과 같은 성질을 가짐을 알 수 있다.

모평균 $\mu$, 모표준편차 $\sigma$인 모집단에서 크기가 $n$인 표본을 임의추출할 때, 표본평균을 $\overline{X}$라고 하면

1) $\displaystyle{E(\overline{X} )=\mu,\quad V(\overline{X})=\frac{\sigma^2}{n},\quad \sigma(\overline{X})=\frac{\sigma}{\sqrt n}}$

2) $n$이 충분히 크면 근사적으로 정규분포 $\displaystyle{\overline{X}\sim N\bigg(\mu,\frac{\sigma^2}{n}\bigg)}$를 따른다.

3) 모집단이 정규분포를 따른다면 $n$의 크기에 상관없이 $\displaystyle{\overline{X}\sim N\bigg(\mu,\frac{\sigma^2}{n}\bigg)}$를 따른다.

표본이 이루는 분포와 표본평균이 이루는 분포를 혼동하지 말아야 한다. 표본 $x_1 ,x_2 , x_3 ,\cdots,x_n$의 평균인 $$\overline{x} = \frac{1}{n} (x_1 +x_2 + x_3 +\cdots+x_n )$$는 당연히 모평균($\mu$)과 다르다고 해야 할 것이다. 모표준편차와 표본표준편차를 각각 $\sigma$와 $s$로 다르게 적는 것을 명심해야 한다. 한편 표본분산 $s^2$은 아래와 같이 정의한다.

$$s^{2} = \frac{1}{n-1} \{ (x_{1} - {\overline{x}} )^{2} +(x_{2} - {\overline{x}} )^{2} +(x_{3} - {\overline{x}} )^{2} + \cdots +(x_{n} - {\overline{x}} )^{2} \}$$

이를 변수로 표현하자.

$$S^2= \frac{1}{n-1} \sum_{i=1}^{n}(X_i -\overline{X} )^2 $$

이제 분산을 위와 같이 정의하면 $E(S^2)=\sigma^2$임을 증명하자.

먼저 $\displaystyle{E(\overline{X} )=\mu,\quad V(\overline{X})=\frac{\sigma^2}{n}}$이라고 하자.

$$\sum _{i=1} ^{n} (X  _{i} - {\overline{X}} )^{2} = \sum _{i=1} ^{n} (X  _{i} ^{2} -2X  _{i} {\overline{X}} + {\overline{X}}^{2} )= \sum _{i=1} ^{n} {X  _{i}}^{2} -2n {\overline{X}}^{2} +n {\overline{X}}  ^{2} = \sum _{i=1} ^{n} X  _{i} ^{2} -n {\overline{X}}^{2}$$

이다.

여기에서 $\displaystyle{E \bigg(\sum _{i=1} ^{n} X _{i} ^{2} \bigg)=n(\sigma^2 +\mu^2 ),\quad {E(\overline{X}}^{2}) = \frac{\sigma^2 }{n} +\mu^2}$이다. 따라서

$$E(S ^{2} )= \frac{1} {n-1} E( \sum _{i=1} ^{n} X _{i} ^{2} - n{\overline{X}}  ^{2} )=\sigma^2$$이다.

신뢰구간을 추정할 때 모표준편차($\sigma$)를 모른다면 표본표준편차($s$)를 쓴다. 이렇게 할 수 있으려면 표본표준편차가 모표준편차가 비슷한 값이 되도록 많이 나오도록 해야 한다. 위에서 증명한 바와 같이 통계적으로 표본분산을 구할 때 $n$이 아닌 $n-1$으로 나누었을 때 $s$가 $\sigma$와 더 가까워지고 이에 따라 표본오차를 실제 오차와 가깝게 예측할 수 있다.

대충 이야기하면 평균을 구할 때 표본은 $n$개 모두 임의로 선택해도 상관없다. 하지만 산포도인 표준편차를 구할 때는 표본평균이 모평균과 같아지도록 표본을 추출하고 싶다. 이를 위해서는 $n$개는 임의로 뽑고 나머지 하나는 두 평균이 같아지도록 뽑는다고 생각하면 된다. 이때 평균은 자유도가 $n$이고 분산은 $n-1$이라고 부르는데 엄밀하게 따지자면 어렵다. 그냥 $n-1$로 나누는 것이 표본표준편차와 모표준편차의 차이를 줄여준다고 생각하자. 엑셀로 실제 계산을 해보면 쉽게 확인할 수 있다.

 

통계_표본조사.xlsx

 

반응형