확률과 통계에 쓰는 정의

수학이야기/확률통계 2019. 11. 4. 11:00
반응형

실험(experiment)은 결과가 미리 정해져 있지 않고 무작위로(random) 결정되는 현상을 관찰하는 과정이다. 시행(trial)은 실험을 수행하는 일이고 실험으로 얻는 결과는 경우(outcome)라 부른다.

정의 

  1. 표본공간(sample space)은 실험을 시행한 결과로 얻는 모든 경우를 원소로 가지는 집합이다. 보통 $S$로 적는다.
  2. 표본공간이 유한 또는 셀 수 있는(countable) 무한집합일 때를 이산(discrete) 표본공간이라 한다.
  3. 사건(event)는 표본공간의 부분집합이다.
  4. $A \subset S$ 원소 개수가 단 하나인 사건을 근원사건(elementary event)라 한다. $n(A)=1$
  5. 두 사건 $A$와 $B$가 동시에 일어나지 않으면 $A \cap B=\phi$을 서로소(mutually exclusive)라 한다.
  6. 사건 $A_1, A_2 , A_3, \cdots$가 $i\not= j$이면 $A_i \cap A_j = \phi$일 때, 쌍별로 서로소(pairwise mutually exclusive)라 한다.

대체로 어렵지 않게 알 수 있지만 사건과 근원사건을 혼동하는 경우가 매우 많다. 예를 들면 동전을 하나 던지는 시행을 생각해 보자. 이때 일어날 수 있는 사건은 모두 몇 가지인가라는 질문에 앞, 뒤를 생각해서 2가지로 답하는 학생이 많다. 하지만 이것은 근원사건을 사건으로 잘못 알고 있는 것이다.

앞면이 나오는 경우를 $H$, 뒷면이 나오는 경우를 $T$라고 표현한다면 표본공간은 $S=\{ H, T \}$이고 표본공간의 부분집합인 $\phi, \{H \}, \{T \}, \{H, T \}$가 모두 사건이므로 4가지가 올바른 답이다.

참고 셀 수 있는 무한집합은 자연수와 1-1대응이 되어 번호를 매길 수 있는 집합을 말한다. 자연수 $\mathbb{N}$, 정수 $\mathbb{Z}$, 유리수의 집합 $\mathbb{Q}$은 셀 수 있는 무한집합이다. 실수의 집합 $\mathbb{R}$은 셀 수 없는 무한집합이다.

확률을 엄밀하게 다루기 위해서 아래와 같이 확률 함수를 정의한다.

정의 

사건 $A$일 때, 함수 $P(A)$가 아래를 만족하면 확률 함수가 된다.

$$\forall A \quad 0 \leq P(A) \tag{1} $$
$$P(S)=1 \tag{2} $$
$$P \bigg( \bigcup_{i=1}^{\infty} A_1 \bigg) = \sum_{i=1}^{\infty}P(A_i) \tag{3}$$

$A_1, A_2 , A_3, \cdots$는 쌍별로 서로소이다.

 

보기

동전 2개를 던지는 시행에서 확률 함수를 알아 보자. 

표본 공간은 $S =\{ HH, HT, TH, TT \}$이다.

$P(S)=1$이고 네 가지 근원사건은 모두 같은 확률이어야 하므로 $1/4$이다.

서로 다른 면이 나오는 사건을 $C$라고 하면 확률은 아래와 같이 결정된다.

$$P(C)=P(\{ HT \})+P(\{TH \})=1/4+1/4=1/2$$

앞면이 나오는 수에 주목한다면 표본공간은 $S*=\{ 0,1,2 \}$로 생각할 수도 있다. 하지만 이때는 근원사건의 확률이 모두 같지 않으므로 확률을 $1/3$로 놓으면 안 된다. $P(\{1 \})=1/2, P(\{0\})=P(\{2\})=1/4$로 놓아야 한다.

정의 

고를 확률이 모두 같은 대상에서 고르는 것을 임의로 고른다(chosen at random)고 한다.

아래와 같은 정리가 성립한다.

정리 

  1. $P(A)=1-P(A^c)$
  2. $\forall A , \quad P(A) \leq 1$
  3. $\forall A,B \quad P(A \cup B)=P(A)+P(B)-P(A \cap B)$
  4. 포함배제의 원리
    $\forall A,B,C $\begin{split}P(A \cup B \cup C)&=P(A)+P(B)+P(C)\\&-P(A \cap B)-P(B \cap C)-P(C \cap A)\\&+P(A \cap B \cap C)\end{split}
  5. $ A \subset B \quad P(A) \leq P(B)$
  6. $ A_1, A_2 , A_3, \cdots$이 사건의 수열이라면 $P \bigg( \bigcup_{i=1}^{\infty} A_1 \bigg) \leq \sum_{i=1}^{\infty}P(A_i)$이다.

정의 

사건 $B \not= \phi$가 일어났을 때 사건 $A$가 일어날 조건부 확률은 아래와 같다.

$$P(A|B)=\frac{P(A \cap B)}{P(B)}$$

정리 

임의의 사건 $A, B$에 대하여 아래와 같은 곱의 법칙이 성립한다.

$$P(A \cap B)=P(B)P(A|B)=P(A)P(B|A)$$

정리 

$P(A \cap B)=P(A)P(B)$이면 두 사건 $A, B$는 서로 독립인 사건(independent events)이다. 서로 독립인 사건이 아니면 종속인 사건(dependent events)이다.

정리 

아래와 같이 표본공간 $S$를 정의역으로 하는 함수 $X$를 확률변수(random variable)라 한다. 시행에서 일어나는 경우 $e \in S$일 때, $X(e)=x$이다.

보기

동전 2개를 던지는 시행에서 앞면이 나오는 수를 확률변수 $X$라 하자. 

표본 공간은 $S =\{ HH, HT, TH, TT \}$이다.

$X(\{ HH \})=2, \quad X(\{ HT \})=P(\{TH \})=1 \quad X(\{ TT \})=0$인 함수 $X$가 확률변수이다.

$B=\{e|e \in S \quad 이고 \quad X(e) \in A \}$라면 $P[X \in A]=P(B)$이다.

정의 

확률변수(random variable) $X$가 유한하거나 셀 수 있는 무한집합이면 이산(discrete) 확률 변수라 한다. 아래 함수를 이산 확률 밀도 함수(discrete pdf) 또는 확률 질량 함수(PMF: probability mass function)라 한다. $$f(x)=P[X=x]\quad x=x_1, x_2, x_3, \cdots$$

함수 $F(x)=P[X \leq x]$는 누적 분포 함수(CDF: cumulative distribution function)라 한다.

이때 기댓값(expected value) 또는 평균(mean)은 $E(X)=\sum_{x}x f(x)$이다.

정의 

확률변수(random variable) $X$가 셀 수 없는 무한집합이면 연속(countinuous) 확률 변수라 한다. 아래와 같은 누적 분포 함수를 가질 때 함수 $f(x)$를 확률 밀도 함수(PDF: probability density function)라 한다. $$F(x)=\int_{-\infty}^{x} f(t)dt$$

이때 기댓값(expected value) 또는 평균(mean)은 $E(X)=\int_{-\infty}^{\infty}x f(x)dx$이다.

보기

동전 3개를 던지는 시행에서 앞면이 나오는 동전의 수를 확률변수 $X$라고 하자.

확률 변수 $X$는 이산 확률 변수이고 확률 질량 함수는 위에 있는 그림과 같다.

기댓값은 아래와 같이 구한다.

$$E(X)=\sum_{i=0}^{3} x_i f( x_i )=0 \cdot \frac{1}{8} + 1 \cdot \frac{3}{8} + 2 \cdot \frac{3}{8} + 3 \cdot \frac{1}{8 }= \frac{12}{8}=1.5$$

항상 표본공간을 명확하게 파악하고 문제를 풀어야 한다. 아래는 지스트 2017년 기출문제이다.

단계 1. 연속 확률 변수란 무엇인가? 예를 들어 설명하시오.

단계 2. 연속 확률 변수의 확률 밀도 함수란 무엇인가? 세 가지 성질을 설명하시오.

단계 3. 아래와 같은 확률 밀도 함수를 가진 연속 확률 변수 $X$가 주어졌을 때
$$f(x)=\frac{4}{9}-kx\;\;\;(-1\leq x\leq2)$$
(1) 상수 $k$의 값은 무엇인가?
(2) 이 확률 분포의 평균값은 무엇인가?
(3) $P(0\leq X\leq 1/2)$은 무엇인가?

반응형