확률과 통계에 쓰는 정의
수학이야기/확률통계 2019. 11. 4. 11:00실험(experiment)은 결과가 미리 정해져 있지 않고 무작위로(random) 결정되는 현상을 관찰하는 과정이다. 시행(trial)은 실험을 수행하는 일이고 실험으로 얻는 결과는 경우(outcome)라 부른다.
정의
- 표본공간(sample space)은 실험을 시행한 결과로 얻는 모든 경우를 원소로 가지는 집합이다. 보통 $S$로 적는다.
- 표본공간이 유한 또는 셀 수 있는(countable) 무한집합일 때를 이산(discrete) 표본공간이라 한다.
- 사건(event)는 표본공간의 부분집합이다.
- $A \subset S$ 원소 개수가 단 하나인 사건을 근원사건(elementary event)라 한다. $n(A)=1$
- 두 사건 $A$와 $B$가 동시에 일어나지 않으면 $A \cap B=\phi$을 서로소(mutually exclusive)라 한다.
- 사건 $A_1, A_2 , A_3, \cdots$가 $i\not= j$이면 $A_i \cap A_j = \phi$일 때, 쌍별로 서로소(pairwise mutually exclusive)라 한다.
대체로 어렵지 않게 알 수 있지만 사건과 근원사건을 혼동하는 경우가 매우 많다. 예를 들면 동전을 하나 던지는 시행을 생각해 보자. 이때 일어날 수 있는 사건은 모두 몇 가지인가라는 질문에 앞, 뒤를 생각해서 2가지로 답하는 학생이 많다. 하지만 이것은 근원사건을 사건으로 잘못 알고 있는 것이다.
앞면이 나오는 경우를 $H$, 뒷면이 나오는 경우를 $T$라고 표현한다면 표본공간은 $S=\{ H, T \}$이고 표본공간의 부분집합인 $\phi, \{H \}, \{T \}, \{H, T \}$가 모두 사건이므로 4가지가 올바른 답이다.
참고 셀 수 있는 무한집합은 자연수와 1-1대응이 되어 번호를 매길 수 있는 집합을 말한다. 자연수 $\mathbb{N}$, 정수 $\mathbb{Z}$, 유리수의 집합 $\mathbb{Q}$은 셀 수 있는 무한집합이다. 실수의 집합 $\mathbb{R}$은 셀 수 없는 무한집합이다.
확률을 엄밀하게 다루기 위해서 아래와 같이 확률 함수를 정의한다.
정의
사건 $A$일 때, 함수 $P(A)$가 아래를 만족하면 확률 함수가 된다.
$$\forall A \quad 0 \leq P(A) \tag{1} $$
$$P(S)=1 \tag{2} $$
$$P \bigg( \bigcup_{i=1}^{\infty} A_1 \bigg) = \sum_{i=1}^{\infty}P(A_i) \tag{3}$$$A_1, A_2 , A_3, \cdots$는 쌍별로 서로소이다.
보기
동전 2개를 던지는 시행에서 확률 함수를 알아 보자.
표본 공간은 $S =\{ HH, HT, TH, TT \}$이다.
$P(S)=1$이고 네 가지 근원사건은 모두 같은 확률이어야 하므로 $1/4$이다.
서로 다른 면이 나오는 사건을 $C$라고 하면 확률은 아래와 같이 결정된다.
$$P(C)=P(\{ HT \})+P(\{TH \})=1/4+1/4=1/2$$
앞면이 나오는 수에 주목한다면 표본공간은 $S*=\{ 0,1,2 \}$로 생각할 수도 있다. 하지만 이때는 근원사건의 확률이 모두 같지 않으므로 확률을 $1/3$로 놓으면 안 된다. $P(\{1 \})=1/2, P(\{0\})=P(\{2\})=1/4$로 놓아야 한다.
정의
고를 확률이 모두 같은 대상에서 고르는 것을 임의로 고른다(chosen at random)고 한다.
아래와 같은 정리가 성립한다.
정리
- $P(A)=1-P(A^c)$
- $\forall A , \quad P(A) \leq 1$
- $\forall A,B \quad P(A \cup B)=P(A)+P(B)-P(A \cap B)$
- 포함배제의 원리
$\forall A,B,C $\begin{split}P(A \cup B \cup C)&=P(A)+P(B)+P(C)\\&-P(A \cap B)-P(B \cap C)-P(C \cap A)\\&+P(A \cap B \cap C)\end{split}- $ A \subset B \quad P(A) \leq P(B)$
- $ A_1, A_2 , A_3, \cdots$이 사건의 수열이라면 $P \bigg( \bigcup_{i=1}^{\infty} A_1 \bigg) \leq \sum_{i=1}^{\infty}P(A_i)$이다.
정의
사건 $B \not= \phi$가 일어났을 때 사건 $A$가 일어날 조건부 확률은 아래와 같다.
$$P(A|B)=\frac{P(A \cap B)}{P(B)}$$
정리
임의의 사건 $A, B$에 대하여 아래와 같은 곱의 법칙이 성립한다.
$$P(A \cap B)=P(B)P(A|B)=P(A)P(B|A)$$
정리
$P(A \cap B)=P(A)P(B)$이면 두 사건 $A, B$는 서로 독립인 사건(independent events)이다. 서로 독립인 사건이 아니면 종속인 사건(dependent events)이다.
정리
아래와 같이 표본공간 $S$를 정의역으로 하는 함수 $X$를 확률변수(random variable)라 한다. 시행에서 일어나는 경우 $e \in S$일 때, $X(e)=x$이다.
보기
동전 2개를 던지는 시행에서 앞면이 나오는 수를 확률변수 $X$라 하자.
표본 공간은 $S =\{ HH, HT, TH, TT \}$이다.
$X(\{ HH \})=2, \quad X(\{ HT \})=P(\{TH \})=1 \quad X(\{ TT \})=0$인 함수 $X$가 확률변수이다.
$B=\{e|e \in S \quad 이고 \quad X(e) \in A \}$라면 $P[X \in A]=P(B)$이다.
정의
확률변수(random variable) $X$가 유한하거나 셀 수 있는 무한집합이면 이산(discrete) 확률 변수라 한다. 아래 함수를 이산 확률 밀도 함수(discrete pdf) 또는 확률 질량 함수(PMF: probability mass function)라 한다. $$f(x)=P[X=x]\quad x=x_1, x_2, x_3, \cdots$$
함수 $F(x)=P[X \leq x]$는 누적 분포 함수(CDF: cumulative distribution function)라 한다.
이때 기댓값(expected value) 또는 평균(mean)은 $E(X)=\sum_{x}x f(x)$이다.
정의
확률변수(random variable) $X$가 셀 수 없는 무한집합이면 연속(countinuous) 확률 변수라 한다. 아래와 같은 누적 분포 함수를 가질 때 함수 $f(x)$를 확률 밀도 함수(PDF: probability density function)라 한다. $$F(x)=\int_{-\infty}^{x} f(t)dt$$
이때 기댓값(expected value) 또는 평균(mean)은 $E(X)=\int_{-\infty}^{\infty}x f(x)dx$이다.
보기
동전 3개를 던지는 시행에서 앞면이 나오는 동전의 수를 확률변수 $X$라고 하자.
확률 변수 $X$는 이산 확률 변수이고 확률 질량 함수는 위에 있는 그림과 같다.
기댓값은 아래와 같이 구한다.
$$E(X)=\sum_{i=0}^{3} x_i f( x_i )=0 \cdot \frac{1}{8} + 1 \cdot \frac{3}{8} + 2 \cdot \frac{3}{8} + 3 \cdot \frac{1}{8 }= \frac{12}{8}=1.5$$
항상 표본공간을 명확하게 파악하고 문제를 풀어야 한다. 아래는 지스트 2017년 기출문제이다.
단계 1. 연속 확률 변수란 무엇인가? 예를 들어 설명하시오.
단계 2. 연속 확률 변수의 확률 밀도 함수란 무엇인가? 세 가지 성질을 설명하시오.
단계 3. 아래와 같은 확률 밀도 함수를 가진 연속 확률 변수 $X$가 주어졌을 때
$$f(x)=\frac{4}{9}-kx\;\;\;(-1\leq x\leq2)$$
(1) 상수 $k$의 값은 무엇인가?
(2) 이 확률 분포의 평균값은 무엇인가?
(3) $P(0\leq X\leq 1/2)$은 무엇인가?