8강- 확률변수와 확률분포 (Random Variables and Their Distributions)
확률 질량 함수(probability mass function, PMF):
이산 확률 변수의 확률분포를 나타내는 함수, 불연속 값에 대한 확률을 나타낸다
확률 밀도 함수(probability density function, PDF):
연속 확률 변슈의 확률 분포를 나타내는 함수, 연속 값에 대한 확률을 나타낸다.
누적 분포 함수(Cumulative Distribution Function, CDF):
확률 변수 x가 $-\infty$부터 특정 포인트까지 누적된 확률을 결과값으로 하는 함수
누적분포 함수 F
$$F_X(x) = P(X\ge x)$$
- 이산형 확률 변수의 CDF
X가 이산확률 변수이더라도, cdf의 input은 모든 실수 값을 취할 수 있다.
당연히 이산확률 변수가 없는 곳에서는 변화가 없으므로 계단식으로 그래프가 나타난다.
- 연속형 확률 변수의 CDF
- 누적 분포 함수의 특징
- 누적된 확률을 내보내는 것이므로 input이 커지면 output은 언제나 크거나 같다(단조 증가함수)
- input이 lim -> $-\infty$작을수록 누적된 확률은 0에 lim -> $\infty$클수록 1에 가까워진다
- 모든 input에 대하여 0이상 1이하이다
이항 분포(Binomial Distribution)
$$X \sim Bionomial(x;N,\mu)$$
$$P(K = k) = \binom{n}{k}p^k(1-p)^{n-k}$$
의미:
n번의 독립적인 $Bernoulli(p)$ 시행에서 성공한 횟수
n은 베르누이 시행을 한 수, p 베르누이 시행이 성공할 확률
지시확률변수(Indicator Random Variable):
특정 집합에 특정 값이 속하는 지를 표시하는 함수
특정 값이 속하면 1, 속하지 않으면 0으로 정의한다.
ex.
이항분포를 베르누이 시행을 따르는 지시확률 변수로 나타내면
$$X = X_1 + X_2 + \cdots + X_n, X_1,\cdots ,X_n \sim Bern(x;\mu)$$
* $X \sim Bin(n,p) , Y \sim Bin(m,p)$ 이고 X,Y 가 독립일때(x,y 는i.i.d(idependent and identically distribution)),
$X+Y \sim Bin(m+n,p)$인가?
지시확률변수:
$X = X_1 + X_1 + \cdots + X_n$
$Y = Y_1 + Y_2 + \cdots + Y_n$
$X+Y = \sum X + \sum Y $
PMF:
$$P(X+Y = k) = \sum_{j=0}^{k}P(X+Y = k | X = j)P(X = j)$$
$$ = \sum_{j = 0}^{k}P(Y = k-j|X = j)\binom{n}{j}p^jq^{n-j}$$
X,Y가 iid이므로 Y는 X의 값에 상관이 없다=> 조건부확률 조건 삭제 가능
$$ = \sum_{j = 0}^{k}\binom{m}{k-j}p^{k-j}q^{m-k+j}\binom{n}{j}p^jq^{n-j}$$
방데르 몽드 항등식을 활용하여
$$ = p^kq^{m+n-k}\sum_{j = 0}^{k}\binom{m}{k-j}\binom{n}{j} = p^kq^{m+n-k}\binom{m+n}{k}$$
조건확인:
* 방데르 몽드 항등식
초기하 분포(Hypergeometric Distribution)
$$X \sim hypergeo(x;N,m,n)$$
$$P(X = x) = \frac{\binom{m}{x}\binom{N-m}{n-x}}{\binom{N}{n}}$$
의미:
비복원 추출에서 N개 중에 n번 추출했을 때 원하는 것 m개 중에서 x개가 뽑힐 확률의 분포
ex 1)
5장의 카드를 뽑을 때, 그 중 에이스 카드의 수
$k \in {0,1,2,3,4}$
$$P(X=k) = \frac{\binom{4}{k}\binom{48}{5-k}}{\binom{52}{5}}$$
ex 2)
20마리의 elk 무리 중에 5마리가 tag 되어있다.
elk 무리에서 4마리를 뽑을 때, tag된 elk가 두마리 뽑힐 확률은?
$$P(X=2) = \frac{\binom{5}{2}\binom{15}{2}}{\binom{20}{4}}$$
ex 3)
b개의 검정색 구슬과 w개의 흰색 구슬 중에서 n개의 표본을 무작위로 추출할때 표본에 있는 흰색 구슬의 수
$$P(X=k) = \frac{\binom{w}{k}\binom{b}{n-k}}{\binom{b+w}{n}}, 0\le k \le w, 0 \le k \le b$$
조건확인:
초기하 분포와 이항 분포의 관계
모집단에서 복원 추출을 하면 이항분포가, 비복원 추출을 하면 초기하분포가 된다
표본 공간이 충분히 커서 복원 여부가 큰 차이가 나지 않는 경우 초기하 분포는 이항 분포에 근사한다