끵뀐꿩긘의 여러가지

8강- 확률변수와 확률분포 (Random Variables and Their Distributions) 본문

Naver boostcamp -ai tech/Statistics 110

8강- 확률변수와 확률분포 (Random Variables and Their Distributions)

끵뀐꿩긘 2022. 10. 18. 15:38

확률 질량 함수(probability mass function, PMF):

이산 확률 변수의 확률분포를 나타내는 함수, 불연속 값에 대한 확률을 나타낸다

 

확률 밀도 함수(probability density function, PDF):

연속 확률 변슈의 확률 분포를 나타내는 함수, 연속 값에 대한 확률을 나타낸다.

누적 분포 함수(Cumulative Distribution Function, CDF):

확률 변수 x가 $-\infty$부터 특정 포인트까지 누적된 확률을 결과값으로 하는 함수

누적분포 함수 F

$$F_X(x) = P(X\ge x)$$

 

- 이산형 확률 변수의 CDF

X가 이산확률 변수이더라도, cdf의 input은 모든 실수 값을 취할 수 있다.

당연히 이산확률 변수가 없는 곳에서는 변화가 없으므로 계단식으로 그래프가 나타난다.

 

- 연속형 확률 변수의 CDF

- 누적 분포 함수의 특징

  • 누적된 확률을 내보내는 것이므로 input이 커지면 output은 언제나 크거나 같다(단조 증가함수)
  • input이 lim -> $-\infty$작을수록 누적된 확률은 0에 lim -> $\infty$클수록 1에 가까워진다
  • 모든 input에 대하여 0이상 1이하이다

 

이항 분포(Binomial Distribution)

$$X \sim Bionomial(x;N,\mu)$$

$$P(K = k) = \binom{n}{k}p^k(1-p)^{n-k}$$

 

의미:

n번의 독립적인 $Bernoulli(p)$ 시행에서 성공한 횟수

n은 베르누이 시행을 한 수, p 베르누이 시행이 성공할 확률

 

지시확률변수(Indicator Random Variable):

특정 집합에 특정 값이 속하는 지를 표시하는 함수

특정 값이 속하면 1, 속하지 않으면 0으로 정의한다.

ex.

이항분포를 베르누이 시행을 따르는 지시확률 변수로 나타내면

$$X = X_1 + X_2 + \cdots + X_n, X_1,\cdots ,X_n \sim Bern(x;\mu)$$

 

* $X \sim Bin(n,p) , Y \sim Bin(m,p)$ 이고 X,Y 가 독립일때(x,y 는i.i.d(idependent and identically distribution)),

$X+Y \sim Bin(m+n,p)$인가?

지시확률변수:

$X = X_1 + X_1 + \cdots + X_n$

$Y = Y_1 + Y_2 + \cdots + Y_n$

$X+Y = \sum X + \sum Y $

 

PMF:

$$P(X+Y = k) = \sum_{j=0}^{k}P(X+Y = k | X = j)P(X = j)$$

$$ = \sum_{j = 0}^{k}P(Y = k-j|X = j)\binom{n}{j}p^jq^{n-j}$$

X,Y가 iid이므로 Y는 X의 값에 상관이 없다=> 조건부확률 조건 삭제 가능

$$ = \sum_{j = 0}^{k}\binom{m}{k-j}p^{k-j}q^{m-k+j}\binom{n}{j}p^jq^{n-j}$$

방데르 몽드 항등식을 활용하여

$$ = p^kq^{m+n-k}\sum_{j = 0}^{k}\binom{m}{k-j}\binom{n}{j} = p^kq^{m+n-k}\binom{m+n}{k}$$

 

조건확인:

모든 이항 분포의 확률의 합은 1이다

 

* 방데르 몽드 항등식

초기하 분포(Hypergeometric Distribution)

$$X \sim hypergeo(x;N,m,n)$$

$$P(X = x) = \frac{\binom{m}{x}\binom{N-m}{n-x}}{\binom{N}{n}}$$

 

의미:

비복원 추출에서 N개 중에 n번 추출했을 때 원하는 것 m개 중에서 x개가 뽑힐 확률의 분포

 

ex 1)

5장의 카드를 뽑을 때, 그 중 에이스 카드의 수

$k \in {0,1,2,3,4}$

$$P(X=k) = \frac{\binom{4}{k}\binom{48}{5-k}}{\binom{52}{5}}$$

 

ex 2)

20마리의 elk 무리 중에 5마리가 tag 되어있다.

elk 무리에서 4마리를 뽑을 때, tag된 elk가 두마리 뽑힐 확률은?

$$P(X=2) = \frac{\binom{5}{2}\binom{15}{2}}{\binom{20}{4}}$$

 

ex 3)

b개의 검정색 구슬과 w개의 흰색 구슬 중에서 n개의 표본을 무작위로 추출할때 표본에 있는 흰색 구슬의 수

$$P(X=k) = \frac{\binom{w}{k}\binom{b}{n-k}}{\binom{b+w}{n}}, 0\le k \le w, 0 \le k \le b$$

 

조건확인:

모든 초기하 분포의 확률의 합은 1이다.

 

초기하 분포와 이항 분포의 관계

모집단에서 복원 추출을 하면 이항분포가, 비복원 추출을 하면 초기하분포가 된다

표본 공간이 충분히 커서 복원 여부가 큰 차이가 나지 않는 경우 초기하 분포는 이항 분포에 근사한다

Comments