일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 웹프로그래밍
- 백준
- Prim's Algorithm
- mst
- 브라우저
- Kruskal's Algorithm
- 프로그래머스
- mysql
- programmers
- 웹 프로그래밍
- 그리디
- greedy
- 프림 알고리즘
- 부스트코스
- 정렬 알고리즘
- 벡엔드
- 순열 알고리즘
- 다이나믹 프로그래밍
- 정렬
- 네이버 부스트캠프 ai tech
- SERVLET
- request
- DP
- dbms
- jsp
- 해시
- BJ
- 소수
- 웹서버
- 크루스칼 알고리즘
- Today
- Total
끵뀐꿩긘의 여러가지
8강- 확률변수와 확률분포 (Random Variables and Their Distributions) 본문
8강- 확률변수와 확률분포 (Random Variables and Their Distributions)
끵뀐꿩긘 2022. 10. 18. 15:38확률 질량 함수(probability mass function, PMF):
이산 확률 변수의 확률분포를 나타내는 함수, 불연속 값에 대한 확률을 나타낸다
확률 밀도 함수(probability density function, PDF):
연속 확률 변슈의 확률 분포를 나타내는 함수, 연속 값에 대한 확률을 나타낸다.
누적 분포 함수(Cumulative Distribution Function, CDF):
확률 변수 x가 $-\infty$부터 특정 포인트까지 누적된 확률을 결과값으로 하는 함수
누적분포 함수 F
$$F_X(x) = P(X\ge x)$$
- 이산형 확률 변수의 CDF
X가 이산확률 변수이더라도, cdf의 input은 모든 실수 값을 취할 수 있다.
당연히 이산확률 변수가 없는 곳에서는 변화가 없으므로 계단식으로 그래프가 나타난다.
- 연속형 확률 변수의 CDF
- 누적 분포 함수의 특징
- 누적된 확률을 내보내는 것이므로 input이 커지면 output은 언제나 크거나 같다(단조 증가함수)
- input이 lim -> $-\infty$작을수록 누적된 확률은 0에 lim -> $\infty$클수록 1에 가까워진다
- 모든 input에 대하여 0이상 1이하이다
이항 분포(Binomial Distribution)
$$X \sim Bionomial(x;N,\mu)$$
$$P(K = k) = \binom{n}{k}p^k(1-p)^{n-k}$$
의미:
n번의 독립적인 $Bernoulli(p)$ 시행에서 성공한 횟수
n은 베르누이 시행을 한 수, p 베르누이 시행이 성공할 확률
지시확률변수(Indicator Random Variable):
특정 집합에 특정 값이 속하는 지를 표시하는 함수
특정 값이 속하면 1, 속하지 않으면 0으로 정의한다.
ex.
이항분포를 베르누이 시행을 따르는 지시확률 변수로 나타내면
$$X = X_1 + X_2 + \cdots + X_n, X_1,\cdots ,X_n \sim Bern(x;\mu)$$
* $X \sim Bin(n,p) , Y \sim Bin(m,p)$ 이고 X,Y 가 독립일때(x,y 는i.i.d(idependent and identically distribution)),
$X+Y \sim Bin(m+n,p)$인가?
지시확률변수:
$X = X_1 + X_1 + \cdots + X_n$
$Y = Y_1 + Y_2 + \cdots + Y_n$
$X+Y = \sum X + \sum Y $
PMF:
$$P(X+Y = k) = \sum_{j=0}^{k}P(X+Y = k | X = j)P(X = j)$$
$$ = \sum_{j = 0}^{k}P(Y = k-j|X = j)\binom{n}{j}p^jq^{n-j}$$
X,Y가 iid이므로 Y는 X의 값에 상관이 없다=> 조건부확률 조건 삭제 가능
$$ = \sum_{j = 0}^{k}\binom{m}{k-j}p^{k-j}q^{m-k+j}\binom{n}{j}p^jq^{n-j}$$
방데르 몽드 항등식을 활용하여
$$ = p^kq^{m+n-k}\sum_{j = 0}^{k}\binom{m}{k-j}\binom{n}{j} = p^kq^{m+n-k}\binom{m+n}{k}$$
조건확인:
* 방데르 몽드 항등식
초기하 분포(Hypergeometric Distribution)
$$X \sim hypergeo(x;N,m,n)$$
$$P(X = x) = \frac{\binom{m}{x}\binom{N-m}{n-x}}{\binom{N}{n}}$$
의미:
비복원 추출에서 N개 중에 n번 추출했을 때 원하는 것 m개 중에서 x개가 뽑힐 확률의 분포
ex 1)
5장의 카드를 뽑을 때, 그 중 에이스 카드의 수
$k \in {0,1,2,3,4}$
$$P(X=k) = \frac{\binom{4}{k}\binom{48}{5-k}}{\binom{52}{5}}$$
ex 2)
20마리의 elk 무리 중에 5마리가 tag 되어있다.
elk 무리에서 4마리를 뽑을 때, tag된 elk가 두마리 뽑힐 확률은?
$$P(X=2) = \frac{\binom{5}{2}\binom{15}{2}}{\binom{20}{4}}$$
ex 3)
b개의 검정색 구슬과 w개의 흰색 구슬 중에서 n개의 표본을 무작위로 추출할때 표본에 있는 흰색 구슬의 수
$$P(X=k) = \frac{\binom{w}{k}\binom{b}{n-k}}{\binom{b+w}{n}}, 0\le k \le w, 0 \le k \le b$$
조건확인:
초기하 분포와 이항 분포의 관계
모집단에서 복원 추출을 하면 이항분포가, 비복원 추출을 하면 초기하분포가 된다
표본 공간이 충분히 커서 복원 여부가 큰 차이가 나지 않는 경우 초기하 분포는 이항 분포에 근사한다
'Naver boostcamp -ai tech > Statistics 110' 카테고리의 다른 글
7강- 도박꾼의 파산 문제와 확률변수 (Gambler's Ruin and Random Variables) (0) | 2022.10.18 |
---|---|
6강- Monty Hall 문제와 심슨의 역설 (Monty Hall, Simpson's Paradox) (1) | 2022.10.11 |
5강- 조건부 확률과 전확률정리 (Conditioning Continued, Law of Total Probability) (0) | 2022.10.10 |
4강- 조건부 확률 (Conditional Probability) (0) | 2022.10.04 |
3강- Birthday Problem과 확률의 특성 (Birthday Problem, Properties of Probability) (0) | 2022.10.04 |