완숙의 블로그

[Stochastic Process] 5 - CDF, Mean, Variance 본문

Mathmatics/Statistics

[Stochastic Process] 5 - CDF, Mean, Variance

완숙 2019. 4. 11. 00:32

Cumulative Distribution Function, CDF

 

 

 

 

이산 랜덤변수인 경우에는 x 이하 모든 변수의 값을 더한다.

연속 랜덤변수인 경우에는 -무한대로 부터 해당 랜덤변수값까지의 적분값이다.

 

 

 

특정한 범위에 속할 확률

 

 

 

 

 

Mean

평균은 확률실험의 관찰 값들의 집합을 대변하는 수이다.

기댓값은 확률 실험의 확률 모델을 나타내는 수이다.

 

 

평균과 기댓값을 우리는 같은 단어로 지금까지는 생각해 왔을지 모른다.

하지만 이것은 약간의 다른점이 존재하는데,

평균 값은 실제 실험이 진행된 결과 집합에 대해 이를 대변하는 수이고,

기댓값 은 내가 만든 확률 모델의 집합을 대변하는 수이다.

 

 

 

 

 

기댓값의 계산

 

 

Sample space 의 원소에 속하는 각각의 x에 대해 그 해당 확률을 곱하고 모두 더한 것.

 

이 식은, 무게중심을 구하는 식과 동일하다.

x(m) 거리에 P(x) 의 질량을 가지는 녀석이 있을 때,

이것의 무게중심을 구하면, 그게 바로 평균이다.

 

그렇기 때문에 이렇게 이산 확률 변수로 구성된 PDF를 확률 질량 함수 라 부른다.

 

 

 

다른 지표

그렇다면 어떤 확률 모델이 있을 때,

이 모델로 부터 나올 수 있는 결과 집합에 대해 이를 대변하는 수가 굳이 꼭 평균 일 필요는 없다.

평균은 튀는 값에 대해 민감하게 반응하기 때문에,

특정 분포에 대해서는 옳지 않은 지표일 수 있기 때문이다.

 

그래서 우리는 중앙값, 최빈값 과 같은 다른 개념을 함께 사용한다.

 

중앙값 은 수집합의 중앙에 있는 수이다.

중앙값보다 작은 수의 개수와, 큰 수의 개수가 같다는 의미이다.

최빈값 은 관측들의 모임에서 가장 빈번히 나타나는 수이다.

그 값이 개수는 다른 값들의 개수보다 같거나 더 많다.

 

 

 

 

Varience

분산 $Var[X]$ 는 랜덤변수 X의 표본값들이 기댓값 $E[X]$ 로부터 얼마나 퍼져있는가를 측정하는 값이다.

$E[X]$ 를 X의 추정값이라고 생각하면 $Var[X]$ 는 추정오차 제곱의 평균이다.

 

관측 집단에 대해 기댓값이라는 지표로 대변하려고 했으나,

정말 이 집단에 대한 대응값은 평균하나로 하는 것이 타당한가?

 

만약 아니라면 어떤 지표를 추가적으로 만드는 것이 그나마,

정보 손실을 최소로 하면서 집단을 대변할 수 있을까?

 

아까 평균은 무게중심과 같은 개념이라고 했다.

즉, 두 물체의 무게 중심은 같은 곳에 위치할 수 있지만,

물체의 모양은 다를 수 있다.

 

그렇기 때문에 우리는 이 모양에 대한 지표도 만들어주는 것이 옳은 접근인데,

이것을 대변할 수 있는 것이 바로 분산 이다.

 

 

 

 

이 분산식은, 무언가의 값을 예측할 때도 매우 유용하다.

 

 

 

 

예측하고 싶은 타겟의 실제 분포가 X라는 변수로 대변되고,

그 것의 예측 값이 x_hat 으로 대변되었다고 생각해보자.

 

그렇다면 X의 분포가 있을 것이고, 또 x_hat의 분포 역시 그려질 것이다.

우리는 x_hat의 분포가 X의 분포와 최대한 가까워지기를 바란다.

 

그럴때 이 식을 사용하며, 이 식을 Mean Squared Error 라 한다.

 

 

 

표준편차

 

 

 

표준 편차를 사용하면 좋은점은 여러가지가 있는데,

먼저 X와 단위가 같다는 점이 매우 유용하다.

 

평균에서 $\pm \sigma_X$ 정도 떨어져 있을 때, 분포의 중심에 왔다고 간주한다.

 

 

 

 

Mean and Varience of 6 Category of PMF

Bernoulii Random Variables

 

 

두 개의 가능한 결과만을 갖는 부분확률 실험을 베르누이 시행이라 한다.

 

 

Mean

베르누이 랜덤변수 X의 기댓값은 $E[X]=p$ 이다.

 

 

 

Varience

 

 

 

 

 

 

 

Geometric Random Variables

두 개의 결과 중 어떤 한 특정 결과를 최초로 관찰할 때 까지의 베르누이 시행 횟수를 기하랜덤변수라 한다.

 

 

p는 마지막에 결과가 출력되는 확률!

 

Mean

기하(p) 랜덤변수 X의 기댓값은 $E[X]=1/p$ 이다.

 

 

 

Varience

 

 

 

 

 

 

 

 

 

Binomial Random Variables

n번 시행중 x 번이 나오는 횟수를 X라 하면, X는 이항 랜덤 변수이다.

 

 

Mean

이항(n,p) 랜덤변수 X의 기댓값은 $E[X]=np$ 이다.

 

 

 

Varience

 

 

 

 

 

 

 

 

Pascal Random Variables

특정 시행 횟수를 만족할 때까지의 확률을 계산한 PMF 가 있다면 이는 파스칼 랜덤 변수이다.

 

 

식을 잠깐 뜯어보면, x번째에서 k번 성공할 확률은, x-1번째까지의 경우에서 k-1 번째까지 성공할 경우를 모두 구하고

마지막에 x번째에서 성공할 확률 p를 곱해주면 된다.

 

Mean

파스칼(k, p) 랜덤변수 X의 기댓값은 $E[X]=k/p$ 이다.

 

 

 

Varience

 

 

 

 

 

 

 

Uniform Random Variables

모든 표본 공간의 원소에 대응하는 확률이 일정할 때, 이 때 X를 균등 랜덤변수라 한다.

 

 

Mean

균등(k, l) 랜덤변수 X의 기댓값은 $E[X]=(k+l)/p$ 이다

 

 

Varience

 

 

 

 

 

 

 

Poisson Random Variables

무작위한 시간에 발생하는 현상을 설명하는데 주로 사용한다.

각각의 발생은 완전히 임의이다.

관심이 되는 사건의 발생을 '도착' 이라 부른다.

일 초당 도착하는 평균 비율 $\lambda$ 와 시간간격 T 초를 명시한다.

이 때, 이 시간안에 도착하는 횟수 X는 $\alpha = \lambda \times T$ 인 포아송 분포를 갖는다.

 

 

 

Mean

포아송($\alpha$) 랜덤변수 X의 기댓값은 $E[X]=\alpha$ 이다.

 

 

 

Varience

 

 

 

Comments