Statistics/통계학 기초

Chap02 - Joint,Marginal,Conditional Probability Distribution

Excelsior-JH 2019. 9. 29. 22:39

1. CONDITIONAL PROBABILITY(조건부 확률)

1.1 정의

조건부 확률(conditional probability)는 두 사건(event, 실험이나 관측 등의 행위에 의해 생긴 결과)에 대한 확률이다. 하나의 확률 변수(random variable)가 주어졌을 때 다른 확률 변수에 대한 확률이다. 즉, 어떤 사건 가 발생했을 때 사건 가 일어날 확률을 의미하며, 수식으로는 다음과 같이 나타낸다.

1.2 예제

한 개의 주사위를 던져서 홀수의 눈이 나왔을 때, 그 눈이 3의 배수일 확률을 구해보면 다음과 같이 구할 수 있다.

  • 한 개의 주사위를 던져서 홀수의 눈이 나오는 사건을 , 3의 배수가 나오는 사건을 라고 한다.

  • 는 한 개의 주사위를 던져 홀수의 눈이 나올 확률이므로

  • 는 한 개의 주사위를 던져서 홀수이면서 3의 배수가 나올 확률이므로

  • 따라서, 는 다음과 같다.


2. JOINT, MARGINAL, CONDITIONAL PROBABILITY DISTRIBUTION

Joint, Marginal, Conditional Probability Distribution에 대해 알아보기 전에 확률분포, 확률 질량/밀도 함수에 대해 살펴보자.

2.1 확률분포

확률분포(probability distribution)는 확률변수가 확률함수(probability function)에 의해 사이의 값으로 매핑될 때 확률변수의 모든 값과 그에 대응하는 확률들이 어떻게 분포하고 있는지를 말한다. 즉, 확률분포란 확률변수에 따라 확률이 어떻게 흩어져 있는지를 표현하는 함수이다.

확률분포는 확률변수의 종류에 따라 이산확률분포와 연속확률분포로 나뉜다.

  • 이산확률분포(discrete probability distribution)는 동전의 앞면과 뒷면, 주사위의 눈 등과 같이 셀 수 있는(countable) (이산)확률변수가 가지는 확률분포를 의미한다.

  • 연속확률분포(continuous probability distribution)는 돈(moneytary), 온도, 시간 등과 같이 셀 수 없는 (연속)확률변수가 가지는 확률분포를 의미한다.



2.2 확률질량함수와 확률밀도함수

2.2.1 확률질량함수

확률질량함수(probability mass function, PMF)는 이산확률변수의 확률분포를 나타내는 함수이다. 즉, 이산확률변수 각각에 대해서 확률 을 대응시켜주는 함수 를 말한다.

확률질량함수(PMF)의 성질은 다음과 같다.

  • 모든 확률변수 에 대하여

2.2.2 확률밀도함수

확률밀도함수(probability density function, PDF)는 연속확률변수의 확률분포를 나타내는 함수이다. 연속확률변수는 이산확률변수와 달리 셀 수 없기 때문에 특정 값에 대한 확률값을 구할 수 없으며, 따라서 확률의 구간을 구하여 확률을 계산하게 된다.

즉, 확률밀도함수 와 구간 에 대해서 확률변수 가 구간에 포함될 확률은 다음과 같이 나타낼 수 있다.

확률밀도함수(PDF)의 성질은 다음과 같다.

  • 모든 확률변수 에 대하여


2.3 결합확률분포

결합확률분포(Joint probability distribution)는 두 개 이상의 사건이 동시에 일어날 확률에 대한 분포를 말한다. 따라서 두 개 이상의 확률변수를 가진다. 예를 들어, 두 확률변수(또는 사건) 에 대한 결합확률은 다음과 같이 나타낸다.

이와 같이 결합확률이 되기 위해서는 다음과 같은 조건이 필요하다.

  • 두 사건 는 동시에 일어나야 한다.

    • ex. 두 개의 주사위를 동시에 던지는 경우

  • 두 사건 는 반드시 서로 독립(independent)이어야 한다. 즉, 는 독립사건이어야 한다.

  • 위의 두 조건을 만족할 경우 다음과 같이 나타낼 수 있다.

만약 두 사건 가 서로 종속(dependent)일 경우에는 어떻게 될까?

예를 들어,

  • 하늘에 구름이 있을 확률을 사건

  • 비가 올 확률을 사건

한다면, 비는 구름에서 부터 생성되기 때문에 사건 는 사건 에 영향을 주게된다. 따라서 두 사건 는 서로 독립 사건이 아니게 된다.

이러한 경우에는 결합확률을 사용할 수 없는데, 그 이유는 두 사건 가 동시에 일어나지 않기 때문이다. 그러므로 위와 같은 사건 에 대한 결합확률은 결국 이 된다.


2.3.1 결합확률질량함수

결합확률질량함수(Joint Probability Mass Function)은 이산확률변수가 두 개 이상인 확률질량함수를 말한다. 두 개의 이산확률변수 에 대한 결합확률질량함수는 다음과 같다.

그리고, 두 이산확률변수 에 대한 결합확률에 대한 합은 다음과 같이 나타낼 수 있다.

이를 이산확률변수가 개인 으로 일반화하면 다음과 같다.

2.3.2 결합확률밀도함수

결합확률밀도함수(Joint Probability Density Function)은 연속확률변수가 두 개 이상인 확률밀도함수를 말한다. 두 개의 연속확률변수 에 대해 결합확률밀도함수 는 다음과 같이 나타낼 수 있다. 아래의 식에서 는 두 확률변수 가 형성하는 특정 공간(집합)을 의미한다.

결합확률밀도함수 또한 (면적의) 총합은 1이면 다음의 식과 같다.


2.4 주변확률분포

주변확률분포는 결합확률분포를 전제로 하기 때문에, 주변확률(marginal probability)을 이해하기 위해서는 먼저 결합확률(joint probability)에 대해 알아야 한다. 두 개의 확률변수 의 결합확률분포 를 통해 하나의 확률변수에 대한 확률함수를 구할 수 있는데, 이를 주변확률분포로 구할 수 있다. 즉, 두 개의 확률변수로 이루어진 결합확률분포를 또는 의 하나의 확률변수로 표현하는 것을 주변확률분포라고 한다.

그렇다면 왜 이러한 확률분포를 주변확률(marginal probablity)이라고 명명했을까?

marginal이란 단어의 사전적 의미는 '미미한, 중요하지 않은, 주변부의' 라는 의미를 가진다.

예를 들어, 두 확률변수 에 대한 결합확률분포 에서 에 대한 확률분포를 구하고자 한다면, 우리는 오로지 확률변수 에만 관심이 있고 확률변수 에 대해서는 관심을 가질 필요가 없게 된다. 따라서, 확률변수 를 중요하지 않은 변수로 취급(marginalize)하기 때문에 이러한 이름을 붙이지 않았나 추측된다.


2.4.1 주변확률질량함수

두 확률변수 가 이산확률변수일 때에는 주변확률질량함수를 다음과 같이 나타낼 수 있다.

  • 에 대한 주변확률질량함수(Marginal PMF)

  • 에 대한 주변확률질량함수(Marginal PMF)


2.4.2 주변확률밀도함수

두 확률변수 가 연속확률변수일 때에는 주변확률밀도함수를 다음과 같이 나타낼 수 있다.

  • 에 대한 주변확률밀도함수(Marginal PDF)

  • 에 대한 주변확률밀도함수


2.5 조건부확률분포

조건부확률분포(conditional probability distribution)는 두 개의 확률변수(또는 사건) 에 대하여 결합확률분포와 주변확률분포를 이용해 다음과 같이 구할 수 있다.


2.5.1 조건부확률질량함수

두 확률변수 가 이산확률변수일 때에는 조건부확률질량함수를 다음과 같이 나타낼 수 있다.

  • 의 조건부확률분포를 구할 때 확률변수 는 특정한 값(사전에 알고 있는 값)으로 주어진다.

  • 마찬가지로, 의 조건부확률분포를 구할 때 확률변수 는 특정한 값(사전에 알고 있는 값)으로 주어진다.


2.5.2 조건부확률밀도함수

두 확률변수 가 연속확률변수이고 , 라고 한다면, 조건부확률질량함수를 다음과 같이 나타낼 수 있다.

조건부확률밀도함수를 그래프로 살펴보면 아래와 같으며, 왼쪽의 그래프는 확률변수 로 주어질 때 에 대한 조건부확률밀도함수이며, 오른쪽 그래프는 의 조건부확률밀도함수의 그래프이다.



2.5.3 조건부 기대값 및 분산

조건부 확률분포에 대해 일 때의 의 조건부 기대값은 다음과 같이 구할 수 있다.

또한, 일 때 의 조건부 분산은 다음과 같다.



2.6 주변확률분포와 조건부확률분포의 차이

주변확률분포와 조건부확률분포의 차이를 다음의 예제를 통해 알아보도록 하자.

두 개의 주사위를 던질 때 하나의 주사위에 대한 확률변수를 , 다른하나를 라고 한다면, 두 확률변수에 대한 결합확률 분포는 아래의 표와 같다.

각 확률변수에 대한 주변확률분포와 조건부확률분포는 다음의 그림과 같이 구할 수 있다.



위의 그림에서 알 수 있듯이 조건부확률분포(conditional probability distribution)는 결합확률분포에서 하나의 확률변수가 특정한 값을 가질 때에 대한 확률분포를 의미하며, 주변확률분포(marginal probability distribution)는 하나의 확률변수를 제외(?)한 확률분포임을 알 수 있다.

3. INDEPENDENT RANDOM VARIABLE

3.1 확률변수의 독립

위의 2번에서 살펴본 결합, 주변, 조건부확률분포를 토대로 확률변수에 대한 독립을 정의한다면 다음과 같이 정의할 수 있다.

두 확률변수 의 결합확률함수(pdf 또는 pmf)가 주변확률함수의 곱과 같을 때 독립(independent)라고 한다.

이를 조건부확률함수로 나타내면 다음과 같이 나타낼 수 있다.


위의 식은 두 확률변수 가 독립이면 의 조건부확률분포는 조건(주어지는)이 되는 확률변수 의 값에 영향을 받지 않는다. 즉, 때와 일 때의 조건부 확률분포 로 같다는 것을 의미한다.

개의 확률변수 이 서로 독립일 경우에는 다음의 식과 같다.


3.2 독립 확률변수의 기대값 및 분산

두 확률변수 가 서로 독립일 경우에 기대값과 분산은 다음과 같다.