EXCELSIOR

Chap02 - Joint,Marginal,Conditional Probability Distribution 본문

Statistics/통계학 기초

Chap02 - Joint,Marginal,Conditional Probability Distribution

Excelsior-JH 2019. 9. 29. 22:39

1. CONDITIONAL PROBABILITY(조건부 확률)

1.1 정의

조건부 확률(conditional probability)는 두 사건(event, 실험이나 관측 등의 행위에 의해 생긴 결과)에 대한 확률이다. 하나의 확률 변수(random variable)가 주어졌을 때 다른 확률 변수에 대한 확률이다. 즉, 어떤 사건 가 발생했을 때 사건 가 일어날 확률을 의미하며, 수식으로는 다음과 같이 나타낸다.

1.2 예제

한 개의 주사위를 던져서 홀수의 눈이 나왔을 때, 그 눈이 3의 배수일 확률을 구해보면 다음과 같이 구할 수 있다.

  • 한 개의 주사위를 던져서 홀수의 눈이 나오는 사건을 , 3의 배수가 나오는 사건을 라고 한다.

  • 는 한 개의 주사위를 던져 홀수의 눈이 나올 확률이므로

  • 는 한 개의 주사위를 던져서 홀수이면서 3의 배수가 나올 확률이므로

  • 따라서, 는 다음과 같다.


2. JOINT, MARGINAL, CONDITIONAL PROBABILITY DISTRIBUTION

Joint, Marginal, Conditional Probability Distribution에 대해 알아보기 전에 확률분포, 확률 질량/밀도 함수에 대해 살펴보자.

2.1 확률분포

확률분포(probability distribution)는 확률변수가 확률함수(probability function)에 의해 사이의 값으로 매핑될 때 확률변수의 모든 값과 그에 대응하는 확률들이 어떻게 분포하고 있는지를 말한다. 즉, 확률분포란 확률변수에 따라 확률이 어떻게 흩어져 있는지를 표현하는 함수이다.

확률분포는 확률변수의 종류에 따라 이산확률분포와 연속확률분포로 나뉜다.

  • 이산확률분포(discrete probability distribution)는 동전의 앞면과 뒷면, 주사위의 눈 등과 같이 셀 수 있는(countable) (이산)확률변수가 가지는 확률분포를 의미한다.

  • 연속확률분포(continuous probability distribution)는 돈(moneytary), 온도, 시간 등과 같이 셀 수 없는 (연속)확률변수가 가지는 확률분포를 의미한다.



2.2 확률질량함수와 확률밀도함수

2.2.1 확률질량함수

확률질량함수(probability mass function, PMF)는 이산확률변수의 확률분포를 나타내는 함수이다. 즉, 이산확률변수 각각에 대해서 확률 을 대응시켜주는 함수 를 말한다.

확률질량함수(PMF)의 성질은 다음과 같다.

  • 모든 확률변수 에 대하여

2.2.2 확률밀도함수

확률밀도함수(probability density function, PDF)는 연속확률변수의 확률분포를 나타내는 함수이다. 연속확률변수는 이산확률변수와 달리 셀 수 없기 때문에 특정 값에 대한 확률값을 구할 수 없으며, 따라서 확률의 구간을 구하여 확률을 계산하게 된다.

즉, 확률밀도함수 와 구간 에 대해서 확률변수 가 구간에 포함될 확률은 다음과 같이 나타낼 수 있다.

확률밀도함수(PDF)의 성질은 다음과 같다.

  • 모든 확률변수 에 대하여


2.3 결합확률분포

결합확률분포(Joint probability distribution)는 두 개 이상의 사건이 동시에 일어날 확률에 대한 분포를 말한다. 따라서 두 개 이상의 확률변수를 가진다. 예를 들어, 두 확률변수(또는 사건) 에 대한 결합확률은 다음과 같이 나타낸다.

이와 같이 결합확률이 되기 위해서는 다음과 같은 조건이 필요하다.

  • 두 사건 는 동시에 일어나야 한다.

    • ex. 두 개의 주사위를 동시에 던지는 경우

  • 두 사건 는 반드시 서로 독립(independent)이어야 한다. 즉, 는 독립사건이어야 한다.

  • 위의 두 조건을 만족할 경우 다음과 같이 나타낼 수 있다.

만약 두 사건 가 서로 종속(dependent)일 경우에는 어떻게 될까?

예를 들어,

  • 하늘에 구름이 있을 확률을 사건

  • 비가 올 확률을 사건

한다면, 비는 구름에서 부터 생성되기 때문에 사건 는 사건 에 영향을 주게된다. 따라서 두 사건 는 서로 독립 사건이 아니게 된다.

이러한 경우에는 결합확률을 사용할 수 없는데, 그 이유는 두 사건 가 동시에 일어나지 않기 때문이다. 그러므로 위와 같은 사건 에 대한 결합확률은 결국 이 된다.


2.3.1 결합확률질량함수

결합확률질량함수(Joint Probability Mass Function)은 이산확률변수가 두 개 이상인 확률질량함수를 말한다. 두 개의 이산확률변수 에 대한 결합확률질량함수는 다음과 같다.

그리고, 두 이산확률변수 에 대한 결합확률에 대한 합은 다음과 같이 나타낼 수 있다.

이를 이산확률변수가 개인 으로 일반화하면 다음과 같다.

2.3.2 결합확률밀도함수

결합확률밀도함수(Joint Probability Density Function)은 연속확률변수가 두 개 이상인 확률밀도함수를 말한다. 두 개의 연속확률변수 에 대해 결합확률밀도함수 는 다음과 같이 나타낼 수 있다. 아래의 식에서 는 두 확률변수 가 형성하는 특정 공간(집합)을 의미한다.

결합확률밀도함수 또한 (면적의) 총합은 1이면 다음의 식과 같다.


2.4 주변확률분포

주변확률분포는 결합확률분포를 전제로 하기 때문에, 주변확률(marginal probability)을 이해하기 위해서는 먼저 결합확률(joint probability)에 대해 알아야 한다. 두 개의 확률변수 의 결합확률분포 를 통해 하나의 확률변수에 대한 확률함수를 구할 수 있는데, 이를 주변확률분포로 구할 수 있다. 즉, 두 개의 확률변수로 이루어진 결합확률분포를 또는 의 하나의 확률변수로 표현하는 것을 주변확률분포라고 한다.

그렇다면 왜 이러한 확률분포를 주변확률(marginal probablity)이라고 명명했을까?

marginal이란 단어의 사전적 의미는 '미미한, 중요하지 않은, 주변부의' 라는 의미를 가진다.

예를 들어, 두 확률변수 에 대한 결합확률분포 에서 에 대한 확률분포를 구하고자 한다면, 우리는 오로지 확률변수 에만 관심이 있고 확률변수 에 대해서는 관심을 가질 필요가 없게 된다. 따라서, 확률변수 를 중요하지 않은 변수로 취급(marginalize)하기 때문에 이러한 이름을 붙이지 않았나 추측된다.


2.4.1 주변확률질량함수

두 확률변수 가 이산확률변수일 때에는 주변확률질량함수를 다음과 같이 나타낼 수 있다.

  • 에 대한 주변확률질량함수(Marginal PMF)

  • 에 대한 주변확률질량함수(Marginal PMF)


2.4.2 주변확률밀도함수

두 확률변수 가 연속확률변수일 때에는 주변확률밀도함수를 다음과 같이 나타낼 수 있다.

  • 에 대한 주변확률밀도함수(Marginal PDF)

  • 에 대한 주변확률밀도함수


2.5 조건부확률분포

조건부확률분포(conditional probability distribution)는 두 개의 확률변수(또는 사건) 에 대하여 결합확률분포와 주변확률분포를 이용해 다음과 같이 구할 수 있다.


2.5.1 조건부확률질량함수

두 확률변수 가 이산확률변수일 때에는 조건부확률질량함수를 다음과 같이 나타낼 수 있다.

  • 의 조건부확률분포를 구할 때 확률변수 는 특정한 값(사전에 알고 있는 값)으로 주어진다.

  • 마찬가지로, 의 조건부확률분포를 구할 때 확률변수 는 특정한 값(사전에 알고 있는 값)으로 주어진다.


2.5.2 조건부확률밀도함수

두 확률변수 가 연속확률변수이고 , 라고 한다면, 조건부확률질량함수를 다음과 같이 나타낼 수 있다.

조건부확률밀도함수를 그래프로 살펴보면 아래와 같으며, 왼쪽의 그래프는 확률변수