EXCELSIOR

Chap01 - 기술 통계학 (Descriptive statistics) 본문

Statistics/통계학 기초

Chap01 - 기술 통계학 (Descriptive statistics)

Excelsior-JH 2019. 1. 7. 16:58

Chap01 - 기술 통계학 (Descriptive statistics)


기술통계학(Descriptive statistics)는 데이터를 정리하여 그림이나 표로 요약하거나 데이터의 수치값을 요약한 대표값 그리고 데이터의 흩어진 형태(분포)와 변동 등을 구하는 통계학이다. 이번 포스팅에서는 기술 통계학에 대해 알아보도록 하자.


1. 여러 가지 평균

평균은 데이터의 중심적인 값을 나타낸다.


산술평균(arithmetic mean)

흔히 우리가 '평균'이라고 하는 것을 말한다. 산술평균을 구하는 방법은 데이터의 총합을 데이터 전체 개수로 나눈 것이며, (산술)평균에서 벗어난 데이터의 영향을 크게 받는다. 개의 데이터 에 대한 산술평균을 구하는 식은 다음과 같다.



기하평균(geometric mean)

기하평균은 넓이, 부피, 비율 등 곱셈으로 이루어지는 값들의 평균을 구하는 데 주로 사용된다. 기하평균의 식은 다음과 같다.



예를 들어, 다음의 문제를 보자(출처: 수학 용어를 알면 개념이 보인다)

첫 번째 해에는 5%, 두 번째 해에는 10% 증가했다. 연 평균 증가율은?

연 평균 증가율을 이라 하면, 2년 연속 증가한 값과 5%, 10% 로 두 번 증가한 값이 같아야 한다.

따라서, 연 평균 증가율 이 된다.

이처럼, 곱의 평균을 기하 평균이라고 부르는 이유는 기하의 비례식에서 유래했기 때문이다. 예를 들어, 아래의 반원에서 직각 삼각형의 닮음식은 다음과 같다.



위 식에서 의 기하평균이다.

기하평균은 연 성장률이나 전년 대비 같은 수치의 평균을 구하는 데 적합하다.


조화평균(harmonic mean)

조화평균은 데이터의 역수의 산술평균의 역수이다. 데이터의 역수에 대해 산술평균을 구한 다음, 이 산술평균에 대해 다시 역수를 취하는 것이 바로 조화평균이다.



조화평균은 아래의 예제와 같이 일정한 거리를 이동할 때, 평균속도를 구하는 데 이용한다.

위의 그림에서 평균속력을 구하는 식은 다음과 같이 조화평균을 이용해 구할 수 있다.



산술 vs 기하 vs 조화 평균

아래의 식과 같이 산술평균 기하평균 조화평균 의 부등식 관계가 된다.




2. 데이터의 분산

  • 평균만으로는 데이터가 어떻게 흩어져 있는지 모른다.

  • 최대값, 최소값, 분위수(quartile) 사분위 범위, 분산(표준편차) 등의 지표를 이용하여 데이터의 흩어진 정도를 파악할 수 있다.


분위수 (Quantile)

개의 데이터를 오름차순으로 정렬하고, 그것을 등분 했을 때, 그 경계가 되는 수치를 분위수 라고 한다. 주로 사용되는 분위수는 사분위수(quartile)이며, 수치가 작은 쪽 부터 제 1사분위수(), 2 사분위수(), 3 사분위수()이라 한다. 특히, 제 2사분위수()는 전체 데이터의 중앙에 위치하기 때문에 중앙값(median)이라고 한다.



사분위 범위

위의 그림에서 볼 수 있듯이, 제 3사분위수()와 제 1사분위수()의 차이를 말한다. 데이터가 중앙값(median) 주위에 집중할수록 사분위 범위는 작아진다.


편차(Derivation)

데이터의 값과 평균값의 차를 편차라고 한다. 편차의 절대값이 큰 데이터가 많으면 분산 크기가 큰 데이터 셋이라 할 수 있다.



분산 (Variance) 과 표준편차(Standard deviation)

분산은 데이터가 평균값을 기준으로 주위에 얼마나 흩어져 있는지를 나타낸다. 위에서 살펴본 편차는 개별 데이터에 대해 계산되지만, 분산은 편차를 하나의 지표로 나타낸 것이라 할 수 있다. 분산을 구하는 식은 다음과 같다.



위의 식에서 분자에 해당하는 부분이 바로 편차의 제곱합이 된다. 그리고, 분산의 양의 제곱근인 표준편차(std, standard deviation)가 된다.


Tip

실무에서는 데이터 분석을 할 때, 평균을 바로 사용하는 것이 아니라 분산 또는 표준편차를 보고 평균이 중앙값(median)을 대변할 수 있는지 확인 (평균이 데이터의 중심적인 값을 나타내므로) 후에 사용해야 한다.

만약, 표준편차가 크고 중앙값과 평균의 차이가 클 경우 중앙값을 사용하거나 Outlier(이상치)를 제거 후 평균을 구해 사용한다.

- 데이터 사이언티스트 친구가 알려준 Tip -


변동계수 (CV, Coefficient of Variance)

변동계수는 다른 단위를 가진 데이터 그룹 간의 흩어진 정도를 비교하는 지표이며, 아래의 식과 같이 표준편차를 평균값으로 나눠 변동계수(CV)를 구한다.



아래의 예제는 두 데이터 간의 평균과 표준편차는 다르지만 변동계수는 동일한 경우를 나타낸 예제이다. 변동계수가 같기 때문에 흩어진 정도의 차이가 없다는 것을 알 수 있다.





3. 변수의 관련성 - 상관계수 (coefficient of correlation)

  • 키와 몸무게, 게임 시간과 성적 등 두 변수 사이에서 '한쪽이 증가하면 다른 쪽도 증가' 하거나 '한쪽이 증가하면 다른쪽이 감소'하는 관계를 상관(correlation)이라고 한다.

  • 상관계수 : 두 변수 간의 관련성(상관)이 얼마나 강한지를 나타내는 지표이며, 에 가까울 수록 양의 상관관계가 강하고, 에 가까울 수록 음의 상관관계가 강하다. 일 때는 관계가 없음을 의미한다.

  • 일반적으로, 상관계수는 피어슨(Pearson)의 적률상관계수(product moment correlation coefficient)를 말한다.


3.1 피어슨의 적률상관계수

직선적인 가정하에 두 변수 간의 상관 정도를 나타내는 가장 대표적인 지표이며, -1에서 1사이의 값()을 가진다. 변수 의 (피어슨) 상관계수는 아래의 식과 같이 계산한다.



  • 이 1에 가까울 경우 : 양의 상관(한쪽이 증가하면 다른 쪽도 증가하거나, 한쪽이 감소하면 다른쪽도 갑소)이 강해져 , 아래의 그림에서 처럼산포도상의 점은 오른쪽 위에 분포한다.

  • 이 -1에 가까울 경우 : 음의 상관(한쪽이 증가하면 다른쪽은 감소하거나, 한쪽이 감소하면 다른쪽은 증가)이 강해져, 산포도상의 점은 오른쪽 아래에 분포한다.

  • 이 0에 가까울 경우: 상관 없음(무상관)을 나타내고 산포도상의 점은 원을 그리듯 분포한다.



아래의 예제는 '사과 구입량( )'와 '귤 구입량( )'에 대한 (피어슨) 상관계수를 구하는 예제이다.




3.2 순위상관계수

  • 두 순서변수(ordinal variable) 간의 상관관계를 측정하는 지표이다.

  • 순위 데이터 밖에 사용할 수 없는 경우 또는 두 변수 간의 곡선을 띠는 경우에 순위상관계수를 사용한다.

  • 스피어만(Spearman)과 켄달(Kendall) 순위상관계수가 있는데, 어느 방식을 사용하는지에 대한 명확한 기준은 없다.


스피어만의 순위상관계수

순위 데이터에 대해 계산한 피어슨 상관계수가 바로 스피어만의 순위상관계수( )이다. 데이터가 연속변수(continuous variable)일 경우 먼저 순위 데이터로 변환해줘야 한다. 아래의 예제는 순위 데이터에 대해 스피어만 순위상관계수를 구하는 예제이다. 아래의 식에서 볼 수 있듯이 스피어만 순위상관계수를 구하는 식은 피어슨 상관계수를 구하는 식과 동일하다.




켄달의 순위상관계수

켄달의 순위상관계수()는 두 변수 에 대해 에 대한 순위와 에 대한 순위가 일치하는지에 따라 상관의 정도를 측정하는 지표이다. 예를 들어, '소비자1'에 대한 순위데이터()과 '소비자2'에 대한 순위데이터()에 대해 순위의 일치/불일치를 나타낸 것이다.

  • 이고, 또는 이고 일때 → 순위 일치

  • 이고, 또는 이고 일때 → 순위 불일치

켄달의 순위상관계수 를 구하는 식은 다음과 같다.


  • 는 '○'의 개수이고, 는 'x'의 개수, 그리고 은 데이터 쌍(pair)의 개수를 나타낸다.


아래의 예제는 순위데이터에 대해 켄달의 순위상관계수 를 구하는 예제이다. 순위가 일치하는 경우에는 '○' 을 불일치 하는 경우에는 'x'를 입력해줬다.





4. 정리

이번 포스팅에서는 데이터의 특징(평균과 분산)과 경향을 파악할 수 있는 기술통계학에 대해 알아보았다. 다음 포스팅에서는 확률분포에 대해 알아보도록 하자.

Comments