기초통계/산포도

[python/파이썬] 산포도로서 범위 및 사분위범위

gilber 2022. 12. 30. 16:23
728x90

데이터의 대푯값은 데이터를 하나의 특정수로 표현할 수 있다는 점에서 유용합니다. 

다만 대푯값만으로 데이터를 접근하기에는 부족합니다. 

 

예를 들어 데이터가 평균 주위에 몰려있는 경우라면, 

평균을 대푯값으로 정하여 데이터를 파악할 수 있습니다. 

그러나 데이터 평균 주위에는 데이터가 없고, 

단순히 최댓값과 최솟값 주위에 데이터가 몰려있고,

이 값들을 단순 평균하여 나온 평균은 그 데이터를 대표한다고 보기 어렵습니다. 

 

그래서 산포도를 활용합니다. 

산포도란 개별 관측값들이 대푯값으로부터 흩어진 정도를 보여주며,

대푯값만으로는 부족한 데이터를 보다 잘 이해할 수 있도록 돕습니다. 

 

산포도에는 범위, 사분위범위, 평균편차, 사분편차, 분산, 표준편차 등이 있습니다. 

 

산포도를 통해 서로 다른 데이터들을 비교하는 경우, 

단위나 기준이 다르면 비교하기 어렵습니다. 

 

이때 상대적인 산포도인 사분위편차계수, 평균편차계수, 변동계수 등을 활용합니다. 

상대적 산포도는 모두 중앙값이나 평균으로 나누어 계수를 구하며,

이를 통해 단위나 기준을 상쇄하므로, 비교가 용이합니다.

 

 

범위(Range)

범위는 최댓값에서 최솟값을 뺀 값입니다.

위의 자료에서 최댓값은 max함수를 통해 구하며, 

최솟값은 min함수를 통해 구합니다. 

범위는 이 두 값의 차이입니다. 

 

 

사분위범위(IQR ; Interquartile Range)

사분위범위는 제3사분위수에서 제1사분위수를 뺀 값입니다.

 

사분위수는 데이터를 줄을 세우고, 4등분하여 구합니다. 

100명이 줄을 서있으면, 25번째 사람이 1사분위이며, 

50번째 사람이 2사분위이며, 75번째 사람이 3사분위입니다.

사분위수들은 numpy의 quantile 함수를 사용하며, 

1사분위수는 인수를 0.25 입력하며 구합니다. 

같은 방식으로 2사분위수는 0.50, 3사분위수는 0.75입니다. 

 

사분위범위는 제3사분위수에서 제1사분위수를 빼서 구하므로, 아래와 같습니다.

이 의미는 data의 평균이 25이므로,

이 데이터는 평균으로부터 15가 적거나 15가 많은 값들 사이에 분포하고 있다는 의미입니다.

즉, 25에서 15를 뺀 10과, 25에서 15를 더한 40 사이에 값들이 집중되어 있다는 의미입니다.

 

이를 통해 대푯값인 평균과 더불어 산포도를 파악하여,

대푯값만으로 알 수 없었던 데이터의 특성을 이해할 수 있습니다.

반응형