기초통계/산포도

[python/파이썬] 산포도로서 평균편차

gilber 2022. 12. 30. 22:51
728x90

데이터의 대푯값은 데이터를 하나의 특정수로 표현할 수 있다는 점에서 유용합니다.

다만 대푯값만으로 데이터를 접근하기에는 부족합니다. 

 

예를 들어 데이터가 평균 주위에 몰려있는 경우라면, 

평균을 대푯값으로 정하여 데이터를 파악할 수 있습니다. 

그러나 데이터 평균 주위에는 데이터가 없고, 

단순히 최댓값과 최솟값 주위에 데이터가 몰려있고,

이 값들을 단순 평균하여 나온 평균은 그 데이터를 대표한다고 보기 어렵습니다. 

 

그래서 산포도를 활용합니다. 

산포도란 개별 관측값들이 대푯값으로부터 흩어진 정도를 보여주며,

대푯값만으로는 부족한 데이터를 보다 잘 이해할 수 있도록 돕습니다. 

 

산포도에는 범위, 사분위범위, 평균편차, 사분편차, 분산, 표준편차 등이 있습니다. 

 

산포도를 통해 서로 다른 데이터들을 비교하는 경우, 

단위나 기준이 다르면 비교하기 어렵습니다. 

 

이때 상대적인 산포도인 사분위편차계수, 평균편차계수, 변동계수 등을 활용합니다. 

상대적 산포도는 모두 중앙값이나 평균으로 나누어 계수를 구하며,

이를 통해 단위나 기준을 상쇄하므로, 비교가 용이합니다.

 

 

평균편차(MD ; Mean Deviation)

편차는 각각의 데이터에서 평균을 뺀 것을 뜻합니다. 

이 편차들을 모두 더하면 합이 0이 되므로, 산포도를 파악하는데 도움이 되지 않습니다.

그래서 각각의 편차에 절댓값을 모두 더한 후 평균을 구한 값이 평균편차입니다.

numpy의 mean 함수를 이용하여 평균을 구합니다.

각각의 편차의 절대값은 abs함수를 이용합니다.

예를 들어, 10에 대한 편차의 절댓값은 10에서 평균인 25를 뺀 후 -15에 대해 절댓값을 취하면 15가 됩니다.

데이터마다 편차를 각각 구하는 것은 번거롭기 때문에 for문을 활용합니다. 

각각의 편차들을 deviation에 담기위해 deviation = [ ]을 만듭니다. 

절댓값을 취한 후 구해진 편차들을 하나씩 deviation에 담기 위해 append 함수를 활용합니다. 

최종적으로 deviation에 대한 평균을 구하면, 평균편차를 구할 수 있습니다.

 

평균편차는 절대값을 활용하므로 절대평균편차라고도 합니다. 

절댓값을 활용한 계산은 미적분에 대한 계산이 쉽지 않아서,

표준편차에 비해서 자주 활용되지는 않습니다. 

 

하지만 이를 통해 대푯값인 평균과 더불어 산포도를 파악하여,

대푯값만으로 알 수 없었던 데이터의 특성을 이해할 수 있습니다.

반응형