728x90

전체 데이터를 대표적인 하나의 값으로 표현하는 값을 대푯값이라고 합니다.

 

대푯값에는 계산을 통해 결정하는 산술평균, 기하평균, 조화평균, 평방평균, 가중평균, 절사평균 등이 있습니다. 

 

계산을 통하지 않는 대푯값으로는 위치에 따라 대푯값으로 의미를 부여하는 중위수, 최빈수 등이 있습니다. 

 

 

절사평균(Trimmed Mean)

데이터 중 극단적인 이상치가 존재하는 경우에 일반적인 산술평균은 이상치의 영향을 받습니다. 

절사평균은 데이터 중 극단적인 최소값, 최대값을 잘라내고, 즉 절사 후 평균을 구합니다 .

최소값, 최대값이 아니더라도 일정비율을 잘라내고, 즉 절사 후 평균을 구하기도 합니다. 

 

25% 절사평균이면 상위 25%와 하위 25%에 위치한 모든 값들을 삭제 후 산술평균을 구합니다.

 

위 데이터에서 상위 25%에 해당하는 값은 40이며, 하위 25%에 해당하는 값은 10입니다. 

이 두 값을 삭제한 후 데이터는 20과 30이 남고, 이 값들에 대한 산술평균을 구하면 절사평균이 됩니다.

자료가 많은 경우는 quantile 메서드를 사용합니다. 

이를 위해 우선 pandas의 Series를 활용합니다.

Series로 변경하게 되면, 번호를 붙여 세로로, 즉 위에서 아래로 정렬하게 됩니다.

Series가 되면 작은 수부터 아래로 정렬됩니다.

그래서 quantile의 인수가 0.25이면 최소값부터 시작하여  25%에 해당하는 값을 알려줍니다.

quantile의 인수가 0.75이면 최대값에서 시작하여 25%에 해당하는 값을 알려줍니다.

조건식을 활용하여 절사평균을  할 데이터를 구합니다. 

 

scipy의 trim_mean을 활용하여 절사평균을 구할 수도 있습니다.

trim_mean의 첫번째 인수에는 리스트 명을 입력하고,

상위, 하위의 25%에 해당하는 값을 절사하기 위해서 두번째  인수에는 0.25를 입력합니다.

 

절사평균은 데이터에 이상치에서 일정부분 데이터를 제거하여 이상치의 영향을 최소화하는 장점이 있지만,

필연적으로 데이터 소실이 발생하므로, 이상치 제거 전 이상치에 대한 면밀한 검토 후,

대푯값으로 사용합니다.

반응형

+ Recent posts