728x90

전체 데이터를 대표적인 하나의 값으로 표현하는 값을 대푯값이라고 합니다.

 

대푯값에는 계산을 통해 결정하는 산술평균, 기하평균, 조화평균, 평방평균, 가중평균, 절사평균 등이 있습니다. 

 

계산을 통하지 않는 대푯값으로는 위치에 따라 대푯값으로 의미를 부여하는 중위수, 최빈수 등이 있습니다. 

 

 

최빈수(Mode)

최빈수는 데이터 중에서 가장 빈도가 높은 값을 뜻합니다.

위 데이터에서 가장 빈도수가 높은 값은 30입니다. 

지금은 데이터 개수가 많지 않아 바로 확인이 가능하지만, 

데이터 개수가 많은 경우는 value_counts를 사용합니다.

가로로 줄 세워진 데이터를, 세로로 나열하여 비교하기 위해 pandas의 Series를 활용합니다. 

위에서 아래로 나열 후에 value_counts를 활용하여 각 데이터별로 개수를 확인하여 최빈수를 확인합니다.

 

 

간단하게 최빈수만 확인하기 위해서는 statistics의 mode를 활용합니다.

최빈수는 계산을 통하지 않고, 각 데이터의 빈도수에 기반하여 사용하는 대푯값입니다. 

계산을 통한 대표값은 일반적으로 산술평균이 활용되지만, 

산술평균은 극단적인 값인 이상치의 영향을 많이 받습니다.

 

따라서 데이터가 이상치의 영향을 많이 받고,

특정 빈도수가 데이터를 대표할 수 있을 정도로 빈도수가 높다면, 

최빈수를 대푯값으로 활용합니다.

반응형

+ Recent posts