728x90

데이터를 살펴보면 자료값들이 키와 몸무게와 같이 연속적인 데이터가 있습니다.

자료값들이 165, 170, 175, 180, 185와 같이 떨어져 있는 것으로 보이지만, 

실제 데이터에 들어갈 수 있는 자료는 165.000000001도 가능하며, 

연속적으로 어떤 숫자라도 들어갈 수 있기 때문에 연속형 변수라고 합니다. 

 

모든 자료값이 연속적이라고 생각될 수 있으나,

초등학교 학년과 같이 순서를 나타내는 자료값도 있으며,

남녀와 같이 연속적이지도 않고, 순서를 의미하지도 않는 자료값도 있습니다.

 

연속형 변수는 키와 몸무게의 예시처럼 서로 연관성을 지닐 수도 있습니다. 

이때 두 연속형 변수 사이의 연관성이 있는 정도를 보여주는 것이 공분산과 상관계수입니다.

 

상관계수(Correlation Coefficient)

공분산은 측정하는 단위의 영향을 많이 받으므로,

공분산을 통해서는 어느 정도 연관성이 있는지 파악하기가 어렵습니다. 

그래서 공분산을 각 분산의 표준편차로 나눈 상관계수를 활용합니다.

 

상관계수에는 전체로부터 산출된 상관계수인 모상관계수와,

표본으로부터 산출된 상관계수인 표본상관계수가 있으며,

표본상관계수는 통계학자 칼 피어슨의 이름을 따서 피어슨상관계수라고도 합니다.

 

상관계수는 다음과 같이 구합니다.

식의 기본적인 구조는 공분산을 첫 번째 변수의 표준편차와 두 번째 변수의 표준편차로 나누는 구조입니다.

 

상관계수의 분자는 공분산의 식에서 분자와 동일합니다.

상관계수의 분모도 표준편차의 식에서 분자와 동일합니다.

 

공분산의 분모는 데이터의 개수에서 1을 뺀 수이며,

표준편차의 분모도 표본의 표준편차를 활용하는 경우에도 데이터의 개수에서 1을 뺀 수입니다.

모두 데이터의 개수에서 1을 뺀 수로 나누어주므로 ,

공분산과 표준편차의 분모의 형태는 상관계수에는 나타나지 않습니다.

 

다만 참고로 표준편차가 전체 집단(모집단)의 편차를 활용하는 경우는 데이터의 개수로 나누어집니다. 

파이썬에서 표준편차를 구하는 numpy의 std함수는 기본적으로 전체집단의 편차를 가정하므로,

데이터의 개수에서 1을 빼지 않은 분모를 활용하므로,

상관계수를 numpy의 std함수로 구할 때에는 별도로 ddof의 인자를 지정해주어야 합니다.

표준편차가 모집단의 편차를 활용하는 경우입니다.

표준편차가 표본의 편차를 활용하는 경우입니다.

ddof는 분모를 데이터의 개수가 아니라 데이터의 개수에서 1을 뺀 숫자로 나누라는 의미입니다.

모두 더해준 수를 데이터의 개수에서 1을 뺀 숫자로 나눠서 구합니다.

데이터의 개수가 아니라, 데이터의 개수에서 1을 뺀 숫자로 나눠주는 이유는,

위의 데이터와 같이 5개의 값이 있고, 그 평균을 알고 있다면, 

4개의 값이 정해지는 순간 나머지 1개의 값은 확정이 되기 때문입니다.

 

실제 수학적으로는,

샘플을 뽑은 표본의 분산이라, 전체의 분산과는 다를 가능성이 있지만,

표본의 분산(표본분산)에서 기대되는 값이 전체의 분산(모분산)과 같도록 하려면

데이터의 개수에서 1을 뺀 숫자로 나눠야 같아지게 됩니다.

 

수식을 이해하기 위해 직접적인 방식으로 상관계수를 구하겠습니다.

보다 간단한 조건식을 통해 상관계수를 구하겠습니다.

numpy의 corrcoef를 활용한 상관계수이며, 결과는 동일합니다.

scipy의 pearsonr을 활용한 상관계수이며, 결과는 동일합니다.

참고로 pearsonr의 결괏값 중 첫번째는 상관계수이며, 

두번째는 p-value로서 첫번째 상관계수가 통계적으로 의미 있는 수준인지 판별하는 기준이 됩니다. 

일반적으로 0.05 이상인 경우는 상관계수가 0으로 판단되어, 통계적으로 의미 있는 수치로 여겨지지 않으나,

본문은 상관계수의 측정방법에 관한 글이므로, 해당 내용은 참고용으로 게시합니다.

 

 

공분산과 달리 상관계수는 단위의 영향을 받지 않기 때문에,

-1과 1 사이에서 두 변수의 연관성의 정도를 객관적으로 비교하도록 돕습니다.

 

공분산과 상관계수 모두 두 변수의 연관관계를 파악하기 위한 도구이나,

그래프를 그렸을 때 직선적인 관계에 한하여 그 정도를 보여주며,

두 변수 간의 관계가 직선이 아닌 경우에는 활용할 수 없으므로 주의해야 합니다.

 

그리고 상관관계가 높은 경우에 이를 인과관계가 있다고 해석해서는 안되며,

데이터를 탐색적으로 살펴보는 단계에서 살펴볼 가치가 있는 통계량입니다.

반응형

+ Recent posts