순서형, 연속형, 범주형 변수간 분석/범주형 변수간 분석

[python/파이썬] 두 범주형 변수간 연관성을 보여주는 카이제곱 독립성 검정

gilber 2023. 2. 26. 02:22
728x90

데이터를 살펴보면, 

등수와 같이 순서를 나타내는 자료이거나,

키와 몸무게와 같이 연속적인 자료이거나,

몇 개의 범주로 구분된 자료인 경우가 많습니다.

 

순서형 변수간 분석에는 주로 켄달의 타우, 스피어만 순위상관계수가 활용되며,

연속형 변수간 분석에는 상관계수가 주로 활용되며,

범주형 변수간 분석에는 카이제곱 검정통계량을 활용합니다. 

 

카이제곱검정은 범주별로 분류된 교차표가 주어지기 때문에

교차분석으로 통하기도 합니다.

 

두 범주형 변수가 서로 연관되어 종속적인지,

서로 연관이 없이 독립적인지 검정하는 경우에는

카이제곱 독립성 검정(Chi-Square Independence Test)을 통해 데이터를 분석합니다.

 

예제를 통해 카이제곱 독립성 검정을

단계적으로 분석해보도록 하겠습니다.

 

 

<카이제곱검정 1단계> 교차표 작성

통계초등학교 학생 100명을 임의로 추출하며,

학교생활에 대한 만족도를 조사하였습니다.

 

학년은 저학년, 고학년으로 범주를 나누었으며,

만족도는 만족, 일부 만족, 불만족으로 범주를 나누었습니다. 

각 행과 열의 합계를 구하도록 하겠습니다.

카이제곱 검정통계량 계산시에 합계까지 포함되어 계산되지 않도록,

파일명을 복사 후 교차표를 완성하면 다음과 같습니다.

 

<카이제곱검정 2단계> 귀무가설과 대립가설 설정

기존에는 변수간 연관성이 없다고 생각되었으나,

연관성이 있다는 새로운 주장을 한다면,

기존의 주장과는 대립되므로 대립가설이라고 합니다.

 

만약 대립가설이 타당하지 않다면,

기존의 주장으로 돌아가게 되므로, 기존의 주장을 귀무(歸無)가설이라고 합니다.

돌아갈 귀(歸)와 없을 무(無)의 귀무이며,

돌아가서 보니 변한 건 없다는 의미입니다.

 

예제의 귀무가설은 다음과 같습니다.

학년과 학교생활만족도는 서로 독립이다.

즉, 서로 연관성이 없다.

 

예제의 대립가설은 다음과 같습니다.

학년과 학교생활만족도는 서로 독립이 아니다.

즉, 서로 연관성이 있다.

 

 

<카이제곱검정 3단계> 유의수준 설정

일반적으로 발생할 확률이 5%도 채 되지 않는다면,

통계적으로는 발생할 확률이 없다고 판단합니다.

 

이때 기준이 되는 확률이 바로 유의수준입니다.

 

만약 학년과 학교생활만족도는 서로 연관성이 없다고 가정한

카이제곱 검정통계량이 오른쪽 극단의 5% 이내의 구간에 포함된다면,

기존가설(귀무가설)을 받아들이지 않기로 하겠습니다.

 

우리는 현재 학년과 학교생활만족도의 연관성 여부를 판단하는 중이며,

연관성이 없다고 가정한 귀무가설의 발생확률이 5%도 되지 않는다면,

기존가설을 받아들이지 않는 것이 타당하기 때문입니다.

 

 

<카이제곱검정 4단계> 검정통계량 설정

두 범주형 변수가 서로 독립인지 아닌지를 검정하고 있으므로,

검정통계량은 카이제곱 검정통계량을 사용합니다.

 

자유도에 따라 달라지는 카이제곱분포의 개형은  다음과 같습니다.

예제에서의 자유도 2는 저학년, 고학년 두(2) 종류에서 1을 뺀 1과,

만족, 일부 만족, 불만족 세(3) 종류에서 1을 뺀 2를 곱하여 구합니다.

 

자유도에 대해서는

다음 글을 참조 부탁드립니다.

https://gilber.tistory.com/39

 

[python/파이썬] 카이제곱분포로 가는 표본분산 분포의 평균

카이제곱분포, t분포, F분포는 모두 일정한 규칙에 따라 검정을 하기 위한 확률분포입니다. 통계적 가설을 검정하고, 검증된 가설은 통계적으로 유의미한 가설이 되며, 진리에 다가가기 위한 열

gilber.tistory.com

 

카이제곱분포와 관련해서는

다음 글을 참조 부탁드립니다.

https://gilber.tistory.com/41

 

[python/파이썬] 카이제곱분포

카이제곱분포, t분포, F분포는 모두 일정한 규칙에 따라 검정을 하기 위한 확률분포입니다. 통계적 가설을 검정하고, 검증된 가설은 통계적으로 유의미한 가설이 되며, 진리에 다가가기 위한 열

gilber.tistory.com

 

오른쪽 극단의 5%에 해당하는 카이제곱 검정통계량 값은 다음과 같습니다.

카이제곱분포의 그래프로 표현하면 다음과 같습니다.

 

 

<카이제곱검정 5단계> 각 범주별 기대도수 계산

기대도수는 각 범주별로 기대되는 값을 뜻하며,

저학년-만족 범주의 기대도수는 다음과 같습니다.

저학년-일부 만족 범주의 기대도수는 다음과 같습니다.

같은 방식으로 모든 기대도수를 구하면 다음과 같습니다.

 

<카이제곱검정 6단계> 검정통계량 계산

카이제곱 검정통계량은 다음과 같습니다.

파이썬을 활용해 카이제곱 검정통계량을 직접 계산하여도 결과는 같습니다.

scipy의 chi_contingency를 활용해도 결과는 같습니다.

 

<카이제곱검정 7단계> 통계적 판단

우리는 기준으로 삼은 검정통계량이

5.99146454710797보다 큰 구간에 속한다면,

기존 귀무가설을 받아들이지 않기로 하였습니다.

 

검정통계량이 약 4.38이고, 이는

5.99146454710797보다 작은 구간에  속하므로

학년과 학교생활만족도는 서로 독립이다는

기존 귀무가설을 기각할 수 없습니다.

 

가설의 기각여부는 귀무가설을 중심으로 표현하지만,

결론은 대립가설을 기준으로 표현합니다. 

 

따라서 이번 예제의 결론은 다음과 같습니다. 

 

유의수준 5%에서 검정결과,

통계초등학교의 학년과 학교생활만족도는 서로 독립이 아니다는

대립가설을 기각합니다.

 

즉, 표본에서

저학년이 상대적으로 학교생활만족도가 높고,

고학년이 상대적으로 학교생활만족도가 낮아 보이는 측면이 있으나, 

통계적으로는 학년과 학교생활만족도는

서로 연관성이 없다고 볼 수 있습니다.

반응형