데이터를 살펴보면,
등수와 같이 순서를 나타내는 자료이거나,
키와 몸무게와 같이 연속적인 자료이거나,
몇 개의 범주로 구분된 자료인 경우가 많습니다.
순서형 변수간 분석에는 주로 켄달의 타우, 스피어만 순위상관계수가 활용되며,
연속형 변수간 분석에는 상관계수가 주로 활용되며,
범주형 변수간 분석에는 카이제곱 검정통계량을 활용합니다.
카이제곱검정은 범주별로 분류된 교차표가 주어지기 때문에
교차분석으로 통하기도 합니다.
두 범주형 변수가 서로 차이가 있는지,
서로 차이가 없어 비율이 같은지 검정하는 경우에는
카이제곱 동일성 검정(Chi-Square Homogeneity Test)을 통해 데이터를 분석합니다.
카이제곱 독립성 검정과 같이
교차표를 통해 분석하며,
검정통계량과 자유도가 일치하므로
실제 분석에서 두 검정은 자주 혼용됩니다.
다만 독립성 검정과 동일성 검정은
가설을 설정하고 결과를 해석하는 방법은 다릅니다.
예제를 통해 카이제곱 동일성 검정을
단계적으로 분석해보도록 하겠습니다.
<카이제곱검정 1단계> 교차표 작성
통계초등학교 학생 100명을 임의로 추출하며,
회장후보에 대한 지지도를 조사하였습니다.
학년은 저학년, 고학년으로 범주를 나누었으며,
회장후보에는 A, B, C 세 명이 출마하였습니다.

각 행과 열의 합계를 구하도록 하겠습니다.
카이제곱 검정통계량 계산시에 합계까지 포함되어 계산되지 않도록,
파일명을 복사 후 교차표를 완성하면 다음과 같습니다.

<카이제곱검정 2단계> 귀무가설과 대립가설 설정
기존에는 변수간 차이가 없다고 생각되었으나,
차이가 있다는 새로운 주장을 한다면,
기존의 주장과는 대립되므로 대립가설이라고 합니다.
만약 대립가설이 타당하지 않다면,
기존의 주장으로 돌아가게 되므로, 기존의 주장을 귀무(歸無)가설이라고 합니다.
돌아갈 귀(歸)와 없을 무(無)의 귀무이며,
돌아가서 보니 변한 건 없다는 의미입니다.
예제의 귀무가설은 다음과 같습니다.
학년에 따라 세 후보를 지지하는 비율이 같다.
즉, 학년에 따라 세 후보 지지도는 차이가 없다.
예제의 대립가설은 다음과 같습니다.
학년에 따라 세 후보를 지지하는 비율은 같지 않다.
즉, 학년에 따라 세 후보 지지도는 차이가 있다.
<카이제곱검정 3단계> 유의수준 설정
일반적으로 발생할 확률이 5%도 채 되지 않는다면,
통계적으로는 발생할 확률이 없다고 판단합니다.
이때 기준이 되는 확률이 바로 유의수준입니다.
만약 학년과 각 후보에 대한 지지도가 차이가 없다고 가정한
카이제곱 검정통계량이 오른쪽 극단의 5% 이내의 구간에 포함된다면,
기존가설(귀무가설)을 받아들이지 않기로 하겠습니다.
우리는 현재 학년별 각 후보의 지지도에 차이가 있는지 여부를 판단하는 중이며,
차이가 없다고 가정한 귀무가설의 발생확률이 5%도 되지 않는다면,
기존가설을 받아들이지 않는 것이 타당하기 때문입니다.
<카이제곱검정 4단계> 검정통계량 설정
범주별로 차이가 있는지 여부를 검정하고 있으므로,
검정통계량은 카이제곱 검정통계량을 사용합니다.
자유도에 따라 달라지는 카이제곱분포의 개형은 다음과 같습니다.

예제에서의 자유도 2는 저학년, 고학년 두(2) 종류에서 1을 뺀 1과,
만족, 일부 만족, 불만족 세(3) 종류에서 1을 뺀 2를 곱하여 구합니다.
자유도에 대해서는
다음 글을 참조 부탁드립니다.
[python/파이썬] 카이제곱분포로 가는 표본분산 분포의 평균
카이제곱분포, t분포, F분포는 모두 일정한 규칙에 따라 검정을 하기 위한 확률분포입니다. 통계적 가설을 검정하고, 검증된 가설은 통계적으로 유의미한 가설이 되며, 진리에 다가가기 위한 열
gilber.tistory.com
카이제곱분포와 관련해서는
다음 글을 참조 부탁드립니다.
[python/파이썬] 카이제곱분포
카이제곱분포, t분포, F분포는 모두 일정한 규칙에 따라 검정을 하기 위한 확률분포입니다. 통계적 가설을 검정하고, 검증된 가설은 통계적으로 유의미한 가설이 되며, 진리에 다가가기 위한 열
gilber.tistory.com
오른쪽 극단의 5%에 해당하는 카이제곱 검정통계량 값은 다음과 같습니다.

카이제곱분포의 그래프로 표현하면 다음과 같습니다.

<카이제곱검정 5단계> 각 범주별 기대도수 계산

기대도수는 각 범주별로 기대되는 값을 뜻하며,
저학년-A후보 범주의 기대도수는 다음과 같습니다.

저학년-B후보 범주의 기대도수는 다음과 같습니다.

같은 방식으로 모든 기대도수를 구하면 다음과 같습니다.

<카이제곱검정 6단계> 검정통계량 계산

카이제곱 검정통계량은 다음과 같습니다.

파이썬을 활용해 카이제곱 검정통계량을 직접 계산하여도 결과는 같습니다.

scipy의 chi_contingency를 활용해도 결과는 같습니다.

<카이제곱검정 7단계> 통계적 판단
우리는 기준으로 삼은 검정통계량이
5.99146454710797보다 큰 구간에 속한다면,
기존 귀무가설을 받아들이지 않기로 하였습니다.
검정통계량이 약 4.38이고, 이는
5.99146454710797보다 작은 구간에 속하므로
학년과 후보별 지지도는 차이가 없다는
기존 귀무가설을 기각할 수 없습니다.
가설의 기각여부는 귀무가설을 중심으로 표현하지만,
결론은 대립가설을 기준으로 표현합니다.
따라서 이번 예제의 결론은 다음과 같습니다.
유의수준 5%에서 검정결과,
학년에 따라 세 후보에 대한 지지하는 비율이 같지 않다는
대립가설을 기각합니다.
즉, 표본에서
저학년이 상대적으로 A후보에 대한 지지가 높고,
고학년은 저학년의 지지도와 다른 양상을 보이는 측면이 있으나,
통계적으로는 학년과 각 후보에 대한 지지도는
서로 차이가 없다고 볼 수 있습니다.
'순서형, 연속형, 범주형 변수간 분석 > 범주형 변수간 분석' 카테고리의 다른 글
[python/파이썬] 범주형 변수의 관측값 간 차이를 보여주는 카이제곱 적합성 검정 (1) | 2023.02.26 |
---|---|
[python/파이썬] 두 범주형 변수간 연관성을 보여주는 카이제곱 독립성 검정 (0) | 2023.02.26 |