아빠가 들려 주는 [통계] Regression과 t-test의 만남
Regression은 통계에 있어서 거의 만능입니다,
많은 통계를 그냥 품어 버렸습니다.
굳이 따로 배우긴 했지만, t-test를 품어 버렸습니다.
통계 강의 시간에는 이것에 대해서는 별로 이야기하지 않는다.
전공자들은 당연히 알고 있는 내용이지만,
괜히 이야기해서 복잡해질까봐 안하는 것이겠죠.
SAS나 R이나 Stata를 사용하면 거의 저절로 알게 되는 이야기라고 할 수 있습니다.
그 이야기는 나중에 하겠습니다.
이 이야기는 “한눈에 쏙쏙 의학 통계 배우기 104, 105쪽"에서 잠깐 설명한 적이 있었던
이야기를 자세히 하려고 하는 것입니다.
즉, ‘t-test가 regression의 특수한 형태이다’라는 이야기......
regression은 원래 다양한 독립변수를 취할 수 있지만,
단 하나의 독립변수, 그것도 더미변수화된 명목변수라면 결국 t-test와 같은 결과가 됩니다.
예를 들어서 설명하면 이해하기 좋을 것입니다.
이렇게 두 개의 그룹이 있습니다.
두 그룹은 각각 10마리의 코끼리에게 어떤 처치를 하고 혈압(BP)를 잰 것입니다.
(어짜피 코끼리로 실험할 일이 없을 것같아서 그냥 상상해 보았습니다.
그러므로 저 자료값은 전혀 현실과 무관합니다.)
그래프를 보니, ‘0그룹’의 BP는 ‘1그룹’의 BP보다 약간 높아 보입니다.
과연 그러할까? T-test를 해 보았습니다.
엑셀에서 기본적으로 제공하는 t-test를 사용해 봅시다.
엑셀에서 기본적으로 제공하는 이 기능을 모르는 사람은 다음에 올릴 글들를 참고하세요.
오늘은 그 주제가 아니라서 생략하겠습니다.
‘0그룹’과 ‘1그룹’의 평균과 분산, 그리고 p값을 유의해서 봅시다.
노란색으로 강조하였습니다. 원래는 노란색이 없죠.
회귀분석의 결과도 보겠습니다.
노란 표시는 역시 제가 표시한 것입니다.
우선 p값이 0.005259로 동일하다는 것이 관찰됩니까?
우선 Y절편의 값 168은 ‘0그룹’의 평균과도 같습니다!
그리고, t-test에서 ‘1그룹’의 평균인 151.4 는
Y절편과 X1의 계수를 합한 것입니다.
즉,
151.4 =168-16.6
입니다. 놀랍습니까?
그래프로 살펴 보면 사실 그리 놀랍지 않습니다.
이렇게 회귀분석을 하고, 회귀직선을 구했습니다.
Y축 절편 즉 X=0일 때는 168이 됩니다.
이것은 y축에 있는 점들의 평균이 되지요.
그리고, x=1일 때의 점들의 평균은 ‘1그룹’의 평균이 됩니다.
즉, 저 회귀직신이 ‘0그룹’과 ‘1그룹’의 평균을 각각 지나게 되도록 되어 있으며,
그것이 회귀직선의 특징입니다.
이 글에서, 우리는 t-test가 regression으로 구해 진다는 것을 알았습니다.
다음 글에서는 ANCOVA가 regression으로 구해진다는 것을 배워 보겠습니다.