2016년 2월 12일 금요일

아빠가 들려 주는 [통계] Regression과 ANCOVA의 만남(3)

아빠가 들려 주는 [통계] Regression과  ANCOVA의 만남(3)





오늘은 세번째 이야기이면서, 마지막 이야기이군요.
오늘 이야기는 제가 쓴 "dBSTAT 길들이기"에 나온 내용을 가급적 그대로 붙여 넣겠습니다.

dBSTAT 에서는 공변량으로 하나만 선택할 수 있습니다. 이론적으로는 여러 개를 선택할
수 있고 SPSS에서는 여러 개 선택이 가능합니다. 그러나 실제적으로 대부분 경우 하나 또
는 둘 정도의 공변량만 사용하기를 권하게 되는데, 공변량을 사용하면 error variance를 줄
여서 power를 증가시키지만, 동시에 자유도를 감소시킵니다. 만약 별로 영향을 미치지 않
는 공변량을 추가 하게 된다면, 오히려 power를 감소시키게 됩니다.

(위키피디아에 나온 내용을 그대로 인용해 보겠습니다. Whi le the inclusion of a covariate
into an ANOVA generally increases statistical power by accounting for some of the
variance in the dependent variable and thus increasing the ratio of variance explained
by the independent variables, adding a covariate into ANOVA also reduces the degrees
of freedom. Accordingly, adding a covariate which accounts for very l ittle variance in
the dependent variable might actual ly reduce power.)



기본적으로 ANCOVA는 다섯가지 기본 가정이 있습니다.

1: Normality of Residuals 잔차의 정규성 ANOVA도 그렇지요. 잔차도를 보고 평가할 수 있지요.
2: Homogeneity of Variances 등분산성
3:   Homogeneity of Regression Slopes 위의 그림에서 보는 것처럼 기울기가 같아서 평행해야
합니다. 교차하고 역방향이 될 때는 상호작용이 있는 것이지요.
4:   Linearity of Regression 공변량과 종속변수는 선형성이 있어야 합니다. 그래프로 확인할 수
있습니다. 전혀 둘 사이에 관계가 없다면, (완전히 독립적이라면) 공변량으로 넣을 필요가 없죠,
영향을 미치지 않으니까요
5: Independence of Error terms

사실 이건 ANOVA와 모든 것이 겹칩니다. 4번만 빼고요. 4번의 다중회귀분석에서 나왔던 내용이죠.
그리고, 1번부터, 5번까지는 모두 회귀분석에서 보았던 가정입니다.


The third issue, concerning the homogeneity of different treatment regression slopes
is particularly important in evaluating the appropriateness of ANCOVA model. Also
note that we only need the error terms to be normally distributed. In fact both the
independent variable and the concomitant variables will not be normal ly distributed in
most cases.
위키피디아에 이런 내용이 있습니다. 참고가 될 것 같습니다.
위의 가정 중에서 회귀선들이 평행해야 한다는 것은 그림으로도 볼 수 있지만, 상호작용
(interaction)이 있는지 점검하기 위해서 종속변수와 교란변수의 곱을 활용하여 시행해 볼
수 있습니다. 이것은 마치 회귀분석에서 상호작용이 있는지 알아 보는 것과 같습니다.

중략
~~~~~~~~~~~

한편 ANCOVA는 사실상 회귀분석의 하나로도 볼 수 있고, 회귀분석에 포함된
다고도 할 수 있습니다.
아니 좀더 포괄적으로 t-test도 포함된다고 할 수도 있습니다. 그래서 어떤 통
계 강좌를 보면 ANCOVA를 회귀분석과 같이 넣어 두기도 하고, 인터넷에 검
색해 보면, ‘ANCOVA vs 회귀분석’ 또는 ‘ANCOVA와 회귀분석은 어떻게 다른
가’ 뭐 이런 내용의 글을 검색할 수도 있습니다.
이론적인 면은 다른 책에서 좀더 다루기로 하구요. 일단 ANCOVA에서는 다중
검정이 불가하며, 여러 공변량을 처리하기 어려우므로 회귀분석을 고려해 볼
수 있다고 알아두시면 좋습니다.

중략~~~~~~~~~~
여기에 지난번 http://blog.naver.com/kjhnav/220625011503     의 내용이 들어 있습니다.
중략~~~~~~~~~~~~~


자 그러면 이제 가닥이 잡히는군요. ANCOVA와 다중 회귀분석은 매우 밀접한
관련이 있으며, ANCOVA에서 구한 adjusted 된 평균은 회귀분석에서도 구할
수 있음을 알 수 있습니다. 아울러 ANCOVA에서의 사후검정을 회귀분석으로
대신할 수도 있지요.
ANCOVA는 명목변수인 하나의 변수의 관점에서 다른 변수들을 교란변수로
간주하여 처리하지만, 다중 회귀분석은 모든 변수를 독립변수로 간주하므로
결과적으로 더 많은 변수를 처리할 수 있게 됩니다.

MedCalc에서의 경우 ANCOVA는 ANOVA 아래에 있어서 이름도 비슷하고 메뉴
도 비슷하고 찾아 가기 편리하게 되어 있습니다. dBSTAT와도 비슷한 구성입니다.

SPSS의 경우에는 ANOVA는 평균비교 아래에 있고, ANCOVA는 아예 메뉴가 없
습니다. 대신 General Linear Model 메뉴 아래에 univariate (단변량) 창을 연 다
음 어떻게 메뉴를 잘 설정하면 시행이 되는데, 그 결과에서도 ANCOVA라는 말
은 없습니다. 그냥 그렇게 하면 결과적으로 ANCOVA가 시행된다고 알면 됩니다.
“ANOVA SPSS”로 검색하면 여러 개가 나올 것입니다.
통계하는 사람에서의 관점이라기 보다는 프로그래머의 관점에서 또는 통계학자의
관점에서 만들어진 메뉴라고 생각되는 부분입니다.

Stata의 경우도 SPSS와 비슷하긴 하지만 약간 다른 것이 아예 ANOVA 등도 모
두 General Linear Model 아래에 들어와 있기 때문에 오히려 ANCOVA를 찾아
가기는 더 쉽습니다.
아예 regression 자체도 그 아래에 배치해 두었다는 점도 SPSS보다는 더
프로그램 위주의 배치라고 할 수 있습니다. 그러나, 그렇게 했기 때문에
regression, ANOVA, ANCOVA의 관계를 더 잘 알 수 있고, 쉽다는 생각도 듭
니다.

앞의 예에서 보았듯이 ANCOVA도 regression에서 구할 수 있다는 것을 알 수
있습니다. 또 MedCalc의 매뉴얼에 있는 문구를 주목해 볼 필요도 있습니다.
ANCOVA 는 General Linear Model (GLM)의 한 적용이기 때문에, covariates
를 넣지 않고, 하나의 factor(명목변수, 집단 변수를 말함)만 넣어 준다면 one-
way ANOVA로 바뀌게 됩니다.
또 covariates를 넣지 않고, 두 개의 factor(명목변수, 집단 변수를 말함)만 넣
어 준다면 two-way ANOVA로 바뀌게 됩니다.
factor(명목변수, 집단 변수를 말함)를 넣어 주지 않는다면 즉 다시 말해
covariates에 해당하는 것만 넣어 준다면 multiple regression으로 바뀌게 될
것입니다.

이 설명을 잘 생각해 보면, ANOVA와 ANCOVA와 regression이 모두 General
Linear Model (GLM)의 가지임을 알 수 있을 것입니다. 그렇기에 SPSS에는 아
예 ANCOVA의 메뉴가 없는 것도 이해될 수 있고, “한 눈에 쏙쏙 의학 통계 배
우기”에서 간략히 설명하면서 ‘ANOVA는 ANOVA와 회귀분석을 이어주는 중
간과정이다’라고 설명했던 이유도 알게 되실 것입니다. 또 일부 책이나 강의에
서 ANOVA를 ANOVA 배울 때 배우지 않고, 회귀분석과 같이 다루는지도 이해
될 것입니다.


그러기에 한편으로 이해는 되지만, 사용자의 입장에서 본다면 상당히 불편하
고 어려운 이야기가 됩니다. 이는 마치 서울에서 대중교통 검색하는데 버스,
마을 버스, 지하철, 택시 이렇게 인터넷 지도에서 검색되는데, 지하철은 기차
라고, 코레일에서 검색하라고 하는 것과도 비슷합니다.
그런 면에서 비모수 검정(nonparametric analysis)를 완전히 분리해서, 훨씬
아래쪽에 넣어 둔 SPSS와 Stata는 같은 개념을 가지고 있습니다. 지하철은 기
차니까 새마을호, KTX와 같이 다루어야 한다는 개념인 것이지요.

dBSTAT는
대중교통의 범주에 지하철이 있듯이 즉 마을 버스, 버스, 지하철을 한 범주에
묶듯이 배치되어 있어서 Kruskal-Wal l is test와 ANOVA와 ANCOVA 등이 비슷
하게 묶여져 있습니다.

~~~~~~~~~~~~~~~~~~~
정리하면서,
ANCOVA는 그리 강조할 것도, 또는 아주 독특한 것도 아닌
그런 분석이며 이해하기 어려운 것도 아닌 분석방법입니다.
함부로 사용해서도 안되겠지만, 그렇다고 regression보다 더 복잡한 가정이
필요한 것도 아닙니다.
다만 추천한다면, RCT 정도에서 미리 연구계획서에 써두고 사용할법한
정도의 방법입니다.

한편 ANCOVA를 다루는 통계 프로그램들을 관찰하면서,
어떻게 하면 사용자 위주의
사용자가 이해하기 쉽게 직관적으로 프로그램이
만들어져야 할 것인지 생각하게 됩니다.

지금 한참 Web-R의 메뉴를 구성하면서 고민하고 있습니다.
사용자에게 편리한 프로그램이 되어야지,
기술자 위주의 학자 위주의 프로그램이 아니어야 한다고 생각됩니다.

통계도 공부하고 프로그램도 공부하는 것이 아니라,
통계를 알면 프로그램은 저절로 할 수 있게 되고,
메뉴를 보면 통계 공부가 되는 그런 통계 프로그램이 되도록 해야 겠습니다.

댓글 없음:

댓글 쓰기