2016년 2월 11일 목요일

아빠가 들려 주는 [통계] Regression과 ANCOVA의 만남(1)

아빠가 들려 주는 [통계] Regression과  ANCOVA의 만남(1)



우선 ANCOVA라는 것이 무엇인지 알아 보아야 겠습니다. 
이름도 범상치 않게 ANOVA와 비슷한 것같아 보이는 군요. 
Analysis of covariance (ANCOVA)라는 것은 인터넷 검색만 해도 다 나오는 것이니까, 
달리 설명하지 않겠습니다. 
전혀 통계학자 같이 않게 설명해 보려고 합니다. 

왜냐하면 통계적으로 설명하는 것은 이미 인터넷에 넘치니까요..

역시 예를 들어 설명하는 것이 좋겠군요. 

group1에 운동A를 group2에 운동 B시키고 나니, 혈압(BP)가 상승하였습니다. 
대충볼 때 파란색이 빨간색 보다 높다는 느낌이 듭니다. 
group1과 group2가 모두 동질하다면 '파란색이 더 높다'라고 생각하기 쉽지만, 
나이를 보니, 나이가 차이가 있는듯합니다. 즉 파란색이 나이가 더 많은 것같습니다.
혹시 혈압이 높은 것이 나이에 의한 차이는 아닐까요?

만일 나이를 동일하게 보정한다면 어떻게 결과가 나올까요?
이와같은 상황을 고려하여 나이를 수학적인 방법으로 보정할 수는 없을까요?

이런 필요에 의해서 나오는 것이 ANCOVA 입니다.

이때 혈압은 종속변수, 나이는 교란변수라고 부르지요. 혹시라도 종속변수에 영향을 줄 수도 있기 때문이죠. 

각각 dependent variable, confounding variable이라고 부릅니다.


인터넷에서 다운받은 엑셀 파일입니다. 
http://vassarstats.net/downloads2.html 에 있습니다. 
(굳이 다운받을 필요는 없습니다. 여러분의 통계 프로그램에 다 있습니다.)
총 10개의 집단, 각 집단에 1000개까지의 자료를 입력할 수 있습니다. 
각 집단에 이렇게 두개의 값을 복사해서 붙여 넣습니다. 


그러면 이렇게 결과가 나옵니다. 


좀 자세히 보기 위해 복사해서 새로운 엑셀파일에 붙여 넣으면서 유효숫자를 조금 길게 보이게 했고, 노란색으로 표시했습니다. 
위의 p는 ANCOVA의 결과로서 유의한 차이가 있다는 것을 보여 줍니다. 
아래의 p는 두 집단의 회귀선이 평행인가를 보는 p입니다. 평행이라고 보여 주는 군요. 
위에서 두번째 그림에서 평행처럼 보입니다. 

그 아래에 있는 것을 봅시다. observed와 adjusted라는 말이 나오는군요. 
DV(종속변수 즉 혈압)이 관찰된 혈압은 168과 151.4 (평균)이었는데, 교정한 뒤에는 조금씩 줄어 들었군요. 
어떤 방식으로 얼마나 줄었을까요?









결론적으로 
나이에 의한 효과를 줄이기 위해서 나의의 의해서 변동되는 양을 계산해서, 
그것을 보정해준 다음
보정해 준 혈압이 과연 유의한 차이가 있는지를 보는 거죠. 

그리고, 그것을 어떻게 보정해 준다고요?
공통의 기울기를 구합니다. 

그리고 나이(교란변수 CV)가 작은 것은 올리고, 나이가 많은 것은 내립니다. 
그러면서 그 기울기만큼 혈압(종속변수 DV)를 보정하는 것이죠. 

그렇게 해야 진정 나이에 의한 효과가 배제된 혈압의 차이를 불 수 있기 때문이죠. 

자 지금까지 별로 생각해 보신적 없는 방법으로 ANCOVA에 대해서 알아 보았습니다. 

이미 눈치채신분도 있으실겁니다. 뭘요?

그 다음 이야기 말이죠. 

댓글 없음:

댓글 쓰기