2016년 5월 13일 금요일

아빠가 들려 주는 [통계] 상관분석과 회귀분석 쌍둥이 같지만 다른…… 그렇지만 형제같은……

 
이 둘은 같은 듯 다릅니다.
역사적으로 다르고, 가정도 다르고…….


 
이 점을 뚫고 지나가는 이 선이 회귀선이라고 생각합니다.
이 점들과 가장 가까이 지나가는 선이라고 생각합니다.
사실은 이점들과 가장 가깝지는 않습니다.


 
오른쪽은 xy를 바꾸어서 만든 점입니다. 완전히 대칭인 점이죠.
, y=x라는 선을 기준으로 대칭인 점입니다.
그리고, 회귀식을 그려 봅니다.
그러면 이 회귀식은 대칭일까요?
아닙니다.


 
언뜻 보아도 알 수 있는데요.
대칭인 두.
파란 화살표로 찍고 있는 두 점과 직선과의 거리를 보세요.
완전히 다르죠?
즉 회귀식은 대칭이 아니라는 겁니다.


 
또 다른 실험을 해 볼까요?
두 회귀식을 연장해 보죠.
그러면 y = x  직선도 추가해 보고요.
대칭이 아니라는 것이 자명해 지죠?
그렇다면, 기울기도, y축 절편도 대칭이 아니라는 뜻이 되고,
위의 그래프를 보아도 자명합니다.
그런데, r값은 둘다 같아 보이네요.


 
위키피디아에 나온 공식을 조금 써 보면
Xy에 대해서 차이가 없이 대칭적이며, 결국 두 상관계수는 수식으로도 같습니다.


 
두 회귀식에서의 p값은 어떨까요?
T 분포를 이용하는데, t 검정통계량의 위의 공식에서처럼 r에 의해 결정됩니다.
그리고, p값은 t자유도에 의해서 결정되니까 p값은 둘다 동일합니다.
엑셀에 있는 회귀분석 기능을 이용해서 결과를 보면,
초록색 부분이 같은 값.
노란색 부분이 다른 값을 보여 줍니다.


위키피디아에 보면 이미 이 두 회귀직선이 다를 뿐 아니라, 그 둘 사이의 관계에 대한 이야기도 나옵니다.
=========================================
사실 오늘 글은 별로 연구하실 때 도움되는 것은 아니고,
약간은 심심풀이 겸 흥미위지의 글이라고 할 수 있습니다.
한편
상관분석은 x,y의 관계가 동등하다 인과 관계가 아니다
회귀분석은 동등하지 않다.
X가 원인이고 Y는 결과이다.”(인과관계를 증명하긴 쉽지 않지만.)
또는 “X는 독립변수, Y는 의존변수이다
이런 말을 들어 보았을 것입니다.
그 의미를 조금 천천히 한번 살펴본 단상이었습니다.

댓글 없음:

댓글 쓰기