2016년 5월 14일 토요일

아빠가 들려 주는 [통계] 상관분석과 회귀분석 쌍둥이 같지만 다른…… 그렇지만 형제같은……

 
이 둘은 같은 듯 다릅니다.
역사적으로 다르고, 가정도 다르고…….


 
이 점을 뚫고 지나가는 이 선이 회귀선이라고 생각합니다.
이 점들과 가장 가까이 지나가는 선이라고 생각합니다.
사실은 이점들과 가장 가깝지는 않습니다.


 
오른쪽은 xy를 바꾸어서 만든 점입니다. 완전히 대칭인 점이죠.
, y=x라는 선을 기준으로 대칭인 점입니다.
그리고, 회귀식을 그려 봅니다.
그러면 이 회귀식은 대칭일까요?
아닙니다.


 
언뜻 보아도 알 수 있는데요.
대칭인 두.
파란 화살표로 찍고 있는 두 점과 직선과의 거리를 보세요.
완전히 다르죠?
즉 회귀식은 대칭이 아니라는 겁니다.


 
또 다른 실험을 해 볼까요?
두 회귀식을 연장해 보죠.
그러면 y = x  직선도 추가해 보고요.
대칭이 아니라는 것이 자명해 지죠?
그렇다면, 기울기도, y축 절편도 대칭이 아니라는 뜻이 되고,
위의 그래프를 보아도 자명합니다.
그런데, r값은 둘다 같아 보이네요.


 
위키피디아에 나온 공식을 조금 써 보면
Xy에 대해서 차이가 없이 대칭적이며, 결국 두 상관계수는 수식으로도 같습니다.


 
두 회귀식에서의 p값은 어떨까요?
T 분포를 이용하는데, t 검정통계량의 위의 공식에서처럼 r에 의해 결정됩니다.
그리고, p값은 t자유도에 의해서 결정되니까 p값은 둘다 동일합니다.
엑셀에 있는 회귀분석 기능을 이용해서 결과를 보면,
초록색 부분이 같은 값.
노란색 부분이 다른 값을 보여 줍니다.


위키피디아에 보면 이미 이 두 회귀직선이 다를 뿐 아니라, 그 둘 사이의 관계에 대한 이야기도 나옵니다.
=========================================
사실 오늘 글은 별로 연구하실 때 도움되는 것은 아니고,
약간은 심심풀이 겸 흥미위지의 글이라고 할 수 있습니다.
한편
상관분석은 x,y의 관계가 동등하다 인과 관계가 아니다
회귀분석은 동등하지 않다.
X가 원인이고 Y는 결과이다.”(인과관계를 증명하긴 쉽지 않지만.)
또는 “X는 독립변수, Y는 의존변수이다
이런 말을 들어 보았을 것입니다.
그 의미를 조금 천천히 한번 살펴본 단상이었습니다.

댓글 4개:

  1. 작성자가 댓글을 삭제했습니다.

    답글삭제
  2. 작성자가 댓글을 삭제했습니다.

    답글삭제
  3. 안녕하세요, 데이터 과학 관련된 진로를 희망하고 있는 고등학생입니다. 엑셀을 통해 전력 사용량을 예측하기 위한 단순선형 회귀분석을 하던 중 상관분석과 회귀분석의 차이점에 의문이 생겨 포스트를 읽게 되었습니다. 좋은 글 정말 감사해요!
    그런데 회귀분석만 가지고는 두 변수가 인과관계에 있는지를 판단할 수 없는 건가요? 그렇다면 이미 두 변수가 인과관계에 있다는 것을 다른 방법을 통해 확인하고 회귀직선을 구해 종속변수를 예측하는 것이 회귀분석의 목표인가요? 두 변수가 인과관계에 있다는 것은 그러면 어떤 방식으로 확인할 수 있나요? 답변해주시면 정말 감사하겠습니다!

    답글삭제
    답글
    1. 회귀분석, 상관분석으로는 인과관계를 판단할 수 없습니다. 많이들 이부분에서 착각하곤 합니다. 이미 이 부분에 대해서는 수많은 글들이 블로그에 책에 넘치므로 검색해 보시면 되겠습니다.

      삭제