레이블이 회귀분석인 게시물을 표시합니다. 모든 게시물 표시
레이블이 회귀분석인 게시물을 표시합니다. 모든 게시물 표시

2016년 5월 14일 토요일

아빠가 들려 주는 [통계] 상관분석과 회귀분석 쌍둥이 같지만 다른…… 그렇지만 형제같은……

 
이 둘은 같은 듯 다릅니다.
역사적으로 다르고, 가정도 다르고…….


 
이 점을 뚫고 지나가는 이 선이 회귀선이라고 생각합니다.
이 점들과 가장 가까이 지나가는 선이라고 생각합니다.
사실은 이점들과 가장 가깝지는 않습니다.


 
오른쪽은 xy를 바꾸어서 만든 점입니다. 완전히 대칭인 점이죠.
, y=x라는 선을 기준으로 대칭인 점입니다.
그리고, 회귀식을 그려 봅니다.
그러면 이 회귀식은 대칭일까요?
아닙니다.


 
언뜻 보아도 알 수 있는데요.
대칭인 두.
파란 화살표로 찍고 있는 두 점과 직선과의 거리를 보세요.
완전히 다르죠?
즉 회귀식은 대칭이 아니라는 겁니다.


 
또 다른 실험을 해 볼까요?
두 회귀식을 연장해 보죠.
그러면 y = x  직선도 추가해 보고요.
대칭이 아니라는 것이 자명해 지죠?
그렇다면, 기울기도, y축 절편도 대칭이 아니라는 뜻이 되고,
위의 그래프를 보아도 자명합니다.
그런데, r값은 둘다 같아 보이네요.


 
위키피디아에 나온 공식을 조금 써 보면
Xy에 대해서 차이가 없이 대칭적이며, 결국 두 상관계수는 수식으로도 같습니다.


 
두 회귀식에서의 p값은 어떨까요?
T 분포를 이용하는데, t 검정통계량의 위의 공식에서처럼 r에 의해 결정됩니다.
그리고, p값은 t자유도에 의해서 결정되니까 p값은 둘다 동일합니다.
엑셀에 있는 회귀분석 기능을 이용해서 결과를 보면,
초록색 부분이 같은 값.
노란색 부분이 다른 값을 보여 줍니다.


위키피디아에 보면 이미 이 두 회귀직선이 다를 뿐 아니라, 그 둘 사이의 관계에 대한 이야기도 나옵니다.
=========================================
사실 오늘 글은 별로 연구하실 때 도움되는 것은 아니고,
약간은 심심풀이 겸 흥미위지의 글이라고 할 수 있습니다.
한편
상관분석은 x,y의 관계가 동등하다 인과 관계가 아니다
회귀분석은 동등하지 않다.
X가 원인이고 Y는 결과이다.”(인과관계를 증명하긴 쉽지 않지만.)
또는 “X는 독립변수, Y는 의존변수이다
이런 말을 들어 보았을 것입니다.
그 의미를 조금 천천히 한번 살펴본 단상이었습니다.

2016년 4월 13일 수요일

아빠가 들려 주는 [통계] 데이터가 많아지면, 설명력이 올라갈까?

 
이런 질문을 한번 해 볼께요, 너무 당연한 결론이지만, 가끔 착각하는 경우가 있기도 해서요.
 
기울기 3 절편 3
잔차가 정규분포로 분포하는 모집단을 만들자

 
무작위로 10개의 샘플을 뽑았더니,
P=0.035087로 기울기가 0이 아닐 것으로 생각되고,
기울기의 값은 1.7정도
. 원래값인 3과는 꽤 거리가 있군요.
그런데, 기울기의 95%신뢰구간이 0.15에서 3.33까지이므로,
어쨌든 그 범위에는 포함되는 군요.
이렇게 큰 범위로 추정한다면 추정하나 마나 한 것아닌가 하는 생각이 듭니다.
이렇게 샘플 수가 작으면 95%신뢰구간도 넓어지죠.
설명력은 44%정도, 예상보다는 꽤 나쁘지만, 사실 의학이나, 경제학이나 실제에서는 이보다 훨씬 적게 나오기 쉽죠.
 
이제 20개의 샘플을 뽑았습니다. P=0.0000000136 무지 작아졌습니다.
기울기도 많이 근접했군요. 설명력도 84%나 됩니다.

 
이제는 30개를 뽑았습니다.
P값은 이제 세기도 어려울 정도로 작아졌고요.
기울기도 3.5, 20개로 추정했던 3.02보다 참값에 더 멀어지긴 했지만.
95%신뢰구간 안에는 있습니다.
, 샘플 수가 늘어나면서 95%신뢰구간이 점점 줄어 들지만,
더 많은 샘플 수가 더 정확한 점추정을 하지는 않군요.
그렇지만, 더 많은 샘플 수를 가기게 되면 이 구간이 점점 더 줄어서 추정하기는 좋겠군요.
설명력은 85%입니다. 꽤 높군요.
 
이제 샘플 수를 확 늘여서 121개로 잡았습니다.
P값은 훨씬 적어지고, 95% 구간도 줄어서 3개 가까워 지고 있습니다.
설명력은 86%..
. 이렇게 점점 늘여 가다보면,
기울기는 점차 참값에 가깝게 추정할 수 있겠군요.


 
이제 484개의 샘플을 추출해서 실험해 보았더니, p값은 상상할 수 없을 정도로 작아졌습니다.
95% 신뢰구간은 어느 정도 줄어 들었고요,
그런데, 설명력은 83%로 거의 늘고 있지 않습니다.
왜 그럴까요?
이 회귀모형이 원래 설명할 수 있는 것이 83% 정도밖에 안되기 때문에 아무리 샘플을 모은다 하더라도 100%가 될 수 없습니다.


 
공식을 굳이 말하고 싶진 않지만, 최소한의 것이라
정도는 언급해야 할 것같군요.
설명력의 공식은 이와 같습니다.
수학식만 나오면 거부감이 있는 분을 위해서
이 공식은 이어서 설명하겠습니다.


 
여러 개의 관측된 점들이 있다고 치고, 그리고, 빨간 점선의 회귀직선.
파란 직선의 Y값들의 평균입니다.


 
평균이 무엇일까요,
특별한 이유가 없다면, 우리는 모두 키가 같고, 몸무게가 같을 것입니다. 차이가 나야할 이유가 없으니까요.(이론상)
그런데, 유전적인 요인, 후천적인 요인, 등등 온갖 요인에 의해서
키가 달라집니다.
그 달라짐의 정도가 큰 사각형이다.
달라짐을 제곱한 것이지요.
작은 사각형은 무엇인가요.
우리가 구한 회귀식에 의해 달라진 정도입니다.
우리가 구한 회귀식은
몇 가지 측정된 변수들에 의해 설명되는 것입니다.
즉 설명이 가능한 정도이다.


 
이렇게 모든 점들에게서 큰 사각형과 작은 사각형을 그려 볼 수 있을 것입니다.
큰 사각형은 점들이 변화 정도,
작은 사각형은 회귀선에 의해서 설명되는 정도.


 
큰 사각형들의 합을 분모로 놓고,
작은 사각형의 합을 분자로 놓으면
전체 변화량에 대해서 회귀식에 의한 변화량을 구하면,
(‘무엇에 대해서이렇게 하면 무엇을 분모에 놓는 거죠)
이것을 설명력이라고 말합니다.
그래서 전체의 사각형을 분포로, 회귀식의 사각형을 분자로 놓은 것이 설명력이 되고,
그것을 수학적으로 표현한 것이 위의 공식이 됩니다.

만일 모든 점들이 회귀식 위에 올라간다면, 큰 사각과 작은 사각이 크기가 같아질 것이고,
1이 될 것입니다.
회귀직선이 수평선이 되면 빨간 사각형들이 모두 0 되어서 설명력은 0 됩니다.
 
위키피디아에 나오는 그림인데, 찬찬히 보면 모두 설명이 가능합니다.
1행의 것들이 왜 직선에서 멀어질 때 점점 설명력이 0에 가까워 지는지 이해되시죠?
그리고,
2행은 모두 직선이기 때문에 모두 1입니다. 기울기와 상관없이..
단 가운데 있는 것은 분모가 0이 되어서 뭐라고 말할 수가 없습니다.
3행의 것들은 모두 회귀식이 수평이라 모두 0이 됩니다.
 
다시 원래의 예로 돌아가 봅시다.
샘플 수가 많아지면, 우리는 P값이 점점 작아진다는 것을 확인했습니다.
그렇지만, 샘플 수가 많아진다고 해서,
점들이 점점 직선에 가까워 지지 않습니다.
그렇기 때문에 설명력은 점점 1에 수렴하는 것이 아닙니다.
원래의 퍼진 정도에 있을 뿐이죠.
지금은 단순히 X가 하나뿐이지만, X가 여러 개로 늘어난다면,
즉 설명 변수가 더 많아진다면, 직선위로 모여질까요?
그렇지 않습니다.
 
설명력을 더 높이기 위해서는 변수를 더 찾아 내는 것도 하나의 방법이지만, 잔차 residual 또는 오차 error를 줄이는 것이 중요한 방법입니다.
이 잔차라는 개념을 생각한 사람은 정말 천재. 아마도 피어슨이 만든 것같은데……
가급적 잔차를 줄이기 위해서 조금이라도 더 정확한 값을 찾는 것이 설명력을 높이는 방법이 될 것입니다.
예를 들면 나이를 측정할 때 그냥 5년 단위로나 1년 단위로 할 수도 있고, 개월로도 할 수 있겠지만,
조금이라도 더 정확한 값을 찾아 보는 것이죠.
수입이라면 대충의 값보다는 더 정확한 값을,
체중도 마찬가지…….
그렇게 하더라도 실제로 측정하지 못한 값도 많기 때문에 설명력에는 한계가 있습니다.
 
그런데, 만일 년도를 날짜 단위로 측정한다면 정말 설명력이 더 올라갈까?
해보진 않았지만, 조금 아주 아주 조금 올라갈 것같습니다.
나이 요인이 전체에서 얼마나 될까?
마치 600화소 카메라과 1200화소 카메라가 확대해 보지 않으면
우리 눈에 차이를 주지 못하는 것과도 같이 더 정밀하게 조사해도 차이가 미비할 수 있습니다.
(300DPI 이상은 실제적인 차이가 없다고들 말한다)
그렇지만, 연구하는 입장에서 가능한 정밀하고 정확하게 조사하는 것이
잔차를 줄이고, 설명력을 높이는 방법입니다.
또는 숫자를 엄청 많이 늘인다면,
아마도 p값이 엄청 작아지면서,
무의미했던 변수들이 유의미하게(p값이 작아지는) 되는 효과는 있을지언정
설명력의 변화는 크지 않을 가능성이 있겠지요.
숫자를 아주 많이 하면 그동안 발견되지 않은 유의미한 변수를 찾아 낼 것같은 느낌이 들지만.
정말 중요한 변수들은 숫자가 적을 때도 발견이 되지요.
즉 통계적으로는 유의미한(p가 작은) 변수이지만,
임상적으로는 무의미한(설명력이 거의 없는) 변수일 가능성이 많습니다.

Mata 분석을 좀 싫어 하는 분은 이런 말을 하기도 합니다.
그 비판 중에 하나가, 숫자를 아주 많이 모아서 유의미한 결과를 만들어 낸다는 것이 과연 진짜 얼마나 중요한 것일까.. 하는 것이죠.
(참고로 저는 meta 분석을 싫어하진 않습니다. 그런 면도 고려해야 한다는 정도…)
빅데이터에 대해서 비판적인 근거 중의 하나도 이런 면이 있습니다.
천명 정도의 데이터에서 무의미하게 나온 변수가 1억명의 빅데이터로 유의미하게 되었다면,
과연 임상적으로 의미가 있을까 하는 회의론
그런데 한편, 작은 차이라도 판매에 영향을 미치는 것을 찾고자 한다면 그것도 의미는 있을 수 있지요.
참 오늘의 주제는 메타분석이나 빅데이터 이야기가 아니고, 설명력에 관한 것이었습니다.
설명력이 무엇인가와 어떻게 올릴 수 있는가 하는 이야기