2016년 5월 14일 토요일

아빠가 들려 주는 [통계] 상관분석과 회귀분석 쌍둥이 같지만 다른…… 그렇지만 형제같은……

 
이 둘은 같은 듯 다릅니다.
역사적으로 다르고, 가정도 다르고…….


 
이 점을 뚫고 지나가는 이 선이 회귀선이라고 생각합니다.
이 점들과 가장 가까이 지나가는 선이라고 생각합니다.
사실은 이점들과 가장 가깝지는 않습니다.


 
오른쪽은 xy를 바꾸어서 만든 점입니다. 완전히 대칭인 점이죠.
, y=x라는 선을 기준으로 대칭인 점입니다.
그리고, 회귀식을 그려 봅니다.
그러면 이 회귀식은 대칭일까요?
아닙니다.


 
언뜻 보아도 알 수 있는데요.
대칭인 두.
파란 화살표로 찍고 있는 두 점과 직선과의 거리를 보세요.
완전히 다르죠?
즉 회귀식은 대칭이 아니라는 겁니다.


 
또 다른 실험을 해 볼까요?
두 회귀식을 연장해 보죠.
그러면 y = x  직선도 추가해 보고요.
대칭이 아니라는 것이 자명해 지죠?
그렇다면, 기울기도, y축 절편도 대칭이 아니라는 뜻이 되고,
위의 그래프를 보아도 자명합니다.
그런데, r값은 둘다 같아 보이네요.


 
위키피디아에 나온 공식을 조금 써 보면
Xy에 대해서 차이가 없이 대칭적이며, 결국 두 상관계수는 수식으로도 같습니다.


 
두 회귀식에서의 p값은 어떨까요?
T 분포를 이용하는데, t 검정통계량의 위의 공식에서처럼 r에 의해 결정됩니다.
그리고, p값은 t자유도에 의해서 결정되니까 p값은 둘다 동일합니다.
엑셀에 있는 회귀분석 기능을 이용해서 결과를 보면,
초록색 부분이 같은 값.
노란색 부분이 다른 값을 보여 줍니다.


위키피디아에 보면 이미 이 두 회귀직선이 다를 뿐 아니라, 그 둘 사이의 관계에 대한 이야기도 나옵니다.
=========================================
사실 오늘 글은 별로 연구하실 때 도움되는 것은 아니고,
약간은 심심풀이 겸 흥미위지의 글이라고 할 수 있습니다.
한편
상관분석은 x,y의 관계가 동등하다 인과 관계가 아니다
회귀분석은 동등하지 않다.
X가 원인이고 Y는 결과이다.”(인과관계를 증명하긴 쉽지 않지만.)
또는 “X는 독립변수, Y는 의존변수이다
이런 말을 들어 보았을 것입니다.
그 의미를 조금 천천히 한번 살펴본 단상이었습니다.

2016년 5월 12일 목요일

아빠가 들려 주는 [R그래픽] 일단 배워 보자

 
R 로 그래픽 배워보기
사실 기초부터 하려는 것은 아니고, 오늘 발견한 웹사이트 소개하려고 합니다.


 
요런 곳을 발견했습니다. 주소는 flowingdata.com
그 중에서 Tutorial을 가 보겠습니다.(1)
매우 많은 자료들이 그림과 함께 보입니다. 쭉 아래로 둘러 보세요.


 
그 중에 하나.. 이런 건 어떻게 만드나..
궁금해 졌습니다.
그래서 클릭해서 다운로드 해 보았습니다(2).
Zip 파일이 나옵니다. 압축을 풀어 보았습니다.
R 파일을 클릭합니다(3).


 
저의 경우는 이미 깔려 있던 R studio가 열립니다. 아마 대부분 그러실 겁니다.
(이 부분은 이미 R 쓰시던 분에 한해서 그러겠죠?)
전체 부분을 선택해서(4) run 시켜 봅니다(5).
아래 부분에서 실행하면서(6) 알아서 패키지도 깔고, 데이터도 불러오고 그럽니다.
나중에 찬찬히 (4)(6) 부분을 살펴 보면 어떻게 해야 하는지 알 수 있겠지요.
결과물은 (7)로 나왔습니다.


 
사실 처음 보게 된 것은 이 부분입니다.
지인 분께서 보내주신 자료입니다.


아래쪽에 보면 흔히 보는 여러 차트들이 나와 있고, 그것에 해당하는 명령어들이
나와 있습니다.
그림에 보이는 것 외에 훨씬 많은 기본적인 차트가 설명되어 있습니다.
참고해 보시면 좋겠죠.

2016년 5월 9일 월요일

아빠가 들려주는 [통계] Nightingale rose plot

나이팅게일 장미 차트...
간호사로 알려진 나이팅게일은 원래 수학을 전공했으며,
여성 통계학자로서도 역시 의미있는 걸음을 했습니다.

https://www.sciencenews.org/article/florence-nightingale-passionate-statistician

참조해 주세요.

원래의 개발자는 아마도 다른 사람일 수도 있지만, 어쨌든 나이팅게일 때문에 유명해진 차트이긴 합니다.


최근에 accept된 논문에서 달마다 달라지는 어떤 양상을 연구한 것이 있는데요.
공저자분께서 워낙 차트를 잘 만드셔서
그분께서 (아마도 R로) 만드셨을 것같습니다.

원래 엑셀로는 만들지 못하는 차트인데,
오늘 갑자기 아이디어가 생겼습니다.


여러분들은 이 칸에 숫자만 집어넣으면
아래 차트가 만들어 지니까 그냥 사용하시면 되겠습니다.

개인적으로 좋아하는 plot은 아닙니다.
막대그래프를 그냥 꽃처럼 모아놓은 것과 같은데
그렇게 하다보니, 바깥쪽의 것은 면적이 넓어져서 상대적으로
과장되어 보이는 착시현상을 주거든요.

그렇지만, 12달 반복되는 현상(기온처럼)
풍향과 같이 원형으로 표현되면 좋은 것들은
시각적으로 우수한 표현이 될 것같습니다.




2016년 5월 3일 화요일

아빠가 들려 주는 [통계] non-inferiority test using Chi-squared test

 
“non-inferiority test” is not familiar to someone, but it is very common and becomes popular.

This is non-inferiority test using Chi-squared test

 
First of all, you set the “non-inferiority margin”.

This table shows some examples.

These are old ones.

You had better check newest one for your study.



Write in yellow cells only.(1) and (3)

In this example you will get
the  RD(risk difference) and its confidence interval(2).

We will compare the interval(2) and the margin(3).

If the interval is located right side of the margin, “we think this is non-inferior”.

Then the p value is less than 0.25.

God loves you

2016년 5월 2일 월요일

아빠가 들려 주는 [통계] Goodman and Kruskal Gamma

income 상중하
만족도 상중하
이것들이 일치하는지를 본다면..
Gamma를 생각해 볼 수 있습니다.



값을 입력하는 것의 위의 엑셀을 이용하시면 되고,
계산 방법은
아래 동영상으로 설명되어 있습니다.





아빠가 들려 주는 [그래프 그리기] paired test 그래프 그리기

이런 그래프는 주로 before- after 라든지, 혹은 split-body 디자인 같이
신체에 두 부위의 점수,
쌍둥이나 부부 연구
뭐 이런데 쓰이는 그래프이죠.
저는 이름을 paired test 그래프라고 일단 붙여 보았습니다.

"연구자를 위한 그래프 그리기" 1판이 절판되고,
2판을 내려고 준비 중인데 왜 이렇게 쓰기가 더디 진행되는지...
그리고 다른 할일이 계속 있어서...
그 책에 넣을 것을 미리 한번 만들어 보았습니다.
책인 나올려면 한참 남았습니다.
1판에서는 오른쪽처럼만 되는데, 왼쪽처럼 약간 jittering이 되면 좋을 것같아서...


 책은 언제 나올지 모릅니다. 
1판은 절판되었고, 2판은 미뤄지고 있고...

첨부 파일은 

여기에 있습니다. 

네이버는 파일 첨부되는데 구글 블로그는...