2016년 2월 8일 월요일

아빠가 들려 주는 [통계] 데이터를 합치자 Merge in Excel


작년에 논문 쓰면서 사용했던 기능인데요. 
여러분도 도움되실 것같네요. 



‘통합’ 기능은 연구자 A가 조사한 자료와 
연구자 B가 조사한 자료를 
하나의 시트로 합할 때 필요합니다. 
먼저 ①에 자리를 지정한 뒤 
‘데이터 → 데이터 도구 → 통합’(②)을 클릭합니다. 
③의 칸에, 두 통합할 표 부분 중 하나를 넣고, 
추가(④)를 선택하면 ‘모든 참조 영역’으
로 연결됩니다. 
지금은 두 표를 하나로 합쳤지만, 여러 개를 합칠 수도 있겠지요. 
그다음 표의 행과 열은 공통이기 때문에 ⑤에서 체크합니다. 
⑥은 일단 평균으로 했습니다. 
다음에 합계나 다른 함수를 선택해 보고 결과를 
보면 어떤 의미인지 알게 될 것입니다. 


결과가 이렇게 정리됩니다. 
통합된 표에는 공통된 홍길동, 나이, 5월이라는 행과 열은 통합되고 
나머지는 추가돼 보입니다. 
이 기능을 잘 모르면 복사해 붙여넣고 지우고를 수없이 반복해야 합니다. 
SPSS에서의 merge와 비슷한 기능입니다.
홍길동이 5월에 위표에서도 5점, 아래표에서도 5점이었기 때문에 
평균값은 5점으로 통합된 표에 나왔습니다. 
합계를 넣는다면, 통합표에는 10점으로 나올 것입니다
(⑥을 참고하세요). 이것은 때에 따라 유용할 수 있습니다.

-------------------
이상 내용는 제가 쓴 '논문 쉽고 편하게 쓰자 3판' 174쪽 175쪽에 나오는 내용입니다.



이건 보통 국건영이라고 부르는 국가 자료입니다. 
작년에 여기서 다운받은 자료로 논문을 썼는데, 
자료가 워낙 커서 여러 개로 나뉘어져 있습니다. 
그래서, 체중 키 나이 성별 등등의 자료가 들어있는 DB와 
다른 자료들이 성격에 따라 나누어져 있더군요. 
그러면 그 중에서 우리가 필요로 하는 자료를 합쳐야 합니다. 
예를 들어 구강검사 자료로 논문을 써야 한다면, 

두 DB에서 식별번호....는 동일하니까..
그것을 중심으로 해서 두 자료를 합쳐야 합니다. 
앗, 그 전에 SPSS 파일인 sav파일을 
엑셀에서 불러 올 수 있도록 csv 파일로 바꾸어야 하고요, 
SPSS에서 merge 기능을 아시는 분은 그냥 SPSS에서 하셔도 됩니다. 

아빠가 들려주는 [통계] 오즈비와 위험비 그리고 위험차

아빠가 들려주는 [통계] 

오즈비와 위험비 그리고 위험차

(OR, RR & RD)


아마도 일상생활에서 아주 흔하게 쓰면서도 
통계 용어로만 등장하면 외국어처럼 생소하게 느껴 지는 말이 
이 말이 될 것같군요. 

특히 오즈비-또는 승산비-는 특히나 설명하기 어려운 말입니다. 

우선 가장 설명하기 쉬운 위험비에 대해서 설명하죠. 
특히 한국인에게 더 쉬운 개념입니다. 

발생율이라는 것이 있죠  
합격율이라는 말과 같습니다. 개념적으로. 

A 대학교는 고등학생 100명이 시험을 쳐서 30명이 붙고, 
70명이 떨어지게 된다면 합격율이 30%가 됩니다. 

B 대학교는 고등학생 100명이 시험을 쳐서 60명이 붙고, 
40명이 떨어지게 된다면 합격율이 60%가 됩니다. 

그러면 B대학교의 합격율은 A 대학교의 합격율의 2배가 됩니다.
 60/30 이니까요.

이것이 위험비(relative risk, 또는 risk ratio 줄여서 RR)입니다. 
합격율 또는 발생율을 Risk 라고 부르거든요. 
risk라고 하면 괜히 안좋은 것일 거라고 생각하지만, 

통계적으로볼 때는 
병이 발생하는 것도 risk 
병이 낫게 되는 것도 모두 risk라고 합니다. 
어쨌든 이 risk의 비율이니까, relative risk, 또는 risk ratio 라고 하고, 
한국말로 번역하니 위험비가 됩니다.






이제 이 A 대학교는 남학생과 여학생 비율이 1:3입니다. 여학생이 좀 많죠. 
B대학교에는 남학생과 여학생 비율이 3:1입니다. 
공대 위주라서 남학생이 좀 많습니다. 
그러면 B대학교에 비해서 A대학교가 여학생이 훨씬 많죠?
얼마나 많나요?
남학생을 일치시키고 생각해 볼까요?
A 대학교 1:3 = 3:9
B 대학교 3:1 = 3:1
즉, 남학생을 모두 3으로 일치시키니까, 9배가 많다는 것을 알 수 있습니다. 

것이 오즈비의 개념입니다. 
우선 오즈라는 것 odds 는 불균형 이라는 뜻입니다. 
even은 평평한 것, 그것의 반대죠.
짝수(even number)와 홀수(odd number)를 생각하면 이해가 됩니다. 
그러니까 남녀의 오즈는 1:3과 3:1이며, 
이것의 비율은 9입니다. 
그것이 오즈비죠 
오즈의 비율이니까요.
쌀과 보리를 섞을 때도 1:3으로 섞어라 등등에서도 오즈는 사용됩니다. 

잘 생각해 보면, Risk는 처음엔 아니었던 것이 시간이 지나면서 발생하게 되고, 
그 비율을 말해 줄 때 쓰입니다. 
처음엔 모두 정상이었는데, 시간이 지날 때 병이 발생할 때같이 말이죠. 
이런 식의 연구를 코호트 연구라고 합니다. 
처음엔 모두 정상이었는데, 10년이 지나고 나니 폐암 발생이 얼마나 되었나 뭐 이런 식이죠. 
시간적인 개념이 포함됩니다.

한편 오즈는 그 순간 관찰하는 단면연구 cross sectional 연구의 개념이 포함됩니다. 
도시락을 열어 보니, 쌀과 보리가 3:1이었다는 것처럼
대한민국 사람을 살펴보니, 폐암이 10%였다. 뭐 이런 식입니다. 

표로 살펴 볼께요. 
------------------------------------------------------
그룹      폐암       비폐암       합계
------------------------------------------------------
흡연         30         70            100
비흡연      10         90            100
-------------------------------------------------------

코호트 연구..

처음 
흡연자 100명 --->10년 뒤 ---> 폐암 30명 정상인 70명
비흡연자 100명-->10년 뒤---> 폐암 10명 정상인 90명

그러면 
(폐암 Risk in 흡연자)=30/100=0.3
(폐암 Risk in 비흡연자)=10/100=0.1
RR of 폐암 Risk in 흡연자 over 폐암 Risk in 비흡연자 =0.3/0.1=3
이렇게 됩니다. 

참 위험차는 말그대로 차이입니다. 
0.3-0.1=0.2 
상대적으로 훨씬 덜 쓰이는 용어이지만, 간단하므로 알아 두세요. 
아마도 앞으로 점점 더 많이 쓰이게 될 것같습니다. 
그 이유는 담에 설명하기로 하고요. 

단면 연구
로도 동일한 표가 만들어 질 수 있습니다.


표로 살펴 볼께요. 
------------------------------------------------------
그룹      폐암       비폐암       합계
------------------------------------------------------
흡연         30         70            100
비흡연      10         90            100
-------------------------------------------------------

흡연자 중 폐암 30명 정상인 70명 ==> 오즈 = 30/70
비흡연자 중 폐암 10명 정상인 90명 ==> 오즈 = 10/90


자 그러면 오즈비는 =
(30/70)/(10/90) = 27/7= 3.857...


그래서 오즈비=3.857    위험비= 3 이렇게 계산될 수 있습니다. 

이것을 표로 수식으로 나타내면 이렇게 되겠지요. 

OR와 RR의 공식도 기호로 표시하였을 뿐 앞서서 했던 이야기의 반복입니다. 
연구 디자인에 따라 둘의 사용처는 다르지만, 어쨌든 표로 만들고 나니 
비슷하게 보여 집니다.
그리고 혹시, 이 둘 사이의 관계를 표시하면 

요렇게 됩니다. 
그래서, OR은 RR보다 항상 큽니다. 
위의 식을 보면, a/b와 c/d가 0에 가까운 경우에는 거의 비슷해 집니다. 
이런 경우가 병이 아주 적게 발생해서, 1%라든지 뭐 이런 경우죠. 

가끔 유병율이 작으면 OR과 RR이 비슷해 진다 뭐 이런 이야기는 들었을 수 있는데, 
왜 그런지 수학적으로 잘 설명은 안 해 줍니다. 
이식으로 보면 명확해 지죠. 

그래서, 간혹 OR을 RR처럼 해석하기도 합니다. 
즉 발생율이 아닌데, 발생율처럼 해석하기도 합니다. 







첨언.
저는 OR을 다른 말로 '발견율'이라고 말하고 싶습니다. 
도시락에서 보리와 쌀을 찾아낸 비율처럼
이 순간 마주치게 될 발견율을 말하는 것입니다. 
발생율은 시간의 개념이 들어가 있지만, 
발견율을 단면적인 개념이 들어가 있지요 
그러니까 '오즈비'는 '발견율비'가 되는 거죠. 
'발생율비'에 대응하는 말이 되죠. 


==========================================================
자 그러면 오즈비와 위험비, 위험차를 그래프로 이해하면 훨씬 쉽게 이해할 수 있습니다. 

실제 자료가 이렇게 모였습니다. 흔히 보는 그래프죠?

사실 두 군의 총숫자가 약 80과 110 정도 되기 때문에 빨간 막대를 중심으로 어느쪽이 많은지 조금 애매합니다. 


그래서 전체를 1로 하는 막대기로 바꾸어서 잘 표현하곤 합니다. 

이렇게 하면, 빨간막대가 얼마나 크고 작은지가 분명해 집니다. 
마치 다리가 길다..라고 할 때 몸 전체를 1로 했을 때 다리가 얼마나 긴지 짧은지를 보는 것과도 비슷합니다.
흔히들 사용하는 그래프죠. 


이렇게 해서, 1에 비해, 2의 크기가 약 두배 정도 되어 보이는 군요. 

이때 1과 2가 각각 발생율 또는 risk라고 부르는 것이고, 이것의 비율이.
risk ratio 입니다. 이 경우는 대충 2 정도 됩니다. 

이 risk ratio는 2를 기준으로 하면 0.5 정도 됩니다. 
또 빨간색이 아니라, 파란색 즉, 3이나, 4를 기준으로 할 때도 달라집니다.

그렇지만 각각이 서로 환산이 가능하기 때문에 일단 지금은 빨간 막대, 그중에 1을 기준으로 해 봅시다. 
한편 여기서, 빨간 막대기의 차이가, risk difference 즉 RD입니다. 

보통 많이 쓰지 않고, 통계 프로그램에서 잘 계산해 주지 않는데, 
저 개인 생각을는 앞으로 더욱 많이 쓰이게 될 것같다는 생각입니다. 
어쨌든 이 그래프 하나로, risk와 risk ratio와 risk difference를 잘 보여
줍니다. 


한편 odds raio를 보여 주는 그래프른 흔치 않은데, 

이렇게 파란 막대기를 동일하게 1로 만들었을 때, 
6에 대해 7의 크기 입니다. 
1에 대한 2 즉 RR에 비해서 OR이 
훨씬 과장되어 보이는 것을 알 수 있습니다. 

사실 이렇게 그래프로 그리는 경우는 흔치 않지만, 
이런 OR도 사회에서 흔히 쓰입니다. 

의사 1명당 환자수, 
간호사 1인당 입원 환자수, 
선생님 한명당 학생수
교수 한명당 학생수

뭐 이런 식으로 말이죠. 
그리고, 이것을 나라끼리 혹은 지역끼리 비교하면서 바로 오즈비가 되는 것이죠. 

교수 한명당 학생수가 5명인 MIT가 어쩌구 저쩌구..토론식 수업이 가능하고..
한편 한국의 경우 교수 한명당 학생이 20명으로 강의 위주의 수업밖에 할 수 없고...
뭐 이런 식의 기사를 보았을 텐데

이렇게 보는 순간 우리는 음 오즈비가 대충 4배..되는군 하면서.
오즈비를 떠올리는 거죠. 

그러니까 
요약하면 통계에서는 말만 어렵게 바꾸었을 뿐
우리가 일상에서 늘 경험하는 것을 
표현하려고 했고, 

아주 가까이 있는 것입니다. 





2016년 2월 2일 화요일

아빠가 들려 주는 [통계] 데이터를 모으기 전 준비 - 데이터 유효성 검사



사실 논문 쓰기 전 단계인 데이터 잘 모으는 것이 더 중요합니다. 
통계는 사실 워낙 기계적이라서... 이제는 시간이 별로 안걸립니다. 
자료 모으는 것, 정확히 자료를 모으는 것이 훨씬 중요한 일입니다. 

그리고 시간도 많이 걸리고요... 
그 이야기를 해 보도록 하겠습니다. 


2016년 2월 1일 월요일

아빠가 들려 주는 [통계]오즈비 & 위험비 즉 Odds ratio & Risk ratio

아빠가 들려 주는 [통계]오즈비 & 위험비 즉 Odds ratio & Risk ratio

오늘 배울 것은
1. 오즈비 & 위험비 즉 Odds ratio & Risk ratio
    가 각각 무엇을 말하느냐?
2. 오즈비 & 위험비
    가 일상 생활에서는 어떻게 활용되느냐
3. 오즈비 & 위험비
    가 차트로 하면 어떻게 표현되느냐
4. 오즈비 & 위험비
     상대적인 크기 비교

동영상 마지막에 생략된 말.
(오즈비가 1보다 큰 경우)
오즈비가 위험비보다 항상 크다는 말을 들어 보셨나요?
유병율이 작을 때 오즈비와 위험비가 비슷해 진다는 말 들어 보셨나요?
왜 그런지 아시겠죠?

2016년 1월 26일 화요일

아빠가 들려 주는 [통계] 데이터 전 처리 Preparation for analysis

엑셀로 데이터를 정리하는 요령, 
통계를 돌리기 전 
최소한의 준비라고 할 수 있는 잘못된 데이터를 찾고 
수정하고, 빠진 자료를 찾는 방법에 관한 이야기 입니다. 

사실 이것보다 훨씬 더 강력하고 편리한 기능이 
Web-R에서 곧 구현될 예정입니다. 
기대해 주세요. 

모든 연구자들이 좀더 창의적인 일에만 신경 쓸 수 있도록
단순한 일은 컴퓨터가 알아서 해 드릴 것입니다.



what every researcher should know

아빠가 들려 주는 [통계] long form ↔ wide form in Web-R.org





 long form 은 뭐고,  wide form 은 또 무엇이냐..

사실 동영상을 보시면 그냥 눈치 채실 겁니다.
(사실 엄격한 의미에서 꼭 맞지는 않지만, 대충 말하자면)
한 사람에게서 시간을 따라서 얻어진 자료를 한줄로 가로로 쓴 것을 wide form이라고 합니다.
paired t-test나 RM ANOVA 같은데 사용하죠.
그런데, 한 사람에 얻어진 자료를 세로로 쓴 것을 long form 이라고 합니다.
실제 모양은 동영상을 보시면 아실 것이고요,
이건 mixed model이나 GEE를 하기 위해서 필요합니다.

paired t-test나 RM ANOVA 에서는 하나라도 값이 없으면 그 사람 자료는 몽땅 없어집니다.
즉, 1,3,5개월 자료 중에 3개월 자료 하나만 없어도 그건 없는 것이랑 마찬가지 입니다.
mixed model이나 GEE는 이런 자료도 살려서 분석할 수가 있습니다.

병원에서의 자료는 보통 이런 시간에 따른 자료가 많죠.
longitudinal data라고 말하는 경우가 많습니다.

그것을 분석하기 위해서,
자료를 상호 호환할 필요가 있습니다.
 long form ↔ wide form
이렇게 말이죠.

이게 SPSS에서 됩니다. 그런데 너무 어려워서 제가 도무지 헷갈리더라고요.
저도 이전에 제가 써둔 매뉴얼을 한참 봐야 합니다.
뭐 GEE를 늘 하는 것도 아니고, 공부하려고 한번 실제 논문쓸려고 한번.. 이런 식일 텐데요..
이렇게 어려워서야....

그런데 Web-R.org 에서 이게 간단하게 되는 거 아닙니까?
아직 개선의 여지는 남아 있지만, 그래도 곧 되리라고 생각됩니다.
Web-R.org 화이팅

2016년 1월 16일 토요일

아빠가 들려 주는 [통계] Web-R 로 배워보는 카이제곱 검정

아빠가 들려 주는 [통계] Web-R 로 배워보는 카이제곱 검정



카이제곱 검정을 시행해 볼 수 있으면서
동시에 개인적으로 공부하기에 좋은 사이트,
그리고, 교수님이라면 강의에 활용하기도 좋아요. 

http://r-meta.com:3838/ttest/

다음에는 t-test에 대해서 배워 볼께요.