Statistics for everyone

2016년 2월 9일 화요일

아빠가 들려 주는 [통계] 다중 검정의 문제 Multiple Testing

며칠 전 미국의 한 교수님께서 보내 주신 본인 강의 슬라이드에 이런 내용이 있었다.

우리는 multiple testing에 관한 토론을 하고 있는중이었다

그의 강의 슬라이드 중에 하나를 내가 약간 수정한 것이다.

제목, 왜 커피같은 문제가 생기나...

이 슬라이드 전에, 매스컴에서 한번은 커피가 좋았다가,

또 하루는 나빴다가 뭐 이런 결과를 자주 내보낸다는 배경이 있었다.

우리가 흔히들 접하는 문제다.

이 슬라이드에는 1-5까지가 있었고,

6번은 내가 추가한 것이지만,

이 6가지 문제가 정말 심각한 문제라고 나는 생각한다.

이 모든 것에 대해서 우리가 접하는 통계책에서도 이야기 되고 있지만,

사실 중요하게 다루어 지진 않는다.

왜냐 하면 당장 논문 쓰고 accept 되는 것과는 무관하며,

오히려 알면 accept되기가 더 힘들 수도 있다.

그런데 그중에서도, 유독

유독 Multiple Testing에 대해서는 이야기 조차 거의 없는 듯하다.

네이버 검색해 보았다. 첫번째 두번째 것은 내가 올린 동영상,

나머지 것은 거의 ANOVA하고 나서 사후 검정... 등에 관한 이야기다.

사후 검정도 다중검정의 문제가 있지만, 이것보다는 훨씬 더 광범위한 이야기이다.

다중검정은....

3번째 강승호 교수님의 글에서 다중검정의 개념을 약간 엿볼 수 있다

(교수님께서는 당연히 아시지만,

이 블로그 글에서는 자세히 언급하지 않으셨을 것이다.)

나머지 문제들은 모두 하나씩 검색해서 공부해 볼 수 있지만,

다중 검정에 대해서는 검색도 잘 안될 것같아서..

책으로 만든 것이 있다.

여러 가지 outcome을 한꺼번에 검정할 때 발생하는 문제,

subgroup analysis를 볼 때 발생하는 문제

중간 분석할 때 발생하는 문제... 등등

이런 것들이 흔히 발생하는 다중 검정의 문제이다.

구글에서 "다중검정과 중간분석"라고 검색해 보자.

무료로 만든 책자이므로 구입하는데 손해 보지도 않을 것이다.

단지 꼭 읽기 바란다. 28쪽부터는 읽지 않아도 된다.

그러니까 읽는 부분은 30쪽도 안되는 부분...

글씨도 매우 크다, 전자책을 염두에 두고, 16폰트로 했으니까..

그림도 많으니까,

그냥 개념만 잡아도 된다...

사실 내 책에는 중간중간에 이런 개념과 관련된 이야기가 많이 들어 있다.

첫번째 책이었던 "한눈에 쏙쏙 의학 통계 배우기" 뒷부분에 부록에도 써 두었고,

"샘플 수 계산" 에도 왜 ANOVA가 좋지 않은지,

RM ANOVA가 왜 나쁜지 이야기 하면서도 이야기 했었다.

dbSTAT 길들이기에도 자세히 써둔 것같은데,

대부분 책을 사고서 자세히 읽지 않을 수도 있고,

읽어도 이해 못하는 내용일 수도 있어서..

다시 전자책으로 낸 것인데.. 뭐 무료로 했지만, 많이 보급된 것은 아니다.

당장 논문 쓸 때 도움되는 내용이 아니라서.......

그렇지만, 정말 논문을 쓰고 싶다면,

재현 가능한 실험을 하고 싶다면,

또 RCT를 계획하고 있다면 꼭 읽어 보길 추천한다.

내 책이라서가 아니라,

한글로 된 얼마 안되는 귀중한 내용이기에...

그리고 동영상도 보면 좋겠다.

이 내용으로 강의를 한 적도 한번 있는데,

그 뒤로 이 내용으로 강의 해달라고 부탁받은 적이 없다. 인기없는 주제라서...

요즘 제일 인기있는 주제는 "그래프 그리기" 그리고 "통계"

당장 논문 써야 하니까.. 그렇겠지만,

감히 나는 이 주제야 말로,

한국에서 특히 한국에서 모든 연구자가 들어야 할 내용이라고 생각한다.

과학적인 것처럼 하고서 거짓말하는 기사들에 늘 분개를 느끼는

과학자들이 많을 줄 안다..

무엇을 마시면 몸이 알칼리가 되어서 건강하다는 이야기

가장 기본적인 인체의 항상성과 버퍼시스템에 대해서

의학생, 간호학생, 각종 생물 전공자들, 넓게 화학자 까지도 그리 많은데도 불구하고,

이런 황당한 이야기가 인터넷에 널리 퍼져 있다는 것에 분개하는 여러 과학자들이

자신도 모르는 사이에 거짓말할 수도 있을 수도 있으니까..

그리고 잡지 편집인도, 저자도 거짓말인줄도 모르고 거짓말하는..

그러니까 더 심각한 문제일 것이다.

2016년 2월 8일 월요일

아빠가 들려 주는 [통계] 엑셀 자료 정리 고급 필터

아마도 굳이 엑셀로 하기 보다

통계 소프트웨어 SPSS나 R에서 하는 것이 더 편하다고

느끼는 분도 있으실 것같긴 하지만,

우선 한번 보시고, 평가하시는 것도 좋고요.

가급적 엑셀에서 많은 작업을 하고,

통계 프로그램에서는 진짜 통계만 돌리시는 분에게는
도움될 만한 기능입니다.

‘고급 필터’(①)는 '필터'보다 진보된 기능을 보이는데요.

먼저 ‘다른 장소에 복사’(②)를 선택하는

것이 좋습니다.

목록 범위, 조건 범위, 복사 위치는 각각 빨간 화살표로 표시된 부분을 보여 줍니다.

이해를 돕기 위해 색을 넣은 것이지 실제 색은 필요 없습니다.

결과는 이렇게 나옵니다.

35세보다 나이가 많으면서, 성별이 m인 행들만 골라낸 것입니다.

이렇게 만든 것은 보통 사용하는 필터

와 달리 복사해 다른 시트에 넣거나 통계 프로그램으로 옮길 수 있어 편리합니다.

이 작업을 한 이후에 윗표에 일지매를 37세로 바꾼다 해도 결과값에는 반영되지 않습니다.

interactive하게 조절되는 것이 아니라는 거죠.

나이와 성별을 다른 행으로 배치하면, OR라는 뜻이 됩니다.

즉 나이가 35세보다 많거나 남자인 행만 모으게 됩니다.

이렇게 AND와 OR를 행을 바꾸어 주어 자유롭고 직관적으로 사용할 수 있는데,

이것은 자신의 자료를 이용해 통계를 돌리고 연구할 때 매우 편리합니다.

물론 이렇게 하지 않고

상당한 노력을 하든지 혹은 통계 패키지상에서

식을 이용해 이런 작업을 할 수도 있습니다만,

엑셀에서 이 작업을 할 줄 아는 것이 여러 모로 편리합니다.

이 내용은 "논문 쉽고 편하게 쓰자 3편" 182쪽에 나오는 내용입니다.
----------------------------

만약에 어떤 값이 아닐 때는

를 사용합니다. 엑셀 전반에 걸린 연산자이죠.

위의 결과는 m1이 아닌 것을 골라라고 했더니,

m2와 m3를 골라줍니다.

아빠가 들려 주는 [통계] 데이터를 합치자 Merge in Excel

작년에 논문 쓰면서 사용했던 기능인데요.

여러분도 도움되실 것같네요.

‘통합’ 기능은 연구자 A가 조사한 자료와

연구자 B가 조사한 자료를

하나의 시트로 합할 때 필요합니다.

먼저 ①에 자리를 지정한 뒤

‘데이터 → 데이터 도구 → 통합’(②)을 클릭합니다.

③의 칸에, 두 통합할 표 부분 중 하나를 넣고,

추가(④)를 선택하면 ‘모든 참조 영역’으

로 연결됩니다.

지금은 두 표를 하나로 합쳤지만, 여러 개를 합칠 수도 있겠지요.

그다음 표의 행과 열은 공통이기 때문에 ⑤에서 체크합니다.

⑥은 일단 평균으로 했습니다.

다음에 합계나 다른 함수를 선택해 보고 결과를

보면 어떤 의미인지 알게 될 것입니다.

결과가 이렇게 정리됩니다.

통합된 표에는 공통된 홍길동, 나이, 5월이라는 행과 열은 통합되고

나머지는 추가돼 보입니다.

이 기능을 잘 모르면 복사해 붙여넣고 지우고를 수없이 반복해야 합니다.

SPSS에서의 merge와 비슷한 기능입니다.

홍길동이 5월에 위표에서도 5점, 아래표에서도 5점이었기 때문에

평균값은 5점으로 통합된 표에 나왔습니다.

합계를 넣는다면, 통합표에는 10점으로 나올 것입니다

(⑥을 참고하세요). 이것은 때에 따라 유용할 수 있습니다.

-------------------

이상 내용는 제가 쓴 '논문 쉽고 편하게 쓰자 3판' 174쪽 175쪽에 나오는 내용입니다.

이건 보통 국건영이라고 부르는 국가 자료입니다.

작년에 여기서 다운받은 자료로 논문을 썼는데,

자료가 워낙 커서 여러 개로 나뉘어져 있습니다.

그래서, 체중 키 나이 성별 등등의 자료가 들어있는 DB와

다른 자료들이 성격에 따라 나누어져 있더군요.

그러면 그 중에서 우리가 필요로 하는 자료를 합쳐야 합니다.

예를 들어 구강검사 자료로 논문을 써야 한다면,

두 DB에서 식별번호....는 동일하니까..

그것을 중심으로 해서 두 자료를 합쳐야 합니다.

앗, 그 전에 SPSS 파일인 sav파일을

엑셀에서 불러 올 수 있도록 csv 파일로 바꾸어야 하고요,

SPSS에서 merge 기능을 아시는 분은 그냥 SPSS에서 하셔도 됩니다.

아빠가 들려주는 [통계] 오즈비와 위험비 그리고 위험차

아빠가 들려주는 [통계]

오즈비와 위험비 그리고 위험차

(OR, RR & RD)

아마도 일상생활에서 아주 흔하게 쓰면서도

통계 용어로만 등장하면 외국어처럼 생소하게 느껴 지는 말이

이 말이 될 것같군요.

특히 오즈비-또는 승산비-는 특히나 설명하기 어려운 말입니다.

우선 가장 설명하기 쉬운 위험비에 대해서 설명하죠.

특히 한국인에게 더 쉬운 개념입니다.

발생율이라는 것이 있죠

합격율이라는 말과 같습니다. 개념적으로.

A 대학교는 고등학생 100명이 시험을 쳐서 30명이 붙고,

70명이 떨어지게 된다면 합격율이 30%가 됩니다.

B 대학교는 고등학생 100명이 시험을 쳐서 60명이 붙고,

40명이 떨어지게 된다면 합격율이 60%가 됩니다.

그러면 B대학교의 합격율은 A 대학교의 합격율의 2배가 됩니다.

60/30 이니까요.

이것이 위험비(relative risk, 또는 risk ratio 줄여서 RR)입니다.

합격율 또는 발생율을 Risk 라고 부르거든요.

risk라고 하면 괜히 안좋은 것일 거라고 생각하지만,

통계적으로볼 때는

병이 발생하는 것도 risk

병이 낫게 되는 것도 모두 risk라고 합니다.

어쨌든 이 risk의 비율이니까, relative risk, 또는 risk ratio 라고 하고,

한국말로 번역하니 위험비가 됩니다.

이제 이 A 대학교는 남학생과 여학생 비율이 1:3입니다. 여학생이 좀 많죠.

B대학교에는 남학생과 여학생 비율이 3:1입니다.

공대 위주라서 남학생이 좀 많습니다.

그러면 B대학교에 비해서 A대학교가 여학생이 훨씬 많죠?

얼마나 많나요?

남학생을 일치시키고 생각해 볼까요?

A 대학교 1:3 = 3:9

B 대학교 3:1 = 3:1

즉, 남학생을 모두 3으로 일치시키니까, 9배가 많다는 것을 알 수 있습니다.

이것이 오즈비의 개념입니다.

우선 오즈라는 것 odds 는 불균형 이라는 뜻입니다.

even은 평평한 것, 그것의 반대죠.

짝수(even number)와 홀수(odd number)를 생각하면 이해가 됩니다.

그러니까 남녀의 오즈는 1:3과 3:1이며,

이것의 비율은 9입니다.

그것이 오즈비죠

오즈의 비율이니까요.

쌀과 보리를 섞을 때도 1:3으로 섞어라 등등에서도 오즈는 사용됩니다.

잘 생각해 보면, Risk는 처음엔 아니었던 것이 시간이 지나면서 발생하게 되고,

그 비율을 말해 줄 때 쓰입니다.

처음엔 모두 정상이었는데, 시간이 지날 때 병이 발생할 때같이 말이죠.

이런 식의 연구를 코호트 연구라고 합니다.

처음엔 모두 정상이었는데, 10년이 지나고 나니 폐암 발생이 얼마나 되었나 뭐 이런 식이죠.

시간적인 개념이 포함됩니다.

한편 오즈는 그 순간 관찰하는 단면연구 cross sectional 연구의 개념이 포함됩니다.

도시락을 열어 보니, 쌀과 보리가 3:1이었다는 것처럼

대한민국 사람을 살펴보니, 폐암이 10%였다. 뭐 이런 식입니다.

표로 살펴 볼께요.

------------------------------------------------------

그룹 폐암 비폐암 합계

------------------------------------------------------

흡연 30 70 100

비흡연 10 90 100

-------------------------------------------------------

코호트 연구..

처음

흡연자 100명 --->10년 뒤 ---> 폐암 30명 정상인 70명

비흡연자 100명-->10년 뒤---> 폐암 10명 정상인 90명

그러면

(폐암 Risk in 흡연자)=30/100=0.3

(폐암 Risk in 비흡연자)=10/100=0.1

RR of 폐암 Risk in 흡연자 over 폐암 Risk in 비흡연자 =0.3/0.1=3

이렇게 됩니다.

참 위험차는 말그대로 차이입니다.

0.3-0.1=0.2

상대적으로 훨씬 덜 쓰이는 용어이지만, 간단하므로 알아 두세요.

아마도 앞으로 점점 더 많이 쓰이게 될 것같습니다.

그 이유는 담에 설명하기로 하고요.

단면 연구

로도 동일한 표가 만들어 질 수 있습니다.

표로 살펴 볼께요.

------------------------------------------------------

그룹 폐암 비폐암 합계

------------------------------------------------------

흡연 30 70 100

비흡연 10 90 100

-------------------------------------------------------

흡연자 중 폐암 30명 정상인 70명 ==> 오즈 = 30/70

비흡연자 중 폐암 10명 정상인 90명 ==> 오즈 = 10/90

자 그러면 오즈비는 =

(30/70)/(10/90) = 27/7= 3.857...

그래서 오즈비=3.857 위험비= 3 이렇게 계산될 수 있습니다.

이것을 표로 수식으로 나타내면 이렇게 되겠지요.

OR와 RR의 공식도 기호로 표시하였을 뿐 앞서서 했던 이야기의 반복입니다.

연구 디자인에 따라 둘의 사용처는 다르지만, 어쨌든 표로 만들고 나니

비슷하게 보여 집니다.

그리고 혹시, 이 둘 사이의 관계를 표시하면

요렇게 됩니다.

그래서, OR은 RR보다 항상 큽니다.

위의 식을 보면, a/b와 c/d가 0에 가까운 경우에는 거의 비슷해 집니다.

이런 경우가 병이 아주 적게 발생해서, 1%라든지 뭐 이런 경우죠.

가끔 유병율이 작으면 OR과 RR이 비슷해 진다 뭐 이런 이야기는 들었을 수 있는데,

왜 그런지 수학적으로 잘 설명은 안 해 줍니다.

이식으로 보면 명확해 지죠.

그래서, 간혹 OR을 RR처럼 해석하기도 합니다.

즉 발생율이 아닌데, 발생율처럼 해석하기도 합니다.

첨언.

저는 OR을 다른 말로 '발견율'이라고 말하고 싶습니다.

도시락에서 보리와 쌀을 찾아낸 비율처럼

이 순간 마주치게 될 발견율을 말하는 것입니다.

발생율은 시간의 개념이 들어가 있지만,

발견율을 단면적인 개념이 들어가 있지요

그러니까 '오즈비'는 '발견율비'가 되는 거죠.

'발생율비'에 대응하는 말이 되죠.

==========================================================

자 그러면 오즈비와 위험비, 위험차를 그래프로 이해하면 훨씬 쉽게 이해할 수 있습니다.

실제 자료가 이렇게 모였습니다. 흔히 보는 그래프죠?

사실 두 군의 총숫자가 약 80과 110 정도 되기 때문에 빨간 막대를 중심으로 어느쪽이 많은지 조금 애매합니다.

그래서 전체를 1로 하는 막대기로 바꾸어서 잘 표현하곤 합니다.

이렇게 하면, 빨간막대가 얼마나 크고 작은지가 분명해 집니다.

마치 다리가 길다..라고 할 때 몸 전체를 1로 했을 때 다리가 얼마나 긴지 짧은지를 보는 것과도 비슷합니다.

흔히들 사용하는 그래프죠.

이렇게 해서, 1에 비해, 2의 크기가 약 두배 정도 되어 보이는 군요.

이때 1과 2가 각각 발생율 또는 risk라고 부르는 것이고, 이것의 비율이.

risk ratio 입니다. 이 경우는 대충 2 정도 됩니다.

이 risk ratio는 2를 기준으로 하면 0.5 정도 됩니다.

또 빨간색이 아니라, 파란색 즉, 3이나, 4를 기준으로 할 때도 달라집니다.

그렇지만 각각이 서로 환산이 가능하기 때문에 일단 지금은 빨간 막대, 그중에 1을 기준으로 해 봅시다.

한편 여기서, 빨간 막대기의 차이가, risk difference 즉 RD입니다.

보통 많이 쓰지 않고, 통계 프로그램에서 잘 계산해 주지 않는데,

저 개인 생각을는 앞으로 더욱 많이 쓰이게 될 것같다는 생각입니다.

어쨌든 이 그래프 하나로, risk와 risk ratio와 risk difference를 잘 보여

줍니다.

한편 odds raio를 보여 주는 그래프른 흔치 않은데,

이렇게 파란 막대기를 동일하게 1로 만들었을 때,

6에 대해 7의 크기 입니다.

1에 대한 2 즉 RR에 비해서 OR이

훨씬 과장되어 보이는 것을 알 수 있습니다.

사실 이렇게 그래프로 그리는 경우는 흔치 않지만,

이런 OR도 사회에서 흔히 쓰입니다.

의사 1명당 환자수,

간호사 1인당 입원 환자수,

선생님 한명당 학생수

교수 한명당 학생수

뭐 이런 식으로 말이죠.

그리고, 이것을 나라끼리 혹은 지역끼리 비교하면서 바로 오즈비가 되는 것이죠.

교수 한명당 학생수가 5명인 MIT가 어쩌구 저쩌구..토론식 수업이 가능하고..

한편 한국의 경우 교수 한명당 학생이 20명으로 강의 위주의 수업밖에 할 수 없고...

뭐 이런 식의 기사를 보았을 텐데

이렇게 보는 순간 우리는 음 오즈비가 대충 4배..되는군 하면서.

오즈비를 떠올리는 거죠.

그러니까

요약하면 통계에서는 말만 어렵게 바꾸었을 뿐

우리가 일상에서 늘 경험하는 것을

표현하려고 했고,

아주 가까이 있는 것입니다.

2016년 2월 2일 화요일

아빠가 들려 주는 [통계] 데이터를 모으기 전 준비 - 데이터 유효성 검사

사실 논문 쓰기 전 단계인 데이터 잘 모으는 것이 더 중요합니다.

통계는 사실 워낙 기계적이라서... 이제는 시간이 별로 안걸립니다.

자료 모으는 것, 정확히 자료를 모으는 것이 훨씬 중요한 일입니다.

그리고 시간도 많이 걸리고요...

그 이야기를 해 보도록 하겠습니다.

2016년 2월 1일 월요일

아빠가 들려 주는 [통계]오즈비 & 위험비 즉 Odds ratio & Risk ratio

오늘 배울 것은

1. 오즈비 & 위험비 즉 Odds ratio & Risk ratio

가 각각 무엇을 말하느냐?

2. 오즈비 & 위험비

가 일상 생활에서는 어떻게 활용되느냐

3. 오즈비 & 위험비

가 차트로 하면 어떻게 표현되느냐

4. 오즈비 & 위험비

상대적인 크기 비교

동영상 마지막에 생략된 말.

(오즈비가 1보다 큰 경우)

오즈비가 위험비보다 항상 크다는 말을 들어 보셨나요?

유병율이 작을 때 오즈비와 위험비가 비슷해 진다는 말 들어 보셨나요?

왜 그런지 아시겠죠?