Statistics for everyone: ASA

만일 기존의 약을 대조군으로 하고, 신약의 효과를 검토하려고 할 때

기존약과 동일한 성분으로 색깔만 다른 약(혹은 비타민제 첨가)을 투여했다고 합시다.

그러면 대부분 (95% 정도는) 효과가 없다고 나오겠지만,

5% 는 차이가 있다고 나올 것입니다.

어떤 다국적 제약회사가 100개국에 지사를 두고 있는데,

각 나라마다 동일한 실험을 했다고 합시다.

우연에 의해 차이가 날 확률은 5%즉, 5개 나라는 차이가 있다고 나오겠네요.

그 중에 우수하다고 나올 확률은 절반 2.5개 나라 정도는 우수하게 나올 것이 예상되죠.

자 그러면 그 회사는 다른 나라의 연구결과는 발표하지 않고,

그 우수하다고 나온 (p<0.05이면서) 두 나라의 연구 결과를 발표한다고 합시다.

이런 가설을 말합니다.

이 나라의 경우에 어쩌구저쩌구… 해서 더 좋은 결과가 나온 것같다고까지 이야기합니다..

그리고, 그 나라의 결과를 이용해서 발표하고 판매한다고 합니다.

이것이 옳거나 윤리적이라고 생각하시나요?

만약 아니라면 왜 아니라고 생각하시죠?

이것은 p값의 원래 성격입니다. 결코 p값은 판별해 주는 심판자가 아니며

그 단어 그대로 ‘probability’ 즉 확률입니다.

이미 두 나라에서 p<0.05이며 임상적으로 우수하다는 논문이 나왔는데,

한국의 김박사가 다시 한번 실험을 합니다. 어떻게 나올까요?

앞서 나온 결과들은 재현이 가능하지 않습니다. 역시 2.5% 정도 우수하다고 결과가 나오겠지요.

그러면 다른 나라에서 우수한 제약회사가 정성스럽게 만든 논문에서

이렇게 우수하다고 결과가 나왔는데

왜 우리는 안될까

대학원생을 다그치고, 레지던트를 야단칩니다.

또는 무언의 압박을 가할 수도 있겠지요..

또는 논문을 내야 한다는 생각에 조금이라도 유의미할 것이라는 선입견을 가지고

환자들에게 질문할 때의 태도도 좀 달라집니다.

그러면 안됩니다.

--------------

이 모든 문제가 왜 발생했느냐 하면,

먼저의 다국적 회사가

검토한 모든 p값을 발표하지 않았기 때문에 생기는 오해입니다.

P값은 모든 조사한 p값, 즉 유의미하든 하지 않든 발표해야 합니다.

그렇지 않으면 유의미하다고 한 p값은 과장이요 속임이 되기 때문입니다.

마치 농구에서 “3점 슛을 10번 넣었다”고 말하는 것과 비슷합니다.

마치 “10번 던져서 10번 넣었다”는 것처럼 말하면 안되고, 총 100번 중 10번이라고 말해야

하는 것처럼 몇 번의 test를 했는데 그 중에 p값이 이렇게 나왔다고

말해야 하는 것입니다.

앞에서 했던 실험을 약간 다른 각도로 생각해 봅시다.

무작위 추출을 여러 번 한 것이 아니라,

그림은 앞서 보았던 것으로,

하나의 집단에서 아무런 처치를 하지 않은 두 집단을 무작위로 뽑은

그 실험을 반복하였을 때의 t-test 결과들을 보여 주는 것입니다.

이제는 약간 다른 실험을 하겠습니다.

무작위로 뽑은 집단은 둘을 비교합니다.

그런데 그 집단에서 키, 몸무게, 영어 성적, 국어 성적, 수학 성적,

지능지수 등등 온갖 정보들을 조사하여 t-test를 했다고 해도

비슷한 상황이 될 것같습니다.

두 집다은 아무런 다른 조치를 하지 않았기에

모든 정보들이 차이가 없도록, 즉 p>0.05 이라고 나와야 할 것같지만,

앞서 보았던 그 p의 성격 때문에

우연하게도 약 20가지 조사를 하면 한 가지 정도는 0.05 이하로 나옵니다.

이것이 p의 성격입니다.

다시 여러분이 제약회사라고 치고 새로운 종합 비타민 약을 개발했는데,

(사실 색깔만 다른 약입니다.)

100명 정도씩 양군으로 추출한 뒤에

여러 가지 조사를 하다보면 하필이면 수학성적이 더 우수하게 나올 수 있습니다.

뭔가 하나라도 우수하게 나올 가능성은 2.5%이죠, 유의 수준을 5%로 조정하면 말이죠.

이렇게 보고서가 나왔다면 어떻게 읽어야 할까요?

1) “와. 새로운 약은 수학을 유의하게 올리는 구만”

2) “여러 변수를 조사하다가 우연에 의해 p값이 작게 나온 거구만”

어떻게 해석하는 것이 옳을까요?

예 지금까지 이야기를 잘 이해하셨다면 2)을 골라야 합니다.

반론을 제기해도 소용없습니다.

이미 이것에 대해서는 오래 전에 이론적으로 다 끝난 이야기이기 때문에…….

그런데 얼마나 많은 논문들이 1)과 같은 결론을 이야기 하고 있는지요.

마치 규칙을 모르는 선수와 규칙을 모르는 심판의 게임에서

규칙을 모르는 관중들과도 같습니다.

다른 것은 빼 버리고

왜냐하면 별로 중요하지 않다고 생각해서..

수학 성적만 발표했다면..

이것은 반칙입니다.

그런데 그것이 반칙인지 선수도 모르고 반칙을 하고 있는 것같습니다.

이 모든 것이 p값의 성격을 모르기 때문에 발생하는 일입니다.

만일 정말 수학 성적이 올라가는지 알고 싶다면,

수학 성적을 primary outcome으로 잡고

다시 실험하면 됩니다.

만일 우연에 의해 유의하게 나온 것이라면,

약 95%의 경우(대부분) p>0.05 가 될 것이고,

진짜로 차이가 있었다면 (대부분-항상은 아니고) p<0.05가 될 것입니다.

나머지는 모두 secondary outcome…

그리고, secondary outcome의 해석에 대해서는 너무 깊은 의미를 두지 말고,

그냥 한번 본다는 정도의 의미…

결론은 아니고…

이런 secondary outcome이 가지는 의미를 충분히 이해하려면

P값을 알아야 하고, p값을 알고 나면 p값이 그렇게 almighty 하지 않다는 것을

느끼게 될 것입니다.

여러 번의 test를 해서, 어떤 값이 0.05 이하로 나오는 것은

마치, 과녁에 화살을 여러 번 던지는 것과도 같습니다.

빨간 과녁이 전체 면적의 5%라면, ,

열번 던지다 보면, 그 중에 한번 중심에 꽂힐 가능성이 높아 집니다.

그러므로 여러 번 던지게 되어서 한번이라도 맞게될 확률을

5%로 조정하려면 어떻게 하면 될까요?

빨간 과녁을 줄이면 됩니다..

이런 방법 중에 대표적인(가장 단순한) 방법이

본페로니 방법입니다.

열번을 던진다면, 0.005%가 되도록 만들어 버리는 것이죠.

그외 다양한 방법에 대해서는

에 이미 방법 설명과 함께 실제 계산할 수 있도록 해 두었지요.

ASA 의 공식적인 정의는 이렇지만, 공식적인 정의가 대부분 그렇듯 더 모르게 느껴지곤 합니다.

그래서 조금 쉽게 설명해 보려고 합니다.

이 두 집단은 전혀 차이가 나지 않는 두 집단이므로 p값은 당연히 0.74…로 매우 크다.

순전히 무작위로 추출한 두 집단은 아무런 차이가 없어야 하는데 왜 p값이 이렇게 작게 나오는 거야?

무슨 착오가 생긴 것은 아닐까? 엑셀의 문제인가 컴퓨터의 문제인가?

여러분도 실험해 볼 수 있다. http://me2.do/xNkFSBmE 에서..

예 바로 그렇습니다. 아무런 차이가 없는 두 집단도 p값이 작아질 수 있습니다.

대체 얼마나 자주 그런 일이 생길까요?

0.05를 기준으로 하면 5%만큼 그런 일이 생기고요.

0.1을 기준으로 하면 10%만큼 생깁니다.

사실 이것이 p값의 정의까지는 아니더라도 기본 성격입니다.

그러므로 우리가 p값이 0.05다 작으면 두 집단의 차이가 있다라고 판단하는 것은

차이가 없는 두 집단(위의 경우)에서 잘못된 판단을 할 경우가 5% 정도 있다는 것이죠.

어라? 이게 보통 말하는 “1종 오류” 아닌가?

예 바로 그렇습니다. 그말이 그말입니다.

아무런 차이가 없는 두 집단 예를 들어 대한민국 중학생 남학생의 모집단에서 무작위로 100명씩 두 집단을 추출해서 키를 측정한다고 해 봅시다.

T-test를 하면 p값은 당연히 0.05보다 크겠지요?

-이제는 이것이 당연하지 않다는 것을 알게 되었을 것입니다.

어떤 경우는 5%의 확률로 0.05보다 작아진다는 것을 알겠지요?

이런 성격을 가진 것이 p값입니다.

Statistics for everyone

2016년 5월 20일 금요일

아빠가 들려 주는 [통계] P 값이란 무엇인가? Story II

2016년 5월 19일 목요일

아빠가 들려 주는 [통계] P 값이란 무엇인가? Story I