2016년 2월 24일 수요일

아빠가 들려 주는 [통계] 3 Wrong Conclusions From P-Value Misconceptions

 
잘못된 오해가 있어서
결과적으로 큰 문제가 되지 않는 것도 있습니다.
반대로 큰 문제가 있는 것도 있죠.
오늘은 p값에 대한 오해와 파생되는 문제에
관한 이야기를 하겠습니다.




 
12가지 잘못된 오해에 대한 자세한 복습은
이 글을 읽어 보시면 될 것같습니다.
이글은 보시다시피
존스홉킨스 의과 대학의
Departments of Oncology, Epidemiology, and Biostatistics,
Goodman께서 써 주셨습니다.
무료 PDF는 아닙니다




 
저는 p값의 오해에 따른 임상적인 문제점에 대해
3가지 잘못된 결론을 짚어보도록 하겠습니다.
이 문제는 아주 흔히 보게 되는 문제점이고,
각 주제에 대해서 자세히 설명하자면
할 이야기가 너무 많습니다.
또 여러 모양으로 자주 설명한 적이 있습니다.
간단히 살펴 보겠습니다.


 
N 수가 많아지면 자연스럽게 p값이 작아집니다.
요즘처럼 컴퓨터의 발달로 많은 자료를 얻을 수 있게 된다면,
N 수가 매우 많아질 수 있습니다.
그렇게 되면 임상적으로 별 차이가 없지만
그냥 p값은 매우 작아지는 결과가 생길 수 있습니다.
그래서 p값뿐 아니라, 임상적인 의미를 얼마나 가지는지
표현하는 것이 필요합니다.
,
만일 연구가 t-test 였다면,
평균의 차이와 95%신뢰구간을 표현하는 거죠.
출혈양의 차이 p=0.001이더라도
그 차이가 15cc 라면 이건 새로운 수술법이
임상적으로 차이있는 출혈을 줄였다고 보기 힘든 거죠.
이 영역에 대해서는 통계적으로 접근하면 안됩니다.
15ml는 성인 수술에서는 임상적으로는 의미가 없지만,
신생아 수술에서는 의미가 있을 수도 있고,
성인이라도 단위를 엄청 크게 보이도록 단위를 바꿀 수도 있습니다.
즉 통계학자가 판단해 줄 수 없고,
심지어 관련 학자라도, 막상 그 연구를 해보지 않은 사람은
판단하기 힘들 수도 있습니다.
그 분야의 상식이 있는 사람만이 판단할 수 있다는 것이죠.


 
다중 검정의 문제는 제가 아주 여러 번 책과 블로그에서
강조하곤 했던 문제입니다.
“Multiplicity problem” 또는 “Multiple look problem”이라고
검색해 보시라고도 했죠.
아직까지는 한국에서는 별로 많이 이야기 되지 않는 듯하기 때문에
영어로 검색해 보시는 것이 더 좋습니다.
P값의 특성상 여러 번 검사 검정하게 되면
(Multiple look하게 되면)
우연에 의해 여러 가지 값을 가지게 됩니다.
그 중에 어떤 것은 우연에 의해
0.05이하가 될 수도 있고,
아주 작게 0.001 될 수도 있습니다.
순전히 우연히 말이죠.
그래서, 어떤 특정한 변수 하나에 대해서
한번만 살펴야 한다
, 이것이 primary outcome 입니다.
처치 후 3개월 째, pain scoreprimary outcome으로 잡았으면
2개월째와 4개월째는 볼 수는 있어도.
그 논문에서는 의미가 훨씬 적어집니다.
1년 째 혈압강하제의 효과를 본다면,
머리에 털이 더 나는 문제는 이 연구에서 결론 낼 수 없습니다.
단지 다음 연구를 위한 참고 자료가 될 뿐입니다.
이런 것들을 secondary outcome이라고 하죠.
가끔 다변수 분석을 하든지
혹은 한번 연구에서 20변수를 분석한 뒤
그 중에 어떤 것의 p0.01이므로,
그 변수가 의미있다고 판단하는 경우가 아주 흔히 있습니다.
더군다나 그 논문이
다른 논문에 인용되면서 다른 것은 빠지고
의미있다고 말하게 되곤 합니다.
특히 교과서를 쓰는 분들도 이걸 모르고,
논문의 결과를 그냥 인용하기도 합니다.
이 모든 문제가 p값의 특성을 몰라서 발생하는 문제입니다.
아침에 씨리얼을 먹으면 아들을 더 많이 낳게 된다는 논문과
이것이 왜 틀렸는지 설명하는 논문을
이전에 설명드린 적이 있죠. 동영상으로 강의했던 것같은데……
이런 식의 논문이 엄청 많다는 거죠.
그런데 결론이 조금 이상하면 의심이라도 합니다만,
결론에 대해 판단하기 힘든 경우는
의심조차 할 수 없습니다.
통계학자들은 이미 오래 전에 이 문제에 대한 해답을
여러 방법으로 제시했습니다.
주로 p값을 교정하는 방법으로 말이죠.
이에 대해서도 제가 글을 쓴 적이 이미 있습니다.
어떻게 p값을 조절할 것인지 말이죠.
마치 지구는 둥글다는 것이 이미
고대에 이미 증명되었는데,
마치 근대에 와서 새로이 증명된 것처럼
이해하는 것과도 비슷한 현상이 있는 거죠.


또 다른 문제의 하나는 전혀 다르게
P 값이 클 때 발생합니다.
P=0.20 그러므로 두 군이 통계적으로 차이가 없다
라고 결론 내는 경우가 아주 많습니다.
앞서도 말씀 드렸듯이, N이 작아지면 p가 커지는 특성이 있습니다.
이런 경우는
두 군의 차이가 없다는 결론은 틀린 것이고,
두 군의 차이가 있다고 말할 수 없다라고 표현할 수 있습니다.
, 차이가 있는지 없는지 지금으로서는 알 수 없다.
전자는 마치 두 군이 비슷한 결과일 것이라는 뉘앙스를 주며,
실제로 그렇게 해석한 논문이 매우 흔합니다.
두 군이 비슷하다, 차이가 없다는 것은
비열등성 검정 또는 동등성 검정에서 다루어질 내용입니다.

댓글 없음:

댓글 쓰기