잘못된
오해가 있어서
결과적으로
큰 문제가 되지 않는 것도 있습니다.
반대로 큰
문제가 있는 것도 있죠.
오늘은 p값에 대한
오해와 파생되는 문제에
관한
이야기를 하겠습니다.
12가지
잘못된 오해에 대한 자세한 복습은
이
글을 읽어 보시면 될 것같습니다.
이글은 보시다시피
존스홉킨스 의과 대학의
Departments of Oncology, Epidemiology,
and Biostatistics,
의
Goodman께서 써 주셨습니다.
무료 PDF는 아닙니다.
저는
p값의 오해에 따른 임상적인 문제점에 대해
3가지
잘못된 결론을 짚어보도록 하겠습니다.
이
문제는 아주 흔히 보게 되는 문제점이고,
각
주제에 대해서 자세히 설명하자면
할
이야기가 너무 많습니다.
또
여러 모양으로 자주 설명한 적이 있습니다.
간단히
살펴 보겠습니다.
N 수가
많아지면 자연스럽게 p값이 작아집니다.
요즘처럼
컴퓨터의 발달로 많은 자료를 얻을 수 있게 된다면,
N 수가 매우
많아질 수 있습니다.
그렇게
되면 임상적으로 별 차이가 없지만
그냥 p값은 매우
작아지는 결과가 생길 수 있습니다.
그래서 p값뿐
아니라, 임상적인
의미를 얼마나 가지는지
표현하는
것이 필요합니다.
즉,
만일
연구가 t-test 였다면,
평균의
차이와 95%신뢰구간을
표현하는 거죠.
출혈양의
차이 p=0.001이더라도
그 차이가
15cc 라면 이건
새로운 수술법이
임상적으로
차이있는
출혈을 줄였다고 보기 힘든 거죠.
이 영역에
대해서는 통계적으로 접근하면 안됩니다.
15ml는
성인 수술에서는 임상적으로는 의미가 없지만,
신생아
수술에서는 의미가 있을 수도 있고,
성인이라도
단위를 엄청 크게 보이도록 단위를 바꿀 수도 있습니다.
즉
통계학자가 판단해 줄 수 없고,
심지어
관련 학자라도, 막상 그 연구를 해보지 않은 사람은
판단하기
힘들 수도 있습니다.
그
분야의 상식이 있는 사람만이 판단할 수 있다는 것이죠.
“다중
검정의 문제”는 제가 아주 여러 번 책과 블로그에서
강조하곤
했던 문제입니다.
“Multiplicity problem” 또는 “Multiple look problem”이라고
검색해
보시라고도 했죠.
아직까지는
한국에서는 별로 많이 이야기 되지 않는 듯하기 때문에
영어로
검색해 보시는 것이 더 좋습니다.
P값의
특성상 여러 번 검사 검정하게 되면
(Multiple look하게 되면)
우연에
의해 여러 가지 값을 가지게 됩니다.
그
중에 어떤 것은 우연에 의해
0.05이하가
될 수도 있고,
아주
작게 0.001이 될 수도 있습니다.
순전히
우연히 말이죠.
그래서, 어떤 특정한 변수 하나에 대해서
한번만
살펴야 한다
즉, 이것이 primary outcome 입니다.
처치
후 3개월 째, pain score 를 primary outcome으로 잡았으면
2개월째와
4개월째는 볼 수는 있어도.
그
논문에서는 의미가 훨씬 적어집니다.
1년
째 혈압강하제의 효과를 본다면,
머리에
털이 더 나는 문제는 이 연구에서 결론 낼 수 없습니다.
단지
다음 연구를 위한 참고 자료가 될 뿐입니다.
이런
것들을 secondary
outcome이라고 하죠.
가끔
다변수 분석을 하든지
혹은
한번 연구에서 20변수를 분석한 뒤
그 중에
어떤 것의 p가 0.01이므로,
‘그
변수가 의미있다’고
판단하는 경우가 아주 흔히 있습니다.
더군다나
그 논문이
다른
논문에 인용되면서 다른 것은 빠지고
의미있다고
말하게 되곤 합니다.
특히
교과서를 쓰는 분들도 이걸 모르고,
논문의
결과를 그냥 인용하기도 합니다.
이 모든
문제가 p값의
특성을 몰라서 발생하는 문제입니다.
아침에 씨리얼을
먹으면 아들을 더 많이 낳게 된다는 논문과
이것이 왜
틀렸는지 설명하는 논문을
이전에 설명드린
적이 있죠. 동영상으로
강의했던 것같은데……
이런 식의
논문이 엄청 많다는 거죠.
그런데
결론이 조금 이상하면 의심이라도 합니다만,
결론에
대해 판단하기 힘든 경우는
의심조차
할 수 없습니다.
통계학자들은
이미 오래 전에 이 문제에 대한 해답을
여러
방법으로 제시했습니다.
주로 p값을
교정하는 방법으로 말이죠.
이에
대해서도 제가 글을 쓴 적이 이미 있습니다.
어떻게 p값을
조절할 것인지 말이죠.
마치
지구는 둥글다는 것이 이미
고대에
이미 증명되었는데,
마치
근대에 와서 새로이 증명된 것처럼
이해하는
것과도 비슷한 현상이 있는 거죠.
또
다른 문제의 하나는 전혀 다르게
P 값이
클 때 발생합니다.
P=0.20 그러므로 두 군이 통계적으로 차이가 없다
라고
결론 내는 경우가 아주 많습니다.
앞서도
말씀 드렸듯이, N이 작아지면 p가 커지는 특성이 있습니다.
이런
경우는
“두
군의 차이가 없다”는 결론은 틀린 것이고,
“두
군의 차이가 있다고 말할 수 없다”라고 표현할 수 있습니다.
즉, 차이가 있는지 없는지 지금으로서는 알 수 없다.
전자는
마치 두 군이 비슷한 결과일 것이라는 뉘앙스를 주며,
실제로
그렇게 해석한 논문이 매우 흔합니다.
두
군이 비슷하다, 차이가 없다는 것은
비열등성 검정 또는 동등성 검정에서 다루어질 내용입니다.