Statistics for everyone: agreement

McNemar test를 이용해서 일치도를 본다고 일부 책

(아주 널리 보고 있는 SPSS 책이었는데, 굳이 밝히지는 않겠습니다.)
이나 논문에서 이야기하고 있습니다.

이런 결과가 나왔다고 합시다.

즉, 두 검사 모두에서 양성이 나온 사람 200명,

두 검사 모두 음성으로 나온 사람 150명이 있었고,

40명(20+20)은 은 다른 결과를 보였습니다.
McNemar test를 해 보면,

P=0.8744로 유의한 차이가 없었습니다.

그런데 만일 둘 다 양성으로 나온 200과 음성으로 나온 150이 훨씬 적은 숫자였다면,

예를 들어, 10과 5였더라도
그 결과는 같아집니다.

왜냐 하면, McNemar test는 오직 대각선 방향의 20, 20의 숫자로만
결정되기 때문입니다.

라고 하면,

총 두 검사 중에 일치한 경우는 15,

일치하지 않는 경우가 40이고 두 검사가 일치하지 않다는 것이 자명한데,

McNemar test는 전혀 그것에 대해서는 말해 주지 않습니다.

그러므로,

두 검사법의 일치도를 볼 때는 McNemar test는 적당하지 않다

는 것이 저의 생각입니다.

그렇다면, 왜 일부 책과 논문에서 사용할까요?

위의 내용은
https://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_freq_a0000000665.htm
의 것으로,
SAS에서 PROC FREQ에 AGREE 옵션을 이용하면,

McNemar test와 Kappa를 계산해 줍니다.

즉, agreement에 McNemar test를 인정하는 것입니다.

아마도 그 때문인지, 실제 논문
에서도 사용되는 경우가 가끔 있습니다.

(위 내용은 "dBSTAT 길들이기" 234쪽 235쪽의 것을 옮겼습니다.)

아빠가 들려 주는 [통계] 일치도(agreement) 잘못된 통계

연속변수의 일치도에서 가장 흔히 하는 방법이 ICC입니다. Web-R의 진단과 관련된 내용을 검토하다가

다시 보게된 내용.

그 이야기는 담에 하기로 하고, 오늘은 잘못된 사용에 대해서 알아 보겠습니다.

아래 내용은 "dBSTAT 길들이기"245-247쪽을 그대로 가지고 왔습니다.

❖ 상관분석의 잘못된 사용

연속변수 검사법의 일치도와 관련하여

피어슨 상관분석이나 상관계수를 사용하는 논문이 자주 있습니다.

위키피디아에서, Bland와 Altman 의 논문에서,

그리고 ‘한눈에 쏙쏙 의학 통계 배우기’에서 이야기한 바가 있습니다.

Y = 2X + 1인 관계에서 상관분석을 해 본다면, 피어슨 상관계수는 1이 나올 것입니다.

즉

완벽한 상관관계이지요.

그러나 ICC의 경우에는 완벽한 일치가 되면 안됩니다.

Y=X 일 때

만 완벽한 일치가 되어야 합니다.

그러므로 두 검사법의 일치도를 볼 때는 피어슨 상관 분석이나,

상관 계수를 언급하면 안됩니다.

상관관계는 보통 동일한 계체에 두 특성, 체중이나 혈압 같이 단위도 다르고,

크기도 다른 두 값을 비교할 때 보통 사용하게 됩니다.

만일 어떤 진단법을 두번 측정한 뒤에 일치도를 보고,

P값을 언급하는 것도 말이 안됩니다. 동일한 개체에서 키를 재고, 다시 키를 쟀는데,

서로 아무런 관계가 없거나 독립일 수 있을까요?

즉 항상 둘 사이는 깊은 상관관계가

있고 거의 일치할 정도일 수도 있으므로 P값은 0.05보다 매주 작은 경우가 일반적입니다.

그러므로 P값이 0.05보다 작았기 때문에 의미있다거나

이런 식이 이야기를 하는 것은 넌센스입니다.

얼마나 일치하는가가 우리의 관심인 것이지요.

이 그림은 위키피디아에 나온 그림이고,

그 설명입니다.같은 내용이지만 읽어보는 것도 좋겠습니다.

❖ paired t-test의 잘못된 사용

간혹 어떤 연구자는 두 검사의 결과를 paired t-test를 이용해서

p>0.05이므로 두 결과가 유의한 차이가 없다는 식으로 이야기합니다.

Paired t-test는 귀무가설이 평균의 차이가 없다는 뜻으로

서 단순히 말해서 틀린 방법입니다.

단적인 예로 두 진단 결과가 역의 방향이 될 때, 즉 완전히 일치하지 않는 경우에 paired

t-test의 p>>0.05가 됩니다.

비유로 설명하자면,

중간고사의 점수와 기말고사의 점수가 거의 차이가 없이 일치하게 된다면,

paired t-test는 P>>0.05가 될 것이고, ICC는 일치도가 높게 나올 것입니다.

그리고,

상관계수도 아주 높게 나올 것입니다.

만일 중간고사 낮은 사람이 높게 나오고, 높았던 사람이 낮게 나오는 경우

바로 앞의 그래프처럼 감소하는 직선으로 나오게 되었다고 하면,

paired t-test는 P>>0.05가 될 것이고,

상관계수는 -1에 가깝게 나올 것입니다.

ICC는 일치도가 아주 낮게 나올 것입니다.

왜냐하면 일치하지 않으니까요.

이런 경우는 아주 극단적인 경우이지만,

일치도는 아주 낮지만, paired t-test의 값은 높게 나오는 경우를 얼마든지

생각할 수 있기 때문에

두 검사법의 일치도를 보는 것에

paired t-test를 사용하는 것은 틀린 통계가 되겠습니다.

사실 paired t-test의 귀무 가설을 잘 살펴보면 안된다는 것을 알 수 있습니다.

Statistics for everyone

2016년 2월 15일 월요일

아빠가 들려 주는 [통계] McNemar test가 일치도 검사에?

2016년 2월 9일 화요일

아빠가 들려 주는 [통계] 일치도(agreement) 잘못된 통계