레이블이 카파인 게시물을 표시합니다. 모든 게시물 표시
레이블이 카파인 게시물을 표시합니다. 모든 게시물 표시

2016년 2월 16일 화요일

아빠가 들려 주는 [통계] Kappa는 샘플이 중요해!

 Kappa는 샘플이 중요해!
사실 그냥 Kappa만 말하면 심심할 것같아서, 
또 왜 이런 공식이 생겼는지를 생각해 보기 위해서 
이런 주제로 말씀드려 보겠습니다.
 이건 저의 통계학 책으로 첫 책인 
"한눈에 쏙쏙 의학 통계 배우기"의 한 페이지 입니다.
여기에서 한쪽으로 다루었던 내용이죠.
오늘은 이 이야기를 자세히 하려는 것입니다.



위의 왼쪽과 같이 결과가 나왔습니다. 
가슴 사진 100명을 찍었는데, 폐 결핵이 이렇게 나왔습니다. 
두명의 의사가 보니, 
환자 2명은 의사 둘다 양성 결과,
환자 91명은 의사 둘다 음성 판정이었습니다. 
7명의 환자는 의사가 서로 다른 의견이었습니다. 

여기까지는 그냥 알 수 있는 겁니다.


 이게 이렇게 일치된 것을 빨간색으로 표시했습니다. 중요하니까..
그리고,우연에 의해서 일치된 것을 알기 위해서
오른쪽 표를 만듭니다. 
여기서 3은 5x6/100 입니다.
이런 식으로 4개의 칸에 모두 우연에 의한 기대값을 넣습니다.

그리고 '관찰된 일치'는 각각 식을 보시면 알 수 있습니다. 

그리고 제일 아래에는 이런 '관찰된 일치'에서 
'우연에 의한 일치'가 차지하는 것을 
빼 주게 됩니다. 

아주 단순한 방법이죠. 

위의 결과를 보면
대충 보았을 때, 
결핵이 100명중에 아마도 최소 2명 또는 최대9명이 될 것같죠? 
이렇게 양성율이 적은 경우에는 
우연에 의한 일치가 높아지기 때문에 kappa값이 클 수가 
없게 된다는 말씀입니다.


이글은 "dBSTAT 길들이기" 229쪽, 230쪽에
 그냥 잡담비슷하게 쓴 글인데요..
혹시 동무이 될지도 몰라서 옮기겠습니다.

------------------------------
 또 다른 예로, 장난감 칼과 진짜칼이 있습니다. 
보통 칼이라면, 고기도 자를 수 있고, 
과일 정도도 자를 수 있습니다. 

샘플로 두부부터 쇠파이프까지 골고루 있다면, 
아마 장난감 칼과 진짜칼이 구분이 될 겁니다. 그런
데, 딱딱한 파인애플 같은 것이 주로 있다면, 아마 진짜칼로 상당수는 자르기가 힘들고, 
장난감 칼은 혹시 썩은 파인애플이 있으면 자를 수 있을지도 모릅니다. 
한 마디로 샘플이 적절해야 구분해 낼 수 있다는 것이지요. 

수능시험칠 때마다 
이번 수학시험은 너무 쉬워서 만점자가 몇 명이 나오고, 
변별력이 없다는 등의 말을 합니다. 
그런데, 그 시험이 변별력이 있는지 없는지
어떻게 테스트 할까요? 
실력이 골고루 있는 사람들을 대상으로 테스트 해 보아야 알 수 있습니다. 
우등생들만 골라서 테스트 해보면 그 시험문제지는 
고득점자가 많이 나와서 차이를 알 수 없고, 
그 반대로 열등생들만 모아서 시험을 쳐도
 마찬가지 상황이 됩니다. 
즉, 시험문제지를 테스트 해보기 위해서는 
학생들도 골고루 잘 골라야 한다는 것을 이해하실 수 있으시죠?

요약하면 test의 일치도를 파악하려고 하면, 
검사하는 샘플도 잘 선택해야 한다
는 것입니다.
-------------------------------
이처럼 샘플이 한쪽으로 치워져 있으면 당연히 
일치도가 높게 나오기 때문에 변별력이 없는
일상생활의 경험을
그대로 간단한 산수로 옮겨 놓은 것이
kappa입니다.

그렇게 보면 통계는 역시 멀지 않고 가까이
있습니다.
우리가 그럴것같은 그것을 어떻게 
객관적으로 표현해 주는 그것..
그것이 수학이고 통계이지 않을까요?