2016년 5월 19일 목요일

아빠가 들려 주는 [통계] P 값이란 무엇인가? Story I


 
ASA 의 공식적인 정의는 이렇지만, 공식적인 정의가 대부분 그렇듯 더 모르게 느껴지곤 합니다.
그래서 조금 쉽게 설명해 보려고 합니다.



 이 두 집단은 전혀 차이가 나지 않는 두 집단이므로 p값은 당연히 0.74…로 매우 크다.



 
순전히 무작위로 추출한 두 집단은 아무런 차이가 없어야 하는데 왜 p값이 이렇게 작게 나오는 거야?
무슨 착오가 생긴 것은 아닐까? 엑셀의 문제인가 컴퓨터의 문제인가?
여러분도 실험해 볼 수 있다. http://me2.do/xNkFSBmE  에서..


 
예 바로 그렇습니다. 아무런 차이가 없는 두 집단도 p값이 작아질 수 있습니다.
대체 얼마나 자주 그런 일이 생길까요?
0.05를 기준으로 하면 5%만큼 그런 일이 생기고요.
0.1 기준으로 하면 10%만큼 생깁니다.
사실 이것이 p값의 정의까지는 아니더라도 기본 성격입니다.
그러므로 우리가 p값이 0.05다 작으면 두 집단의 차이가 있다라고 판단하는 것은
차이가 없는 두 집단(위의 경우)에서 잘못된 판단을 할 경우가 5% 정도 있다는 것이죠.
어라? 이게 보통 말하는 “1종 오류아닌가?
예 바로 그렇습니다. 그말이 그말입니다.


아무런 차이가 없는 두 집단 예를 들어 대한민국 중학생 남학생의 모집단에서 무작위로 100명씩 두 집단을 추출해서 키를 측정한다고 해 봅시다.
T-test를 하면 p값은 당연히 0.05보다 크겠지요?
-이제는 이것이 당연하지 않다는 것을 알게 되었을 것입니다.
어떤 경우는 5%의 확률로 0.05보다 작아진다는 것을 알겠지요?
이런 성격을 가진 것이 p값입니다.

댓글 없음:

댓글 쓰기