2016년 3월 6일 일요일

아빠가 들려 주는 [통계] Non-significant Result Means 통계적으로 의미가 없다는 것이 의미하는 바!

 이런 질문이 들어 왔네요.

위의 내용을 표로 만들어 보면 어떤 통계가 필요한지 금방 보입니다.
그리고, 빨간 글씨 14는 여러 모로 보아 잘못된 숫자라 6으로 고쳤습니다.
카이제곱 검정이 필요하다는 것을 금방 알 수 있지요.
상관분석은 최소한 연속변수 간의 분석입니다.
위의 예는 둘다 명목변수이지요.

사실 카이제곱 분석과 상관분석은 아주 유사한 점이 많습니다.
서로의 관계를 분석한다는 점에서 말이죠.
그래도 분명한 차이점이 있습니다.

 예 계산해 보니, p값은 0.5***이 나왔네요.
통계적으로 유의하지 않습니다.
여기서, 중요한 의미가 있습니다.
제가 3대 misconclusion이라고 강조했던 적이 있지요.

"p>0.05면 통계적으로 의미가 없다. not significant 하다"
는 것의 의미를 잘 알아야 하죠.

특히 이 카이제곱 검정의 경우에는
"두 변수사이에 관계가 없다(두 변수는 독립이다)"는 뜻이 아니고,
"두 변수사이에 관계가 없다(두 변수는 독립이다)"는 것을 기각할 수 없다는 뜻입니다.

참 이것을 이해 못하는 분이 많고,
이것 때문에 잘못된 결론 내는 분이 많습니다.
두 변수는  독립이라고 말할 수도 아니라고 말할 수도 없는
그러니까 아무 결론 안난 상태입니다.
not conclusive


범인이라고 말할 수 없다
이 말은 범인이 아니라는 뜻이 아니고,
아직은 증거가 불충분해서
범인이라고 할 수는 없지만,
증거가 더 생기면 범인이라고 할 수도 있는 상태입니다.

p>0.05라는 것은 그런 의미입니다.

하.. 이것을 이해시키기가 얼마나 어려운지.


이전에 제가 썼던 논문에 나온 문장을 그대로 옮겨 보겠습니다. 

Non-significant Result Means

There are some articles that draw a conclusion that there is no difference between two groups because p > 0.05, without calculating sample size. This is clearly a fault because whether a significant difference exists or not, the size of the samples is too small to make a conclusion. Many authors make the same mistakes and researchers warn against this kind of mistake. 'Absence of evidence is not evidence of absence'1) is a free article which contains practical examples, and I highly recommend it to be read. Statistics in orthopaedic paper2) showed a series of errors in orthopaedic papers; e.g., saying "a non-significant result from a two-sample t-test does not imply that the two means are equal, only that there is no evidence to show that they are different."
Indeed, when a survey of 170 orthopaedic papers was conducted in Journal of Bone and Joint Surgery (British), Injury, and Annals of the Royal College of Surgeons of England, 49 papers (28.8%) said that the two groups did not have significant differences but only 3 (6.1%) of the papers calculated the sample size.3)
If you want to make a conclusion that there is no significant difference, you should perform an equivalence test or non-inferiority test. This will be explained another time.

다시 질문하신 분의 글로 돌아와서,
위의 결과는 통계적으로 의미있지 않았습니다.
그렇다고 culture 결과와 증상호전과는 독립이라는 뜻은 아닙니다.
두가지 가능성이 있지요.
그 중 하나가 숫자가 적다보니, not significant했을 수도 있습니다.
숫자가 충분했고, 차이가 없다는 것을 증명하기 위해서는
동등성 검정을 시도했어야 합니다.

동등성, 또는 비열등성 검정이 왜 필요한지에 대해서...
깊이 있는 공부가 앞으로 필요하겠습니다. 

2016년 3월 3일 목요일

2X3 Bang's Blinding Index

2X3 Bang's Blinding Index (무작위 대조 연구에서  가림이 잘 되었는지 확인)


(단축 http://me2.do/xk3TyGC5)

무작위 대조연구가 얼마나 잘 되었나를 판단할 수 있을까요?
그 중에 하나가,
과연 가림이 잘 되었나를 보는 것입니다.
Blinding Index 중에 한국인 교수님에 의해 만들어지고,
편리하고 직관적인 Bang's Blinding index 를
계산해 볼까요?

역시 노란 cell에 값을 넣으면 됩니다.
참고문헌과 예제도 같이 있는데, 엑셀 쉬트 오른쪽 아래에
전체보기를 해서 보시면 더 편리합니다.


아빠가 들려 주는 [통계] McNemar-Bowker's Test (McNemar Test의 확장)

dlrjtdms

McNemar-Bowker's Test는
McNemar Test의 확장이라고 할 수 있습니다.
2가지 방향의 확장이 있을 수 있는데,

평면적인 확장
McNemar Tes에서 answer의종류가 2분변수가 아니라
3이상의 명목변수일 때,

예를 들면
혈액형처럼 A,B,O,AB 같은 경우의 명목형변수인 셈이지요.

집단이 3 이상이 된 경우,
저는 입체적인 확장이라고 표현하고 싶은데,
이 경우는 Cochran Q test가 있죠.

아래는 최대 8X8 table까지 계산이 가능합니다.
가운데 cell인 초록 cell의 값은 계산에 반영되지 않습니다.
노란색에 숫자를 넣으면 값이 계산됩니다.

2x2 table의 경우에는 연속성 수정된 값도 보여 집니다.


http://me2.do/GE2fq9ob


2016년 3월 2일 수요일

아빠가 들려 주는 [통계] 데이터 시각화 -조건부 서식-

 이게 뭐냐 하면
 
뭐 별 것은 아니고요 이런 식으로 표현하는 것을 말합니다.
큰 것과 작은 것, 참 거짓, 증가 감소 이런 것을 표현할 수 있도록 하는 것입니다

 
연속 변수로 된 것은 이렇게 한 열을 선택한 뒤에
데이터 막대로 표현하는 것이 적절할 것같습니다.
이 때 최대값과 최소값을 판단하여 최대값은 모두 채우고,  
최소값은 모두 비워진 막대로 표현합니다.


 
숫자로 된 명목 변수는 표현하기가 좋습니다.
아이콘 집합을 이용해서 화살표나 깃발,신호등으로 표현할 수 있습니다.
주식값이 증가되고 감소된 것도 
어제와 오늘 숫자 옆에 증가된 것을 감소된 것 같은 것을
0,1,-1로 표현하는 셀을 만든 다음
아이콘으로 보여주면 딱 좋겠지요.


 
색조도 숫자로 표현된 명목변수에 적합합니다. 다양한 색조가 있어서 클릭만 몇 번하면 금방 설정이 가능하죠.


 
문자로 된 것은 조금 까다롭습니다.
조건부 서식>새 서식 규칙
에 가서
다음을 포함하는 셀만 서식 지정(1)
특정 텍스트(2)를 지정하고,
어떤 단어를 포함할 것인지 포함하지 않을 것인지,
등등 다양한 옵션을 사용하여 골라냅니다(3)
그 다음 폰트를 바꾸거나 글씨를 바꾸거나,
테두리나 채우기 색등 다양한 것을 서식(4)을 통해 설정할 수 있습니다.
다양한 설정이 가능하다는 장점은 있지만
좀 귀찮습니다.
사실 이 새 서식 규칙은 아주 오래전 엑셀 97인가 그 전부터 있었을 수도 있습니다.
이렇게 복잡하게 하나씩 하는 방식,
그렇지만, 다양한 설정이 가능한 방식에서
가장 많이 사용하는 방식이 리본으로 올라오게 되어
쉽게 클릭 몇번으로 끝나게 되었죠.


현재 R에는 이런 식으로 변수를 한꺼번에 볼 수 있는데
Web-R 알파버젼의 기술통계메뉴에서 가능합니다.
연속변수는 모두 데이터 막대,  
명목변수(숫자로 표현되어 이거나 문자로 되어 있거나)는 
모두 색띠로 표현되어 있습니다

엑셀에 비해서 한꺼번에,
 설정할 것도 거의 없이 만들어진다는 큰 장점이 있고,
전체를 한 눈에 볼 수 있도록 해 주는 장점도 있습니다.
설정할 것이 거의 없어서 바로 해 보실 수 있을 것같습니다.
일반인에게도 공개되면 사용해 보세요
엑셀처럼 세부적인 편집이 가능하거나 
이 차트를 보면서 이상하다고 생각되는 부분의 값을 수정할 수는 없어서 
장단점이 있네요

날마다 발전하는 Web-R,
개발하느라 수고 많으신 운영자님께 감사드리고요.
R만들어 주신분과 패키지 만들어 주신 분께 감사드립니다.
엑셀 개발자분도요.

2016년 2월 29일 월요일

what is Chi-squared test?

what is Chi-squared test?

카이제곱 검정은 무엇인가? 어떻게 계산하는가? 어떻게 묘사하는가?


















2016년 2월 25일 목요일

아빠가 들려 주는 [통계] Excel Merge 국건영 자료 예제

 
얼마전 엑셀에서 Merge 기능에 대해서 짧은 글을 올린 적이 있는데,
안된다고 하시는 분이 있어서
다시 올립니다.
그 때는 아주 작은 예제를 사용하였는데
오늘은 국건영 자료를 사용해서 해 보겠습니다.


 
2014년 자료는 5개의 sav 파일이 있고, 그것을 각각 csv 파일로 바꾸었습니다.
바꾸는 방법은 SPSSPSPP 에서 불러서 바꾸거나,
R에서 특별한 패키지를 사용해서 불러서, csv로 저장할 수 있습니다.
물론 mergeSPSSR에서 바로 하면 되는데..
어쨌든 이번에는 엑셀에서 해보기 위해 csv로 바꾸었습니다.


 
이렇게 두 개의 파일을 불렀습니다.
두 파일의 필드명이 V열까지는 일치하는 군요.
일치하는 부분을 녹색으로 표시했습니다.
사실 이렇게 일치하는 것은 적절히 정리해서, ID에 해당하는 것만 빼고,
하나를 삭제해도 되지만,
이번에는 그냥 그대로 살려 두겠습니다.
merge 되는지도 알아 볼겸.


 
자 이제는 merge(통합)하기 위해서, 새로운 빈 sheet(1) 열었습니다.
데이터 리본의 통합(2)을 클릭합니다.
먼저 일치하는 것는 평균하도록 설정(3)합니다.
만일 성별에 12가 있다면, 성별이 1.5 될 것입니다.
국건영 자료는 잘 정리되어서 그런 경우는 없겠지요.
.
참조칸에 위 자료를 선택합니다.(4)
이 때, 왼쪽 위의 칸 즉, A1 cell을 선택한 뒤, Ctrl + shift + 화살표를 이용하면
많은 자료도 한꺼번에 선택됩니다.
그 다음 추가(5)’를 클릭하면 됩니다.
.
참 이 때 국건영 자료의 경우에
A열에 연도를 보여주는 자료 즉 동일한 값이 있으므로,
A열을 제거했습니다.
그래서, 지금 이 자료에는 A열 즉 제일 왼쪽 열이 ID가 되었습니다.
(7)
필드명은 가독성이 좋도록 색을 바꾸고, 틀고정을 했습니다.


 
자 이렇게 해서, 위의 것이 참조 영역으로 내려왔습니다.(1)


 
아래쪽 쉬트의 것도 역시 동일한 방법으로
참조에서 선택하고 추가하여


 
아래쪽의 모든 참조 영역으로 가지고 옵니다.
첫 행왼쪽 열”(4)을 선택해 주고,
확인을 클릭합니다.


 
시간이 흐른 뒤에
이렇게 정리가 되었습니다.
(컴퓨터의 사정에 따라 다르겠지요,
아마도 R이나 SPSS보다는 느릴 것같다는 생각이 듭니다.
엑셀이 이런 일을 하는 전문 툴은 아니니까요.
대신에 아주 직관적으로 편리하죠.)


정리해서 보니, ALL 파일은 7551행까지 있고,
OE 파일은 7168행까지 있군요.
Merge 결과에서는 7551행까지 있습니다.
공통되는 필드들은 공통으로 되어 있습니다.
Sex 필드에는 모두 12로 잘 모아져 있습니다.
이렇게 해서 엑셀로 merge하는 법을 알아 보았는데
글로 쓸려니까 길어진 것이지
막상해 보면 아주 직관적이고 간단합니다.