2016년 3월 14일 월요일

아빠가 들려 주는 [통계] survival analysis에서 특정 구간에서 두 생존율을 비교하기.

comparison of two survival rate at specific time

노란칸에 값을 넣어 주세요.
통계 프로그램에서 제시하는
survival table에 나온 결과를 넣으면 됩니다.

아래에 나온 빨간 숫자가 p값입니다.

오른쪽에는 공식이 있습니다.


2016년 3월 13일 일요일

아빠가 들려 주는 [수학] 원주율 구하기 아르키메데스 방법(아래에 동영상과 엑셀 파일 있음)



내일은 파이데이 3월 14일입니다.
아들이 파이데이를 이용해서 4행시를 지었다고 하네요.
이런 것도 숙제를 내어 준다는데,
정말 요즘 아이들은 공부를  재미있게 하는군요.
수학과 국어를 접목해서 시를 만들기도 하는군요.
오늘은 파이데이 특집
원주율 구하기 한번 해 보겠습니다.
사실 이렇게 블로그로 올리고
아이들에게 보여 줄려고요.

 우리는 원의 일부인 부채꼴 AOB를 가지고 있습니다.
각도 AOB는 임의 각도, 180도보다 적은 각도라고 해 봅시다.

 만일 우리가 직선 AB의 길이를 알고 있다면,

 이 부채꼴을 정확히 이등분 하는 선분 OC를 그렸을 때,
직선 AC와 직선 BC의 길이를 알 수 있을까요?
이것이 아르키메데스가 생각했던 방법입니다.
이렇게 해서, 무한히 부채꼴을 이등분하면서 생기는 선분 AC와 선분 BC를 더하게 되면
결국 원의 둘레를 구할 수 있다고 생각했던 거죠.


정확한 길이를 계산하는 것은 너무 귀찮은 일이라서 생략하기로 하고
과연 구할 수 있는지만 알아 보는 것으로 하죠.
우선 반지름은 1이라고 가정합시다.
선분 AB의 중점을 D라고 합시다.
이등변 삼각형인 AOB의 밑변을 이등분했으므로
삼각형 ODB는 직각 삼각형입니다.
그러면 피타고라스의 정리에 의해서
선분 OD는 알 수 있습니다.

 그러면 이제 우리는 알 수 있는 값을 o로 표시해 보면,
선분 OB, 선분 BD, 선분 OD를 알 수 있습니다.
한편 선분 OC도 반지름이므로 길이가 1이고,
그렇다면 우리는 선분 CD도 알게 됩니다.
그러면 다시 피타고라스의 정리에 의해서,
선분 BC도 알게 됩니다.

 그럼 다시 알고 있는 것을 정리하게 되면,
결국 우리는 선분 BC와 선분 AC도 알게 됩니다.

 결국 이 모든 과정을 요약하게 되면
우리는 선분 AB를 알고 있다면, 선분 AC와 선분 BC도 알게 됩니다.
그러면 다시
선분 AC를 알고 있으므로 이렇게 생긴 부채꼴을 다시 이등분해서 생긴
이등변 삼각형의 밑변을 알 수 있게 된다는 뜻입니다.

 아주 옛날 사람 아르키메데스는
먼저 첫 삼각형을 (또는 첫 부채꼴 OAB)를 정삼각형으로 정했습니다.
전체적으로 보면 정6각형이 되는 셈이죠.
그러면 선분 AB는 1이 됩니다.
그 다음 단계로는
정 12각형을 그리고, 그 밑변의 길이를 계산합니다.
다시 정 24각형을 그리고, 계산하고,
다시 정 48각형을 그리고, 계산하고,
반복할 때마다 정다각형이 두배씩 변이 많아지게 되고, 그 변의 둘레를
모두 합하면 원둘레에 점차 접근하게 됩니다.
이 작업은 극한의 개념을 가지고 있으며,
어떻게 생각하면 미적분의 개념을 가지고 있었던 것입니다.


이것은 비례식을 이용해서 간단히 계산할 수 있다.
우리는 앞서 선분 OD의 길이를 알 수 있었다.
삼각형 OAB와 삼각형OA’B’는 닮은 삼각형이며,
이것의 비도 알 수 있다.
즉 우리는 이 두 이등변 삼각형의 높이인
선분 OD와 선분 OC를 알기 때문에,
비례를 이용하여, 선분 A’B’를 계산할 수있게 된다.


다시 이 말은 선분 AC의 길이를 알게 되었기에
선분 A’C’의 길이도 알게 된다는 뜻이 된다.
즉 내접하는 정다각형의 둘레를 알면
외접하는 정다각형의 둘레도 알 수 있다는 뜻이다.

 그 옛날 사람 아르키메데스는
이 방법을 이용해서, 먼저 내접하는 정6각형과 외접하는 정6각형을 그려서
그 둘레를 구했다.
그리고, 다시 이를 이용해서,
다시 내접하는 정 12각형과 외접하는 정12각형을 구했다.
다시 이것을 점점 더 세분하여
96각형까지 구했고,
외접하는 것과 내접하는 다각형 둘레가 점차 하나의 값으로
일치한다는 것을 이론적으로
또 실제 계산으로 생각하게 된 것이다.
우리가 고등학교 수학시간에 배우는 극한의 개념,
무한의 개념을 이용한 것이지
구체적으로 상극한과 하극한을 이용한 것이다.
원의 둘레는 그 사이에 있을테니……



위의 동영상에 나온 것을 직접 해 볼 수 있습니다.



오른쪽 아래의 아이콘을 이용해서 전체창으로 확대하여 실험해 보면
더 편리합니다. 




아마도 상상도일 것같은 이 그림의 오른쪽을 보면,
부채꼴을 보여 주는데, 어쩌면 파이를 구하는 모습일 지도 모릅니다.
바로 그 옆에는 나선이 그려져 있군요.
자와 컴퍼스만으로는 그릴 수 없는 도형이죠.
다른 도구가 있다면 그릴 수 있을까요?
다른 몇 가지 도구가 있으면 그릴 수는 있습니다.
이전에 고등학교 때에 그것을 그려 본적이 있는데,
끈이 필요합니다. (힌트)
다음에 이야기하기로 하죠.

지레를 이용해서 지구를 움직일 수도 있다고 말한 것으로도 유명하죠.
(사실 뭐, 지레없이도 여러분도 나도 움직일 수가 있지만. 그건 나중에…)
그리고 여담으로

탈레스(BC 624 ~ BC 545?)가 지중해를 항해하면서 관찰한 바, 땅의 모양의 근거로 땅은 원형 방패처럼 가운데가 부풀어 오른 원반형이라고 말했다. 그리고 이를 근거로 지구가 둥글다고 주장한 사람은 고대 그리스의 피타고라스(BC 570 ~ BC 490)였다. 그는 지구가 둥글며, 완전한 구형이라고 주장했다.
아리스토텔레스(BC 384~BC 322)는 훨씬 실제 관찰 자료에 근거한 주장을 폈다. 월식 때 달에 생기는 지구 그림자가 둥글다는 것, 그리고 남쪽지방으로 가면 북쪽 지방의 하늘에서 볼 수 없었던 별자리가 보이고, 수평선 너머에서 배가 다가올 때 돛대의 끝이 먼저 보이기 시작한다는 것 등을 지구가 둥글다는 증거로 댄 것이다.
에라토스테네스는 한술 더 떠서 기원전 240년에 지구의 둘레를 계산하기도 했다. '하지(북반구에서 해가 가장 높게 올라오는 날)날 정오에 시에네(현재 명칭은 아스완)에서는 해가 머리 위에 있어서 그림자가 생기지 않지만, 알렉산드리아에서는 그림자가 생긴다'는 사실을 토대로 지구의 둘레를 250,000스타디아라고 계산했다.
중세 유럽에서는 종교적인 이유로 지구가 둥글다는 것을 거부하고 지구가 평평하다고 생각했다는 잘못된 인식이 현대에 널리 퍼져 있으나, 대부분의 중세 학자들도 고대의 연구를 받아들여 지구가 둥글다고 생각했다. 애초에 이 시대에는 지동설이냐 천동설이냐가 논쟁의 중심이며, 헬레니즘 시대에 이미 완성된 천동설은 지구 구형설을 전제로 성립된 것이었다. 아우구스티누스, 히에로니무스, 암브로시우스 같은 기독교의 초기 교부들도 모두 지구가 둥글다는 데 동의했다. 토마스 아퀴나스는 아리스토텔레스의 증명을 받아들여 지표면의 다른 곳에서 별자리의 위치가 변하는 것이 지구가 둥글다는 증거라고 생각했다. 로저 베이컨도 자신의 저서에 지구가 둥글다고 분명히 적었고, 캉브레의 대주교였뎐 피에르 다이이도 지구가 구형이라고 말했다.
출처 : https://namu.wiki/w/지구구형론
기원전 287년 정도에 태어난 아르키메데스는 당연히 지구는 둥글다는 것에 이미 익숙했을터,
그러므로, 위와 같은 지레를 이용하면 지구도 움직일 수 있다는 생각을 했을 수도 있다.
그렇지만, 조금 더 생각해서 왜 지구반대편 사람은 떨어지지 않을까라는 생각을 했더라면,
사실 아르키메데스 정도 된다면, 만유인력을 생각했어야 할 것도 같은데....
비록 철학적이거나 관념적인 말이라도 할 수 있을 것같은데
만물의 근원을 숫자로 생각했다거나, 분자로 생각했던 정도의
사람들이, 만유인력을 생각지 못했다는 것은 참으로 의외라는 생각이 든다.
그것도 지금에서야 그 생각을 하는 것이겠지.
사실 부력이 만유인력이나 중력보다 훨씬 어려운 개념이라는 생각이 드는데…….


2016년 3월 6일 일요일

아빠가 들려 주는 [통계] Non-significant Result Means 통계적으로 의미가 없다는 것이 의미하는 바!

 이런 질문이 들어 왔네요.

위의 내용을 표로 만들어 보면 어떤 통계가 필요한지 금방 보입니다.
그리고, 빨간 글씨 14는 여러 모로 보아 잘못된 숫자라 6으로 고쳤습니다.
카이제곱 검정이 필요하다는 것을 금방 알 수 있지요.
상관분석은 최소한 연속변수 간의 분석입니다.
위의 예는 둘다 명목변수이지요.

사실 카이제곱 분석과 상관분석은 아주 유사한 점이 많습니다.
서로의 관계를 분석한다는 점에서 말이죠.
그래도 분명한 차이점이 있습니다.

 예 계산해 보니, p값은 0.5***이 나왔네요.
통계적으로 유의하지 않습니다.
여기서, 중요한 의미가 있습니다.
제가 3대 misconclusion이라고 강조했던 적이 있지요.

"p>0.05면 통계적으로 의미가 없다. not significant 하다"
는 것의 의미를 잘 알아야 하죠.

특히 이 카이제곱 검정의 경우에는
"두 변수사이에 관계가 없다(두 변수는 독립이다)"는 뜻이 아니고,
"두 변수사이에 관계가 없다(두 변수는 독립이다)"는 것을 기각할 수 없다는 뜻입니다.

참 이것을 이해 못하는 분이 많고,
이것 때문에 잘못된 결론 내는 분이 많습니다.
두 변수는  독립이라고 말할 수도 아니라고 말할 수도 없는
그러니까 아무 결론 안난 상태입니다.
not conclusive


범인이라고 말할 수 없다
이 말은 범인이 아니라는 뜻이 아니고,
아직은 증거가 불충분해서
범인이라고 할 수는 없지만,
증거가 더 생기면 범인이라고 할 수도 있는 상태입니다.

p>0.05라는 것은 그런 의미입니다.

하.. 이것을 이해시키기가 얼마나 어려운지.


이전에 제가 썼던 논문에 나온 문장을 그대로 옮겨 보겠습니다. 

Non-significant Result Means

There are some articles that draw a conclusion that there is no difference between two groups because p > 0.05, without calculating sample size. This is clearly a fault because whether a significant difference exists or not, the size of the samples is too small to make a conclusion. Many authors make the same mistakes and researchers warn against this kind of mistake. 'Absence of evidence is not evidence of absence'1) is a free article which contains practical examples, and I highly recommend it to be read. Statistics in orthopaedic paper2) showed a series of errors in orthopaedic papers; e.g., saying "a non-significant result from a two-sample t-test does not imply that the two means are equal, only that there is no evidence to show that they are different."
Indeed, when a survey of 170 orthopaedic papers was conducted in Journal of Bone and Joint Surgery (British), Injury, and Annals of the Royal College of Surgeons of England, 49 papers (28.8%) said that the two groups did not have significant differences but only 3 (6.1%) of the papers calculated the sample size.3)
If you want to make a conclusion that there is no significant difference, you should perform an equivalence test or non-inferiority test. This will be explained another time.

다시 질문하신 분의 글로 돌아와서,
위의 결과는 통계적으로 의미있지 않았습니다.
그렇다고 culture 결과와 증상호전과는 독립이라는 뜻은 아닙니다.
두가지 가능성이 있지요.
그 중 하나가 숫자가 적다보니, not significant했을 수도 있습니다.
숫자가 충분했고, 차이가 없다는 것을 증명하기 위해서는
동등성 검정을 시도했어야 합니다.

동등성, 또는 비열등성 검정이 왜 필요한지에 대해서...
깊이 있는 공부가 앞으로 필요하겠습니다. 

2016년 3월 3일 목요일

2X3 Bang's Blinding Index

2X3 Bang's Blinding Index (무작위 대조 연구에서  가림이 잘 되었는지 확인)


(단축 http://me2.do/xk3TyGC5)

무작위 대조연구가 얼마나 잘 되었나를 판단할 수 있을까요?
그 중에 하나가,
과연 가림이 잘 되었나를 보는 것입니다.
Blinding Index 중에 한국인 교수님에 의해 만들어지고,
편리하고 직관적인 Bang's Blinding index 를
계산해 볼까요?

역시 노란 cell에 값을 넣으면 됩니다.
참고문헌과 예제도 같이 있는데, 엑셀 쉬트 오른쪽 아래에
전체보기를 해서 보시면 더 편리합니다.


아빠가 들려 주는 [통계] McNemar-Bowker's Test (McNemar Test의 확장)

dlrjtdms

McNemar-Bowker's Test는
McNemar Test의 확장이라고 할 수 있습니다.
2가지 방향의 확장이 있을 수 있는데,

평면적인 확장
McNemar Tes에서 answer의종류가 2분변수가 아니라
3이상의 명목변수일 때,

예를 들면
혈액형처럼 A,B,O,AB 같은 경우의 명목형변수인 셈이지요.

집단이 3 이상이 된 경우,
저는 입체적인 확장이라고 표현하고 싶은데,
이 경우는 Cochran Q test가 있죠.

아래는 최대 8X8 table까지 계산이 가능합니다.
가운데 cell인 초록 cell의 값은 계산에 반영되지 않습니다.
노란색에 숫자를 넣으면 값이 계산됩니다.

2x2 table의 경우에는 연속성 수정된 값도 보여 집니다.


http://me2.do/GE2fq9ob


2016년 3월 2일 수요일

아빠가 들려 주는 [통계] 데이터 시각화 -조건부 서식-

 이게 뭐냐 하면
 
뭐 별 것은 아니고요 이런 식으로 표현하는 것을 말합니다.
큰 것과 작은 것, 참 거짓, 증가 감소 이런 것을 표현할 수 있도록 하는 것입니다

 
연속 변수로 된 것은 이렇게 한 열을 선택한 뒤에
데이터 막대로 표현하는 것이 적절할 것같습니다.
이 때 최대값과 최소값을 판단하여 최대값은 모두 채우고,  
최소값은 모두 비워진 막대로 표현합니다.


 
숫자로 된 명목 변수는 표현하기가 좋습니다.
아이콘 집합을 이용해서 화살표나 깃발,신호등으로 표현할 수 있습니다.
주식값이 증가되고 감소된 것도 
어제와 오늘 숫자 옆에 증가된 것을 감소된 것 같은 것을
0,1,-1로 표현하는 셀을 만든 다음
아이콘으로 보여주면 딱 좋겠지요.


 
색조도 숫자로 표현된 명목변수에 적합합니다. 다양한 색조가 있어서 클릭만 몇 번하면 금방 설정이 가능하죠.


 
문자로 된 것은 조금 까다롭습니다.
조건부 서식>새 서식 규칙
에 가서
다음을 포함하는 셀만 서식 지정(1)
특정 텍스트(2)를 지정하고,
어떤 단어를 포함할 것인지 포함하지 않을 것인지,
등등 다양한 옵션을 사용하여 골라냅니다(3)
그 다음 폰트를 바꾸거나 글씨를 바꾸거나,
테두리나 채우기 색등 다양한 것을 서식(4)을 통해 설정할 수 있습니다.
다양한 설정이 가능하다는 장점은 있지만
좀 귀찮습니다.
사실 이 새 서식 규칙은 아주 오래전 엑셀 97인가 그 전부터 있었을 수도 있습니다.
이렇게 복잡하게 하나씩 하는 방식,
그렇지만, 다양한 설정이 가능한 방식에서
가장 많이 사용하는 방식이 리본으로 올라오게 되어
쉽게 클릭 몇번으로 끝나게 되었죠.


현재 R에는 이런 식으로 변수를 한꺼번에 볼 수 있는데
Web-R 알파버젼의 기술통계메뉴에서 가능합니다.
연속변수는 모두 데이터 막대,  
명목변수(숫자로 표현되어 이거나 문자로 되어 있거나)는 
모두 색띠로 표현되어 있습니다

엑셀에 비해서 한꺼번에,
 설정할 것도 거의 없이 만들어진다는 큰 장점이 있고,
전체를 한 눈에 볼 수 있도록 해 주는 장점도 있습니다.
설정할 것이 거의 없어서 바로 해 보실 수 있을 것같습니다.
일반인에게도 공개되면 사용해 보세요
엑셀처럼 세부적인 편집이 가능하거나 
이 차트를 보면서 이상하다고 생각되는 부분의 값을 수정할 수는 없어서 
장단점이 있네요

날마다 발전하는 Web-R,
개발하느라 수고 많으신 운영자님께 감사드리고요.
R만들어 주신분과 패키지 만들어 주신 분께 감사드립니다.
엑셀 개발자분도요.