레이블이 t-test인 게시물을 표시합니다. 모든 게시물 표시
레이블이 t-test인 게시물을 표시합니다. 모든 게시물 표시

2017년 1월 27일 금요일

아빠가 들려 주는 [통계] 두 집단의 분포와 t-test

.

이건 거의 사용되지 않을 수도 있지만,
두 집단의 분포가 있을 때, p값을 구해보는 하나의 예입니다.

분포가 비슷해 보일 때(평균과 표준편차가 정해지면)
n 수에 따라서 p값이 어떻게 변하는지를 보여주기 위한 것으로
교육용으로 만든 것입니다.

뭐, 혹시 t-분포정규분포 그리고 싶으신 분은
캡쳐해서 쓰셔도 되고요..
분포는 엑셀에서 계산된 정확한 t 분포 곡선입니다. 

2016년 3월 25일 금요일

아빠가 들려 주는 [통계] 비열등성 검정 : t-test 를 이용한 경우


 
 p값에 대한 제가 생각하는 3대 오해 중의 하나는
비열등성 검정과 관련된 것입니다.
“p>0.05 이면 두 군에 의미없는 차이가 없다.”
는 오해인데요. 대부분의 경우에 차이가 없다기 보다는
샘플 수가 작아서 차이가 있는지 발견하지 못했다는 것이 정확한 결론입니다.
다시 말해서 p>0.05 인 것은 차이가 없다는 것을 증명하는 도구가 아닙니다.
차이가 없다는 것을 증명하기 위해서는 비열등성 또는 동등성 검정을 하여야 하고
이에 대해서는 저의 책에서 아주 자세히 설명드렸는데요
오늘은 그냥 간단한 예를 한번 들어 보겠습니다. 
마침 어떤 분이 질문하셔서요.

(이 글의 메일 마지막에 엑셀 쉬트로 계산해 볼 수 있습니다)


 
오늘 이 쉬트는 기존의 논문에서 나온 값을 이용해서 비열등성 검정을 해보기 위한 것입니다.
2013924일에 올린 카페글에 대한 질문이 있어서
조금 자세히 설명드리려 합니다.
기존 논문에서는 두 군의 평균과 95%신뢰구간이 각각 위와 같다고 하고,
P값은 0.05보다 높다고 하면서 두군의 차이가 없다고 하면 옳겠습니까?


 
엑셀 파일에서도 p값을 계산해 줍니다.  P=0.3267이네요.
이 값만 가지고는 비열등한지 말해 주지 않습니다.
여기서 평균차의 95%신뢰구간을 보여 주는데요.
이 신뢰구간과 비열등성 한계를 비교하여 알 수 있게 됩니다.


 
엑셀 쉬트를 오른쪽으로 가보면 차트가 보이는데,
이 차트를 보면 조금 더 이해하기가 편할 수도 있습니다.
이 구간에 0 포함되면 p값은 0.05보다 커지게 됩니다.
그런데 그것은 비열등한지 아닌지 알 수 없습니다.
비열등성 한계를 -0.18로 잡았다면(점선 화살표)
비열등성 한계가 95%신뢰구간과 겹쳐 있으면 이것은 비열등성 하지 않은 것입니다.
샘플의 숫자가 점차 늘어 나면, 신뢰구간이 줄어들게 됩니다.


 
이 엑셀 쉬트는 당시에
그냥 ‘p>0.05이므로 의미없는 차이가 없었다는 식으로 결론내는
논문이 워낙 많아서
그렇게 하면 안된다.
비열등성 검정을 해야 한다.
등등을 설명하기 위해서 만든 쉬트입니다.



위의 두 개는 95%신뢰구간을 이용해서 SD를 계산하도록 한 것인데,
이것은
기존의 논문에서 95%신뢰구간을 제시하는 경우가 많아서이고요.
아래 두 개는 그냥 SD를 이용한 것입니다.
그리고, ITT라고 된 것과 PP라고 된 것이 있는데,
이것은 n수가 다를 때, 어떻게 되는지 비교하기 위한 것입니다.
일반적으로 우위성 검정에서는 ITT가 기본이 되는데요.
비열등성 검정에서는 ITT보다는 PP가 보수적이기 때문에
PP의 중요성이 커집니다.
이에 대한 설명을 하기 위해서 둘을 비교하도록 한 것입니다.
한마디로 실제로는 별로 쓸모 없는데,
강의를 할 때는 도움이 되는 것이라서 그냥 만들어 보았습니다.
혹시 강의하시는 분은 쓰셔도 되겠습니다.  




2016년 2월 11일 목요일

아빠가 들려 주는 [통계] Regression과 t-test의 만남


아빠가 들려 주는 [통계] Regression과  t-test의 만남




Regression은 통계에 있어서 거의 만능입니다
많은 통계를 그냥 품어 버렸습니다
굳이 따로 배우긴 했지만, t-test를 품어 버렸습니다. 
통계 강의 시간에는 이것에 대해서는 별로 이야기하지 않는다
전공자들은 당연히 알고 있는 내용이지만
괜히 이야기해서 복잡해질까봐 안하는 것이겠죠.
SAS나 R이나 Stata를 사용하면 거의 저절로 알게 되는 이야기라고 할 수 있습니다. 
그 이야기는 나중에 하겠습니다.

이 이야기는 한눈에 쏙쏙 의학 통계 배우기 104, 105쪽"에서 잠깐 설명한 적이 있었던 
이야기를 자세히 하려고 하는 것입니다
, ‘t-test가 regression의 특수한 형태이다라는 이야기......

 regression은 원래 다양한 독립변수를 취할 수 있지만
단 하나의 독립변수그것도 더미변수화된 명목변수라면 결국 t-test와 같은 결과가 됩니다.

예를 들어서 설명하면 이해하기 좋을 것입니다.


이렇게 두 개의 그룹이 있습니다
두 그룹은 각각 10마리의 코끼리에게 어떤 처치를 하고 혈압(BP)를 잰 것입니다
(어짜피 코끼리로 실험할 일이 없을 것같아서 그냥 상상해 보았습니다
그러므로 저 자료값은 전혀 현실과 무관합니다.)
그래프를 보니, ‘0그룹 BP는 ‘1그룹 BP보다 약간 높아 보입니다
과연 그러할까? T-test를 해 보았습니다
엑셀에서 기본적으로 제공하는 t-test를 사용해 봅시다.
엑셀에서 기본적으로 제공하는 이 기능을 모르는 사람은 다음에 올릴 글들를 참고하세요
오늘은 그 주제가 아니라서 생략하겠습니다.


‘0그룹과 ‘1그룹의 평균과 분산그리고 p값을 유의해서 봅시다
노란색으로 강조하였습니다원래는 노란색이 없죠.


회귀분석의 결과도 보겠습니다
노란 표시는 역시 제가 표시한 것입니다
우선 p값이 0.005259로 동일하다는 것이 관찰됩니까?
우선 Y절편의 값 168은 ‘0그룹의 평균과도 같습니다!
그리고, t-test에서 ‘1그룹의 평균인 151.4 는 
Y절편과 X1의 계수를 합한 것입니다.
,
151.4 =168-16.6

입니다놀랍습니까

그래프로 살펴 보면 사실 그리 놀랍지 않습니다.



이렇게 회귀분석을 하고회귀직선을 구했습니다
Y축 절편 즉 X=0일 때는 168이 됩니다
이것은 y축에 있는 점들의 평균이 되지요.
그리고, x=1일 때의 점들의 평균은 ‘1그룹의 평균이 됩니다.
저 회귀직신이 ‘0그룹과 ‘1그룹의 평균을 각각 지나게 되도록 되어 있으며
그것이 회귀직선의 특징입니다

이 글에서, 우리는 t-test가 regression으로 구해 진다는 것을 알았습니다.
다음 글에서는 ANCOVA가 regression으로 구해진다는 것을 배워 보겠습니다.