Statistics for everyone

2016년 6월 6일 월요일

아빠가 들려 주는 [통계] P 값이란 무엇인가? Story III (p값이 클 때의 의미)

그런데 만일 p값이 0.05 이상이라면 그 때는 어떻게 판단해야 할까요?
더 증거를 수집해서 유죄인지 무죄인지 판단해
야 하는 것이고, 물건을 살지 말지를 판단해야 하는 그런 상황을 말해줍니다.

간혹 어떤 경우에 1종 오류가 5%이상이라고 해서, 다시 흔히 말해서 p값이 0.05이상 (예를
들면) 0.25라고 해서 “두 군의 차이가 없다”는 식으로 해석하는 논문도 많습니다. 이것은
잘못된 것입니다.
‘차이가 있다고 말할 수는 없다’ 정도가 맞는 표현이고 다시 말해서 ‘차이가 있는지 없는지 잘 모르겠다 판단을 유보해야 한다’는 뜻입니다.
Why ‘not statistical ly significant’ does not mean simi lar, the same, or not different라는 제목의 블로그 글(1쪽짜리)에 When we test a difference and we say it is NOT significant,
this does not mean that there is no difference. 라는 글이 있군요.
Absence of evidence is not evidence of absence라는 한 쪽짜리 무료 PDF를 읽어 보시는
것이 좋겠습니다. 제목 자체가 보여주는 바도 있지만, 얼마나 많은 연구자들이 잘못 해석하
고 있는지를 잘 지적해 주고 있습니다. Bland Altman plot으로 유명한 Bland와 Altman)
이 쓴 글이지요.

괜히 어렵게 말하면 ‘1종 오류’도 크고 ‘2종 오류’도 큰 상태가 됩니다. 그러면 ‘진짜 두 군
의 차이가 없다’라고 말하려면 어떻게 하느냐- 그 때는 비열등성 검정이나 동등성 검정을
해야 합니다.
많은 논문들이 ‘내가 새로 개발한 새로운 치료법이 기존 치료법과 비교할 때 p값이0.05이
상이므로 큰 차이가 없는 (좋은) 치료법으로 생각된다’는 식의 결론을 비열등성 검정의 개
념없이 내리고 있는지도 모릅니다. 논문의 심사위원들은 뭔가 조금 이상하니까, power를
계산해서 내라고 주문하곤 하지만, 이것도 사실은 다소 틀린 이야기로 비열등성 검정을 통
해서 증명하라고 주문해야 옳습니다.

이런 것을 ‘post hoc power analysis’(사후 검정력 분석)라고 부릅니다. 어떤 학자들
은 ‘post hoc power analysis는 의미없다’고도까지 강조하기도 합니다.
http://www.ats.ucla.edu/stat/seminars/Intro_power/에서
저의 생각을 그대로 보여 주는 글을 발견했습니다. 그대로 옮기겠습니다.

Afterthoughts: A post-hoc power analysis
In general, just say “No!” to post-hoc analyses. 요약하면 그냥 ‘사후 검정력 분석’에 대해
서는 그냥 ‘No’라고 말하시오
There are many reasons, both mechanical and theoretical, why most researchers should
not do post-hoc power analyses.
사후 검정력 분석을 하지 말아야 할 많은 이유가 있습니다. (mechanical은 mathematical을
잘못 쓴 것같습니다.)
Excel lent summaries can be found in Hoenig and Heisey (2001) The Abuse of Power:
The Pervasive Fal lacy of Power Calculations for Data Analysis and Levine and Ensom
(2001) Post Hoc Power Analysis: An Idea Whose Time Has Passed?
2001년에 나온 두 논문이 그 이유들을 잘 요약하였습니다.
As Hoenig and Heisey show, power is mathematical ly directly related to the p-value;
hence, calculating power once you know the p-value associated with a statistic adds no
new information.
전자에서 보여 주듯이 p값이 계산되면 power는 수학적으로 계산되기에 다시 power를 계
산하는 것은 전혀 새로운 정보를 주지 못합니다. (이 논문은 저자의 “통계의 첫걸음 샘플
수의 계산”에서 다루었고, 무료 PDF가 있습니다.)
Furthermore, as Levine and Ensom clearly explain, the logic underlying post-hoc power
analysis is fundamental ly flawed.
한편 추가해서, 후자는 사후 검정력 분석에 깔린 이유가 기본적으로 잘못된 것을 설명합니
다. (이 논문은 초록만 무료로 볼 수 있는데, post hoc power 보다도 신뢰구간이 더 많은
정보를 준다고 되어 있습니다. 동감하는 바입니다.)
However, there are some things that you should look at after your study is completed.
Have a look at the means and standard deviations of your variables and see how close
they are (or are not) from the values that you used in the power analysis.
그렇지만, 연구자가 보아야 할 것이 있습니다. 그것은 평균에 표준편차가 얼마나 가까운지
를 보세요.(이건 검정력 분석에서 보는 것이 아니지만, 어쨌든)
Many researchers do a series of related studies, and this information can aid in making
decisions in future research.
많은 연구자는 비슷한 연구를 계속하고, 추후 연구를 위해서 이 정보는 중요합니다.
For example, if you find that your outcome variable had a standard deviation of 7, and
in your power analysis you were guessing it would have a standard deviation of 2,
you may want to consider using a different measure that has less variance in your next
study.
예를 들어 여러분의 연구의 표준 편차가 7이었는데, 검정력 분석에서 표준 편차가 2 정도
되기를 바란다면 후속 연구에서는 다른 방안을 찾아야 합니다. (이 말은 다음 연구는 샘플
수를 더 늘이든지, 더 정밀하고 정확한 측정 방법으로 바꾸는 등 다음 연구를 위한 준비가
됩니다)
The point here is that in addition to answering your research question(s), your current
research project can also assist with your next power analysis.
요점은 현재의 연구에서 얻은 정보로 다음 연구의 power를 계산하는 것은 도움이 된다는
것입니다.
제 생각에 논문 리뷰어가 power를 계산하라고 요구하려면 그것이 의미하는 바를 잘 알고
요구해야 하고, 저자는 가설이 우수성을 밝히기 위한 연구였다면, not significant 하다는 의
미가 무엇인지 명확하게 알고 표현해야 합니다. 비열등하다는 것을 밝히기 원한다면, 아예
처음부터 연구를 새로 시작해야 합니다. 독자는 당연히 개념이 있게 비판적으로 받아 들여
야 합니다.

오늘의 이야기를 요약하면 이렇게 말할 수 있겠군요.

2016년 6월 2일 목요일

아빠가 들려 주는 [차트] 차트에서 엑셀로.. 그림에서 숫자로.

데이터를 차트로 보통 그리는 것은 익숙한 일이죠.

거꾸로 해 볼까요?
진정한 data scientist라면 한번 시도해 보세요.

"논문 쉽고 편하게 쓰자" 1판,2판, 3판 모두에 나오는 내용입니다.

아빠가 들려 주는 [차트] 엑셀로 히스토그램 (더 좋지도 않고, 나쁘지도 않은)

뭐 요즘 워낙 좋은 툴들이 많긴 하지만, 자료 정리는 보통 엑셀에서 하니까 미리 엑셀로 자료의 성격을 파악해 보는 것은 좋고 권장할 일이죠.

이건 2013 버젼까지 하던 방법입니다.

2002년도에도 이 방법이랑 똑같이 했어요. 그 만큼 오래된 방법인데,

2016에서는 조금 개선?되었습니다.

그외 boxplot도 나왔고, 개선된 것이 있습니다.

그런데,뭐 그런 것들은 다음에 사용할 기회가 있으면 올리도록 하겠습니다.

2016년 5월 31일 화요일

아빠가 들려 주는 [차트 ] Parkes error grid (왜 이런 걸 그리는 것을 어려워할까)

이게 무슨 차트인지 궁금해 하지도 않을 사람도 많으시겠지만,

그래도 원하는 분들이 있으실 것같아서 올립니다.

이렇게 생긴 거고요, 검색하면 꽤 많이 나옵니다.

SAS로 만드는 코드를 올린 것도 검색되더라고요,

원하시는 분도 있나봐요.

R로도 어쩌면 있을지도 모르죠.

이런 건 엑셀로 만들면 식은 죽 먹기 입니다요.

IN excel, it is a piece of cake.

검색해 보면 경계선의 좌표가 나오죠.

좌표만 나오 면 엑셀로 찍어서 그리면 됩니다.

단순작업이죠

I found a table for boundary in internet

엑셀에서 좌표 입력하면 바로 선으로 그려 주죠(1)

X,Y 값은 점으로 표시하도록 하고(2)

글상자로 영역 이름 표시하도록 하면 끝.

파일도 올려 두겠습니다. 원하시면 X-Y 값만 바꾸면 됩니다.

만드는 법은 참, 책으로도 써 두긴 했는데, 설명하면 길고,

강의로 배우면 정말 쉬운데… 강의를 마련했습니다.

6월 25일 오후 2시부터 5시까지..

노트북 가지고 직접 실습하면서,

엑셀로 그래프 쉽고 편하게 예쁘게 만드는 법 강의하겠습니다.

장소와 등록 방법은 다음에 공지

(1) input these point in sheet

(2) input data --> you will get the chart you want.

(3) input letters so on.

you can download the files HERE

2016년 5월 30일 월요일

아빠가 들려 주는 [통계 ] 조금만 중요한 데이터 후처리 (데이터 전처리는 매우 중요함)

데이터의 전처리는 아주 중요합니다. 왜냐하면 통계의 결과가 전혀 엉뚱하게 나올 수 있기 때문이죠.

후처리는 뭐. 후처리가 무엇이냐에 따라 달라지겠지만,

별로 중요하지 않은..

그렇지만, 작은 것에도 최선을 다하는 분에게는 중요할 수 있는

간과하기 쉬운 아주 작은 것을 말씀드릴까 합니다.

표에서 결과를 어떻게 표현하는가.. 하는 내용

표에서 세로를 기준으로 볼 때, 점(소수점)이 위 아래로 일치해야 합니다.

그것보다 더 우선되는 것은 괄호입니다.

또는 –부호라든지, ±가 위아래로 일치되도록 합니다.

이것들은 모두 NEJM에 나온 예들입니다.

Pubmed Central 은 이상하게 이런 원칙대로 하지 않는데요. 이건 JAMA의 Pubmed Central 판입니다.

그외 몇 가지 찾아보니 다들 제가 알고 있는 원칙에 맞게 보여 주네요.

즉, 괄호>±>소수점 대충 보았을 때 이런 우선순위입니다.

왼쪽의 표는 Web-R의 아주 큰 장점인 “표만들기” 이것 하나만해도 끝내 주는데요.

(은근히 자랑질...)

제가 가장 추천해 드릴 만한 것 중에 하나이고,

편리하고 빠릅니다.

더군다나 좋은 것은 이 자료를 워드나 ppt로 바로 뽑을 수 있다는 것…

표 형태이기 때문에 오피스에서 바로 편집이 가능하다는 것

(이런 거는 진짜......

제가 이것 때문에 Web-R 이야기를 안할 수가 없습니다)

(사실 SPSS도 워드의 표로 보내 주긴 하는데, 자료 정리가 논문에 맞추어져 있지는 않죠.)

그런데 하나 아쉽다면, 앞서 말한 형태로 정렬이 안되어 있다는 것입니다.

사실 워드프로세서에 저렇게 정렬하는 기능이 추가 되어야 한다는 것이 저의 주장입니다.

(표 안에서의 정렬은 본문에서의 정렬과 다르다.. 이것이 저의 주장이죠)

저는 그래서

가- 형태로 바뀌어서 워드나 PPT로 내보내 주면 금상첨화일 것같다는 생각이 듭니다.

나-를 보시면 알 수 있겠지만, 사실 이것은 두 열로 나누어 있으면서 셀여백을 없애 버린 상태의 것인데,

세로줄이 투명하다 보니 표시가 나지 않는 것입니다.

사실 소수점자리도 이렇게 맞출려면 영 귀찮은 것이 아니죠.

연구자들이 이것까지 자세히 신경쓰시진 않겠고,

그냥 표로 논문 내면 논문 편집자가 수정해서 주긴 합니다.

혹시 그냥 발표용 슬라이드를 만드실 때 이런 것까지 고려할 수 있도록,

Web-R에서 표 만들기 해 주면서,

PPT 파일 내보내기 하면서 기존것 외에 오른쪽 것도 하나더 해 주면

더 좋을 것같다는 생각도 듭니다.

정말 중요하지 않은

데이터 후 처리에 관한 내용입니다.

2016년 5월 28일 토요일

아빠가 들려 주는 [통계 ] 진단 관련 통계 비교 (감염학회 강의 중 틀린 것)

2일전 아산병원에서 강의하다가 틀린 것이 있었습니다.

오늘 시정해서 말씀드립니다.

4가지 통계 프로그램에서, 특히 SPSS가 상당히 약한 부분인 진단통계.

빨간 글씨가 안되는 통계이다. SPSS가 안되는 것이 많다는 것이 분명합니다.

MedCalc 의 파란 글씨는 정말 좋다는.. 다른 프로그램에 비해서 탁월하게 좋다는 뜻입니다.

사실 제가 dBSTAT를 기준으로 진단통계를 공부한 것은 아니고,

진단통계에 관한 것을 왠만큼 공부하고 나서

“통계 지도＂에 진단 통계 부분에 꼭 필요하다고 생각한 것들이 있었는데,

그것이 딱 dBSTAT와 일치한 것입니다. 사실 “통계 지도”에는 CCC는 없습니다.

CCC는 필요하지 않다고 생각했는데, dBSTAT에는 있었습니다.

그리고, ICC는 원래 dBSTAT에는 상당히 허접한 구버전이 있었습니다.

ICC는 당시만 하더라도 SPSS가 가장 좋았고 최신버젼이었는데

(위키피디아에 보면 이전 것 Fisher의 것이 있는데, 그게 당시의 dBSTAT

Fleiss의 것이 SPSS의 것이었습니다.)

그래서, dBSTAT에 건의해서 ICC를 업그레이드 했죠.

그 다음에 Web-R에 건의해서 진단통계 부분을 건의했습니다. 당시에는 전무 했습니다.

그리고, dBSTAT의 것을 모두 다 넣었습니다.

문건웅 교수님께서 넣어 주신 거죠. 제가 넣은 것은 아니고요.

저는 건의하고 검토하고, 했습니다.

그런데, 어제 강의에서 제가 착각하고, 아직 몇 개가 안되는 것으로 ‘잘못’ 강의했었죠.

사실 다 되는데 말이죠.

자 이렇게 모든 메뉴가 구비되어 있고,

민감도 특이도는 직접 입력하는 칸도 만들어졌습니다.

이정도면 SPSS가 못하는 영역도 상당수 채워진 셈입니다.