2016년 5월 31일 화요일

아빠가 들려 주는 [차트 ] Parkes error grid (왜 이런 걸 그리는 것을 어려워할까)

 
이게 무슨 차트인지 궁금해 하지도 않을 사람도 많으시겠지만,
그래도 원하는 분들이 있으실 것같아서 올립니다.


 
이렇게 생긴 거고요, 검색하면 꽤 많이 나옵니다.
SAS로 만드는 코드를 올린 것도 검색되더라고요,
원하시는 분도 있나봐요.
R로도 어쩌면 있을지도 모르죠.
이런 건 엑셀로 만들면 식은 죽 먹기 입니다요.

IN excel, it is a piece of cake.

 
검색해 보면 경계선의 좌표가 나오죠.
좌표만 나오 면 엑셀로 찍어서 그리면 됩니다.
단순작업이죠

I found a table for boundary in internet



엑셀에서 좌표 입력하면 바로 선으로 그려 주죠(1)
X,Y 값은 점으로 표시하도록 하고(2)
글상자로 영역 이름 표시하도록 하면 끝.
파일도 올려 두겠습니다. 원하시면 X-Y 값만 바꾸면 됩니다.
만드는 법은 참, 책으로도 써 두긴 했는데, 설명하면 길고,
강의로 배우면 정말 쉬운데강의를 마련했습니다.
625일 오후 2시부터 5시까지..
노트북 가지고 직접 실습하면서,
엑셀로 그래프 쉽고 편하게 예쁘게 만드는 법 강의하겠습니다.
장소와 등록 방법은 다음에 공지

(1) input these point in sheet
(2) input data --> you will get the chart you want.
(3) input letters so on.


you can download the files HERE



 

2016년 5월 30일 월요일

아빠가 들려 주는 [통계 ] 조금만 중요한 데이터 후처리 (데이터 전처리는 매우 중요함)

 
데이터의 전처리는 아주 중요합니다. 왜냐하면 통계의 결과가 전혀 엉뚱하게 나올 수 있기 때문이죠.
후처리는 뭐. 후처리가 무엇이냐에 따라 달라지겠지만,
별로 중요하지 않은..
그렇지만, 작은 것에도 최선을 다하는 분에게는 중요할 수 있는
간과하기 쉬운 아주 작은 것을 말씀드릴까 합니다.
표에서 결과를 어떻게 표현하는가.. 하는 내용

 
표에서 세로를 기준으로 볼 때, (소수점)이 위 아래로 일치해야 합니다.
그것보다 더 우선되는 것은 괄호입니다.
또는 부호라든지, ±가 위아래로 일치되도록 합니다.
이것들은 모두 NEJM에 나온 예들입니다.
 
Pubmed Central 이상하게 이런 원칙대로 하지 않는데요. 이건 JAMA Pubmed Central 판입니다.
그외 몇 가지 찾아보니 다들 제가 알고 있는 원칙에 맞게 보여 주네요.
, 괄호>±>소수점 대충 보았을 때 이런 우선순위입니다.


왼쪽의 표는 Web-R의 아주 큰 장점인 표만들기이것 하나만해도 끝내 주는데요.
(은근히 자랑질...)
제가 가장 추천해 드릴 만한 것 중에 하나이고,
편리하고 빠릅니다.
더군다나 좋은 것은 이 자료를 워드나 ppt로 바로 뽑을 수 있다는 것
표 형태이기 때문에 오피스에서 바로 편집이 가능하다는 것
(이런 거는 진짜......
제가 이것 때문에 Web-R 이야기를 안할 수가 없습니다)

(사실 SPSS도 워드의 표로 보내 주긴 하는데, 자료 정리가 논문에 맞추어져 있지는 않죠.)
그런데 하나 아쉽다면, 앞서 말한 형태로 정렬이 안되어 있다는 것입니다.
사실 워드프로세서에 저렇게 정렬하는 기능이 추가 되어야 한다는 것이 저의 주장입니다.
(표 안에서의 정렬은 본문에서의 정렬과 다르다.. 이것이 저의 주장이죠)
저는 그래서
- 형태로 바뀌어서 워드나 PPT로 내보내 주면 금상첨화일 것같다는 생각이 듭니다.
-를 보시면 알 수 있겠지만, 사실 이것은 두 열로 나누어 있으면서 셀여백을 없애 버린 상태의 것인데,
세로줄이 투명하다 보니 표시가 나지 않는 것입니다.
사실 소수점자리도 이렇게 맞출려면 영 귀찮은 것이 아니죠.
연구자들이 이것까지 자세히 신경쓰시진 않겠고,
그냥 표로 논문 내면 논문 편집자가 수정해서 주긴 합니다.
혹시 그냥 발표용 슬라이드를 만드실 때 이런 것까지 고려할 수 있도록,
Web-R에서 표 만들기 해 주면서,
PPT 파일 내보내기 하면서 기존것 외에 오른쪽 것도 하나더 해 주면
더 좋을 것같다는 생각도 듭니다.
정말 중요하지 않은
데이터 후 처리에 관한 내용입니다.

2016년 5월 28일 토요일

아빠가 들려 주는 [통계 ] 진단 관련 통계 비교 (감염학회 강의 중 틀린 것)

 
2일전 아산병원에서 강의하다가 틀린 것이 있었습니다.
오늘 시정해서 말씀드립니다.

 
4가지 통계 프로그램에서, 특히 SPSS가 상당히 약한 부분인 진단통계.
빨간 글씨가 안되는 통계이다. SPSS가 안되는 것이 많다는 것이 분명합니다.
MedCalc 의 파란 글씨는 정말 좋다는.. 다른 프로그램에 비해서 탁월하게 좋다는 뜻입니다.
사실 제가 dBSTAT를 기준으로 진단통계를 공부한 것은 아니고,
진단통계에 관한 것을 왠만큼 공부하고 나서
통계 지도에 진단 통계 부분에 꼭 필요하다고 생각한 것들이 있었는데,
그것이 딱 dBSTAT와 일치한 것입니다. 사실 통계 지도에는 CCC는 없습니다.
CCC는 필요하지 않다고 생각했는데, dBSTAT에는 있었습니다.
그리고, ICC는 원래 dBSTAT에는 상당히 허접한 구버전이 있었습니다.
ICC는 당시만 하더라도 SPSS가 가장 좋았고 최신버젼이었는데
(위키피디아에 보면 이전 것 Fisher의 것이 있는데, 그게 당시의 dBSTAT
Fleiss의 것이 SPSS의 것이었습니다.)
그래서, dBSTAT 건의해서 ICC를 업그레이드 했죠.
그 다음에 Web-R에 건의해서 진단통계 부분을 건의했습니다. 당시에는 전무 했습니다.
그리고, dBSTAT의 것을 모두 다 넣었습니다.
문건웅 교수님께서 넣어 주신 거죠. 제가 넣은 것은 아니고요.
저는 건의하고 검토하고, 했습니다.
그런데, 어제 강의에서 제가 착각하고, 아직 몇 개가 안되는 것으로 잘못강의했었죠.
사실 다 되는데 말이죠

자 이렇게 모든 메뉴가 구비되어 있고,
민감도 특이도는 직접 입력하는 칸도 만들어졌습니다.
이정도면 SPSS가 못하는 영역도 상당수 채워진 셈입니다.

2016년 5월 27일 금요일

아빠가 들려주는 [통계] 데이터 전 처리의 중요성

 
어제 강의 주제는 어떻게 보면 실제적인데, 어떻게 보면 별로 도움 안될 수도 있습니다.
여러 통계 패키지의 비교”…….
저도 받은 주제라서 알고 있는 범위 내에서 비교하긴 했지만,
뭐 모든 통계 패키지를 다 알고 있는 것도 아니고…….
그런데, 어떤 통계 패키지를 쓰더라도 꼭 주의해야 할 것.
데이터 전처리 과정
이 과정은 보통 엑셀에서 많이 하게 되고 어떤 것은 통계 패키지 안에서 하게 되는데,
어제 강의 중에 나왔던 슬라이만 조금 설명 더 하겠습니다.
 
MedCalc에서 rx 변수에 대해 differ 값으로 t-test를 해 보려고 하면, 위의 그림처럼 Filter부분에 글자를 입력합니다. 조금 번거롭죠.
그런데, 문제는 철자가 틀리면 안된다는 겁니다. 변수명인 rx 대신 r로 쓰면 안됩니다.
(결과가 오른쪽 위 그림)
 
그나마 변수값인 lev5fu를 소문자로 써도 결과값은 잘 얻어지는 군요.
 
SPSS에서, rx를 그룹변수로 지정합니다. Define에서 어떤 값을 넣을지 써야 합니다.
 
, 결과에서 Lev5fu 군에 샘플이 하나도 없는 것으로 보여집니다물론 통계 결과도 없고요,
왜냐하면 fu가 아니라 FU(대문자이기 때문입니다.)
이 경우에서처럼 몽땅 대문자로 잘 입력된 자료라면 N0 되어서 분석 안되길래 나중에라도 알수 있지만, 만일 일부만 대소문자를 틀리게 쓰면, 꼼꼼히 살피지 않으면
빠뜨리게 됩니다.
아주 번거롭고 컴퓨터 답지 못한 거죠. 시대가 어떤 시대인데….
 
오히려 dBSTAT집단선택에서 이렇게 기록된 자료를 바탕으로 선택할 수 있도록 해 줍니다.
만일 소문자로 했다면, 4집단에서 선택하도록 되어서 미리 잘못을 알아챌 수 있습니다.


 
Web-R 에서는 실수할 여지가 없이 변수를 클릭으로 선택하게 되어 있습니다.
Rx인 거죠. 통계를 돌려보면 4개 집단으로 분석이 되기 때문에 실수했다는 것을 알 수 있습니다.
3개의 군으로 되어 있으면 물어볼 것도 없이 t-test가 아니라, ANOVA를 하도록 합니다.
초보자들도 쉽게 할 수 있도록 배려한 것입니다.

지금은 인공지능시대입니다.
워드프로세서는 영어와 한글을 자동으로 바꾸어 준지 엄청 오래되었고, 존대말도 검토해 주고, 철자도 수정해 주고, 자동 번역도 해 줍니다.
엑셀 자동채우기 기능도 끝내주죠. 빠른 채우기는 환상입니다.
인터넷 포탈은 한두 단어만 쓰면 내가 궁금한게 뭔지 대충 알아 맞춥니다.
그런 시대에 통계 프로그램이 그 정도도 못한다면 이상하죠.
저는 데이터 전처리 과정이 자동화 되어야 된다고 생각합니다.
전처리 클릭 한번이면, 대문자 소문자가 혼재 된 것을 찾고 물어보고 자동으로 바꾸어 주고,
한 두 글자 달라진 것도 찾아내고 묻고 바꾸어 주고,
빠진 자료는 찾아서 물어 주고, imputation도 해주고, 말입니다.
그 전까지는 엑셀의 필터’, ‘데이터유효성 검사’ ‘찾기 및 검색이 빈셀 이동옵션’ ‘조건부 서식등등(1~5)
잘 활용해서 데이터를 전 가공하는 것이 좋겠습니다.
그리고, 위 그림은 SPSSimputation 메뉴입니다. 18인가에서 새로 생긴 거죠,
잘 선택해서 해야 겠지요. 개념을 알고서
어떤 R 패키지는 이런 작업을 해 줄지도 모릅니다.
(무작정 하면 안되고 물어봐가면서….)
이상값, 왜도, 첨도, 최대값 등등 보기 전단계에서 거쳐야할 작업입니다.