Statistics for everyone: 데이터전처리

어제 강의 주제는 어떻게 보면 실제적인데, 어떻게 보면 별로 도움 안될 수도 있습니다.

“여러 통계 패키지의 비교”…….

저도 받은 주제라서 알고 있는 범위 내에서 비교하긴 했지만,

뭐 모든 통계 패키지를 다 알고 있는 것도 아니고…….

그런데, 어떤 통계 패키지를 쓰더라도 꼭 주의해야 할 것.

데이터 전처리 과정…

이 과정은 보통 엑셀에서 많이 하게 되고 어떤 것은 통계 패키지 안에서 하게 되는데,

어제 강의 중에 나왔던 슬라이만 조금 설명 더 하겠습니다.

MedCalc에서 rx 변수에 대해 differ 값으로 t-test를 해 보려고 하면, 위의 그림처럼 Filter부분에 글자를 입력합니다. 조금 번거롭죠.

그런데, 문제는 철자가 틀리면 안된다는 겁니다. 변수명인 rx 대신 r로 쓰면 안됩니다.

(결과가 오른쪽 위 그림)

그나마 변수값인 lev5fu를 소문자로 써도 결과값은 잘 얻어지는 군요.

SPSS에서, rx를 그룹변수로 지정합니다. Define에서 어떤 값을 넣을지 써야 합니다.

앵, 결과에서 Lev5fu 군에 샘플이 하나도 없는 것으로 보여집니다… 물론 통계 결과도 없고요,

왜냐하면 fu가 아니라 FU(대문자이기 때문입니다.)

이 경우에서처럼 몽땅 대문자로 잘 입력된 자료라면 N이 0이 되어서 분석 안되길래 나중에라도 알수 있지만, 만일 일부만 대소문자를 틀리게 쓰면, 꼼꼼히 살피지 않으면

빠뜨리게 됩니다.

아주 번거롭고 컴퓨터 답지 못한 거죠. 시대가 어떤 시대인데….

오히려 dBSTAT는 ‘집단선택’에서 이렇게 기록된 자료를 바탕으로 선택할 수 있도록 해 줍니다.

만일 소문자로 했다면, 총 4집단에서 선택하도록 되어서 미리 잘못을 알아챌 수 있습니다.

Web-R 에서는 실수할 여지가 없이 변수를 클릭으로 선택하게 되어 있습니다.

Rx인 거죠. 통계를 돌려보면 4개 집단으로 분석이 되기 때문에 실수했다는 것을 알 수 있습니다.

3개의 군으로 되어 있으면 물어볼 것도 없이 t-test가 아니라, ANOVA를 하도록 합니다.

초보자들도 쉽게 할 수 있도록 배려한 것입니다.

지금은 인공지능시대입니다.

워드프로세서는 영어와 한글을 자동으로 바꾸어 준지 엄청 오래되었고, 존대말도 검토해 주고, 철자도 수정해 주고, 자동 번역도 해 줍니다.

엑셀 자동채우기 기능도 끝내주죠. 빠른 채우기는 환상입니다.

인터넷 포탈은 한두 단어만 쓰면 내가 궁금한게 뭔지 대충 알아 맞춥니다.

그런 시대에 통계 프로그램이 그 정도도 못한다면 이상하죠.

저는 데이터 전처리 과정이 자동화 되어야 된다고 생각합니다.

전처리 클릭 한번이면, 대문자 소문자가 혼재 된 것을 찾고 물어보고 자동으로 바꾸어 주고,

한 두 글자 달라진 것도 찾아내고 묻고 바꾸어 주고,

빠진 자료는 찾아서 물어 주고, imputation도 해주고, 말입니다.

그 전까지는 엑셀의 ‘필터’, ‘데이터유효성 검사’ ‘찾기 및 검색이 빈셀 이동옵션’ ‘조건부 서식’ 등등(1~5)을

잘 활용해서 데이터를 전 가공하는 것이 좋겠습니다.

그리고, 위 그림은 SPSS의 imputation 메뉴입니다. 18인가에서 새로 생긴 거죠,

잘 선택해서 해야 겠지요. 개념을 알고서…

어떤 R 패키지는 이런 작업을 해 줄지도 모릅니다.

(무작정 하면 안되고 물어봐가면서….)

이상값, 왜도, 첨도, 최대값 등등 보기 전단계에서 거쳐야할 작업입니다.

Statistics for everyone