Statistics for everyone: 표준화

표준화한다는 것은 여러 용도로 사용됩니다만,

오늘은 그런 용도보다는 방법을 이야기 해 볼까 합니다.

SPSS에서는 ‘기술통계’로 갑니다.

당연히 연속변수인 age와 time 중에서 일단 age만 선택해 보겠습니다.

그리고 아래쪽에 보면 “save standardized values~”를 활성화합니다.

그러면 이렇게 새로운 변수가 하나 생겼습니다. 변수 이름은 Zage 입니다.

dBSTAT에서는 data 메뉴에서 Z score로 갑니다.

연속변수인 age와 time 중에서 age를 선택하고 확인을 누릅니다.

그러면 age_Z 변수가 생기면서, 결과값을 보여 줍니다.

엑셀에서는 우선 mean과 표준편차를 먼저 구해야 합니다.

물론 구하기는 쉽죠.

그 다음에 STANDARDIZE 함수를 이용해서 값을 만들고, 아래쪽에도 자동채우기 합니다.

3 프로그램의 결과를 비교하면 모두 동일합니다.

Web-R 의 2.0 beta 버전에서는 여러 가지 변화가 있는데,

일단 영어 버전이 생긴 것이 큰 특징(1)

그리고, csv, excel 뿐아니라, SPSS파일, SAS 파일, DBF 파일, DTA 파일을 읽게 된 것(2)도

큰 특징입니다.

그리고, 데이터 전처리 기능도 강력한데,

그 중에 long form ↔ wide form 은 이전에 말씀드린 적이 있고,

표준화 기능 말씀드려야 겠군요.

“연속형 변수 표준화 하기”를 클리갛면,

아래의 창이 생깁니다. Age 변수가 연속 변수이므로 선택합니다.

그러면 ZAGE변수가 생겼고, 이것은 엑셀에서 만들어진

B열과 동일하다는 것을 알 수 있습니다.

SPSS와 web-R은 여러 연속변수를 한꺼번에 만들 수 있군요.

dBSTAT도 편리하지만, 변수 하나씩만 만들 수 있습니다.

엑셀은 그냥 무난합니다. 언제나 그렇듯이 통계 강의할 때는 좋습니다.

오른쪽에 보이는 공식을 그냥 이용하는 것보다 별로 편할 것은 없지만 말입니다.

조금 부언하자면,
표준화 회귀계수를 구하는 것은 SPSS와 Web-R에서는
이런 표준화작업하지 않고도 기본적으로 해주고,
그 분야에 계신 분 이야기로는 상당히 중요하고
꼭 해야 하는 것처럼 말씀하시더군요.

의학에서는 표준화 회귀계수를 하는 경우는 흔치 않은 것같습니다.

Statistics for everyone

2016년 3월 26일 토요일

아빠가 들려 주는 [통계] 변수 표준화 하기