레이블이 merge인 게시물을 표시합니다. 모든 게시물 표시
레이블이 merge인 게시물을 표시합니다. 모든 게시물 표시

2016년 2월 25일 목요일

아빠가 들려 주는 [통계] Excel Merge 국건영 자료 예제

 
얼마전 엑셀에서 Merge 기능에 대해서 짧은 글을 올린 적이 있는데,
안된다고 하시는 분이 있어서
다시 올립니다.
그 때는 아주 작은 예제를 사용하였는데
오늘은 국건영 자료를 사용해서 해 보겠습니다.


 
2014년 자료는 5개의 sav 파일이 있고, 그것을 각각 csv 파일로 바꾸었습니다.
바꾸는 방법은 SPSSPSPP 에서 불러서 바꾸거나,
R에서 특별한 패키지를 사용해서 불러서, csv로 저장할 수 있습니다.
물론 mergeSPSSR에서 바로 하면 되는데..
어쨌든 이번에는 엑셀에서 해보기 위해 csv로 바꾸었습니다.


 
이렇게 두 개의 파일을 불렀습니다.
두 파일의 필드명이 V열까지는 일치하는 군요.
일치하는 부분을 녹색으로 표시했습니다.
사실 이렇게 일치하는 것은 적절히 정리해서, ID에 해당하는 것만 빼고,
하나를 삭제해도 되지만,
이번에는 그냥 그대로 살려 두겠습니다.
merge 되는지도 알아 볼겸.


 
자 이제는 merge(통합)하기 위해서, 새로운 빈 sheet(1) 열었습니다.
데이터 리본의 통합(2)을 클릭합니다.
먼저 일치하는 것는 평균하도록 설정(3)합니다.
만일 성별에 12가 있다면, 성별이 1.5 될 것입니다.
국건영 자료는 잘 정리되어서 그런 경우는 없겠지요.
.
참조칸에 위 자료를 선택합니다.(4)
이 때, 왼쪽 위의 칸 즉, A1 cell을 선택한 뒤, Ctrl + shift + 화살표를 이용하면
많은 자료도 한꺼번에 선택됩니다.
그 다음 추가(5)’를 클릭하면 됩니다.
.
참 이 때 국건영 자료의 경우에
A열에 연도를 보여주는 자료 즉 동일한 값이 있으므로,
A열을 제거했습니다.
그래서, 지금 이 자료에는 A열 즉 제일 왼쪽 열이 ID가 되었습니다.
(7)
필드명은 가독성이 좋도록 색을 바꾸고, 틀고정을 했습니다.


 
자 이렇게 해서, 위의 것이 참조 영역으로 내려왔습니다.(1)


 
아래쪽 쉬트의 것도 역시 동일한 방법으로
참조에서 선택하고 추가하여


 
아래쪽의 모든 참조 영역으로 가지고 옵니다.
첫 행왼쪽 열”(4)을 선택해 주고,
확인을 클릭합니다.


 
시간이 흐른 뒤에
이렇게 정리가 되었습니다.
(컴퓨터의 사정에 따라 다르겠지요,
아마도 R이나 SPSS보다는 느릴 것같다는 생각이 듭니다.
엑셀이 이런 일을 하는 전문 툴은 아니니까요.
대신에 아주 직관적으로 편리하죠.)


정리해서 보니, ALL 파일은 7551행까지 있고,
OE 파일은 7168행까지 있군요.
Merge 결과에서는 7551행까지 있습니다.
공통되는 필드들은 공통으로 되어 있습니다.
Sex 필드에는 모두 12로 잘 모아져 있습니다.
이렇게 해서 엑셀로 merge하는 법을 알아 보았는데
글로 쓸려니까 길어진 것이지
막상해 보면 아주 직관적이고 간단합니다.

2016년 2월 8일 월요일

아빠가 들려 주는 [통계] 데이터를 합치자 Merge in Excel


작년에 논문 쓰면서 사용했던 기능인데요. 
여러분도 도움되실 것같네요. 



‘통합’ 기능은 연구자 A가 조사한 자료와 
연구자 B가 조사한 자료를 
하나의 시트로 합할 때 필요합니다. 
먼저 ①에 자리를 지정한 뒤 
‘데이터 → 데이터 도구 → 통합’(②)을 클릭합니다. 
③의 칸에, 두 통합할 표 부분 중 하나를 넣고, 
추가(④)를 선택하면 ‘모든 참조 영역’으
로 연결됩니다. 
지금은 두 표를 하나로 합쳤지만, 여러 개를 합칠 수도 있겠지요. 
그다음 표의 행과 열은 공통이기 때문에 ⑤에서 체크합니다. 
⑥은 일단 평균으로 했습니다. 
다음에 합계나 다른 함수를 선택해 보고 결과를 
보면 어떤 의미인지 알게 될 것입니다. 


결과가 이렇게 정리됩니다. 
통합된 표에는 공통된 홍길동, 나이, 5월이라는 행과 열은 통합되고 
나머지는 추가돼 보입니다. 
이 기능을 잘 모르면 복사해 붙여넣고 지우고를 수없이 반복해야 합니다. 
SPSS에서의 merge와 비슷한 기능입니다.
홍길동이 5월에 위표에서도 5점, 아래표에서도 5점이었기 때문에 
평균값은 5점으로 통합된 표에 나왔습니다. 
합계를 넣는다면, 통합표에는 10점으로 나올 것입니다
(⑥을 참고하세요). 이것은 때에 따라 유용할 수 있습니다.

-------------------
이상 내용는 제가 쓴 '논문 쉽고 편하게 쓰자 3판' 174쪽 175쪽에 나오는 내용입니다.



이건 보통 국건영이라고 부르는 국가 자료입니다. 
작년에 여기서 다운받은 자료로 논문을 썼는데, 
자료가 워낙 커서 여러 개로 나뉘어져 있습니다. 
그래서, 체중 키 나이 성별 등등의 자료가 들어있는 DB와 
다른 자료들이 성격에 따라 나누어져 있더군요. 
그러면 그 중에서 우리가 필요로 하는 자료를 합쳐야 합니다. 
예를 들어 구강검사 자료로 논문을 써야 한다면, 

두 DB에서 식별번호....는 동일하니까..
그것을 중심으로 해서 두 자료를 합쳐야 합니다. 
앗, 그 전에 SPSS 파일인 sav파일을 
엑셀에서 불러 올 수 있도록 csv 파일로 바꾸어야 하고요, 
SPSS에서 merge 기능을 아시는 분은 그냥 SPSS에서 하셔도 됩니다.