레이블이 excel인 게시물을 표시합니다. 모든 게시물 표시
레이블이 excel인 게시물을 표시합니다. 모든 게시물 표시

2016년 2월 25일 목요일

아빠가 들려 주는 [통계] Excel Merge 국건영 자료 예제

 
얼마전 엑셀에서 Merge 기능에 대해서 짧은 글을 올린 적이 있는데,
안된다고 하시는 분이 있어서
다시 올립니다.
그 때는 아주 작은 예제를 사용하였는데
오늘은 국건영 자료를 사용해서 해 보겠습니다.


 
2014년 자료는 5개의 sav 파일이 있고, 그것을 각각 csv 파일로 바꾸었습니다.
바꾸는 방법은 SPSSPSPP 에서 불러서 바꾸거나,
R에서 특별한 패키지를 사용해서 불러서, csv로 저장할 수 있습니다.
물론 mergeSPSSR에서 바로 하면 되는데..
어쨌든 이번에는 엑셀에서 해보기 위해 csv로 바꾸었습니다.


 
이렇게 두 개의 파일을 불렀습니다.
두 파일의 필드명이 V열까지는 일치하는 군요.
일치하는 부분을 녹색으로 표시했습니다.
사실 이렇게 일치하는 것은 적절히 정리해서, ID에 해당하는 것만 빼고,
하나를 삭제해도 되지만,
이번에는 그냥 그대로 살려 두겠습니다.
merge 되는지도 알아 볼겸.


 
자 이제는 merge(통합)하기 위해서, 새로운 빈 sheet(1) 열었습니다.
데이터 리본의 통합(2)을 클릭합니다.
먼저 일치하는 것는 평균하도록 설정(3)합니다.
만일 성별에 12가 있다면, 성별이 1.5 될 것입니다.
국건영 자료는 잘 정리되어서 그런 경우는 없겠지요.
.
참조칸에 위 자료를 선택합니다.(4)
이 때, 왼쪽 위의 칸 즉, A1 cell을 선택한 뒤, Ctrl + shift + 화살표를 이용하면
많은 자료도 한꺼번에 선택됩니다.
그 다음 추가(5)’를 클릭하면 됩니다.
.
참 이 때 국건영 자료의 경우에
A열에 연도를 보여주는 자료 즉 동일한 값이 있으므로,
A열을 제거했습니다.
그래서, 지금 이 자료에는 A열 즉 제일 왼쪽 열이 ID가 되었습니다.
(7)
필드명은 가독성이 좋도록 색을 바꾸고, 틀고정을 했습니다.


 
자 이렇게 해서, 위의 것이 참조 영역으로 내려왔습니다.(1)


 
아래쪽 쉬트의 것도 역시 동일한 방법으로
참조에서 선택하고 추가하여


 
아래쪽의 모든 참조 영역으로 가지고 옵니다.
첫 행왼쪽 열”(4)을 선택해 주고,
확인을 클릭합니다.


 
시간이 흐른 뒤에
이렇게 정리가 되었습니다.
(컴퓨터의 사정에 따라 다르겠지요,
아마도 R이나 SPSS보다는 느릴 것같다는 생각이 듭니다.
엑셀이 이런 일을 하는 전문 툴은 아니니까요.
대신에 아주 직관적으로 편리하죠.)


정리해서 보니, ALL 파일은 7551행까지 있고,
OE 파일은 7168행까지 있군요.
Merge 결과에서는 7551행까지 있습니다.
공통되는 필드들은 공통으로 되어 있습니다.
Sex 필드에는 모두 12로 잘 모아져 있습니다.
이렇게 해서 엑셀로 merge하는 법을 알아 보았는데
글로 쓸려니까 길어진 것이지
막상해 보면 아주 직관적이고 간단합니다.

2016년 2월 8일 월요일

아빠가 들려 주는 [통계] 엑셀 자료 정리 고급 필터


아마도 굳이 엑셀로 하기 보다 
통계 소프트웨어 SPSS나 R에서 하는 것이 더 편하다고 
느끼는 분도 있으실 것같긴 하지만,

우선 한번 보시고, 평가하시는 것도 좋고요. 
가급적 엑셀에서 많은 작업을 하고, 
통계 프로그램에서는 진짜 통계만 돌리시는 분에게는 
도움될 만한 기능입니다. 



‘고급 필터’(①)는 '필터'보다 진보된 기능을 보이는데요. 
먼저 ‘다른 장소에 복사’(②)를 선택하는 
것이 좋습니다. 
목록 범위, 조건 범위, 복사 위치는 각각 빨간 화살표로 표시된 부분을 보여 줍니다. 
이해를 돕기 위해 색을 넣은 것이지 실제 색은 필요 없습니다.


결과는 이렇게 나옵니다. 
35세보다 나이가 많으면서, 성별이 m인 행들만 골라낸 것입니다. 
이렇게 만든 것은 보통 사용하는 필터
와 달리 복사해 다른 시트에 넣거나 통계 프로그램으로 옮길 수 있어 편리합니다. 
이 작업을 한 이후에 윗표에 일지매를 37세로 바꾼다 해도 결과값에는 반영되지 않습니다. 
interactive하게 조절되는 것이 아니라는 거죠. 




나이와 성별을 다른 행으로 배치하면, OR라는 뜻이 됩니다. 
즉 나이가 35세보다 많거나 남자인 행만 모으게 됩니다. 





이렇게 AND와 OR를 행을 바꾸어 주어 자유롭고 직관적으로 사용할 수 있는데, 
이것은 자신의 자료를 이용해 통계를 돌리고 연구할 때 매우 편리합니다. 
물론 이렇게 하지 않고 
상당한 노력을 하든지 혹은 통계 패키지상에서 
식을 이용해 이런 작업을 할 수도 있습니다만, 
엑셀에서 이 작업을 할 줄 아는 것이 여러 모로 편리합니다.


이 내용은 "논문 쉽고 편하게 쓰자 3편" 182쪽에 나오는 내용입니다.
----------------------------
 
만약에 어떤 값이 아닐 때는
<>
를 사용합니다. 엑셀 전반에 걸린 연산자이죠.
위의 결과는 m1이 아닌 것을 골라라고 했더니,
m2와 m3를 골라줍니다.

아빠가 들려 주는 [통계] 데이터를 합치자 Merge in Excel


작년에 논문 쓰면서 사용했던 기능인데요. 
여러분도 도움되실 것같네요. 



‘통합’ 기능은 연구자 A가 조사한 자료와 
연구자 B가 조사한 자료를 
하나의 시트로 합할 때 필요합니다. 
먼저 ①에 자리를 지정한 뒤 
‘데이터 → 데이터 도구 → 통합’(②)을 클릭합니다. 
③의 칸에, 두 통합할 표 부분 중 하나를 넣고, 
추가(④)를 선택하면 ‘모든 참조 영역’으
로 연결됩니다. 
지금은 두 표를 하나로 합쳤지만, 여러 개를 합칠 수도 있겠지요. 
그다음 표의 행과 열은 공통이기 때문에 ⑤에서 체크합니다. 
⑥은 일단 평균으로 했습니다. 
다음에 합계나 다른 함수를 선택해 보고 결과를 
보면 어떤 의미인지 알게 될 것입니다. 


결과가 이렇게 정리됩니다. 
통합된 표에는 공통된 홍길동, 나이, 5월이라는 행과 열은 통합되고 
나머지는 추가돼 보입니다. 
이 기능을 잘 모르면 복사해 붙여넣고 지우고를 수없이 반복해야 합니다. 
SPSS에서의 merge와 비슷한 기능입니다.
홍길동이 5월에 위표에서도 5점, 아래표에서도 5점이었기 때문에 
평균값은 5점으로 통합된 표에 나왔습니다. 
합계를 넣는다면, 통합표에는 10점으로 나올 것입니다
(⑥을 참고하세요). 이것은 때에 따라 유용할 수 있습니다.

-------------------
이상 내용는 제가 쓴 '논문 쉽고 편하게 쓰자 3판' 174쪽 175쪽에 나오는 내용입니다.



이건 보통 국건영이라고 부르는 국가 자료입니다. 
작년에 여기서 다운받은 자료로 논문을 썼는데, 
자료가 워낙 커서 여러 개로 나뉘어져 있습니다. 
그래서, 체중 키 나이 성별 등등의 자료가 들어있는 DB와 
다른 자료들이 성격에 따라 나누어져 있더군요. 
그러면 그 중에서 우리가 필요로 하는 자료를 합쳐야 합니다. 
예를 들어 구강검사 자료로 논문을 써야 한다면, 

두 DB에서 식별번호....는 동일하니까..
그것을 중심으로 해서 두 자료를 합쳐야 합니다. 
앗, 그 전에 SPSS 파일인 sav파일을 
엑셀에서 불러 올 수 있도록 csv 파일로 바꾸어야 하고요, 
SPSS에서 merge 기능을 아시는 분은 그냥 SPSS에서 하셔도 됩니다. 

2016년 2월 2일 화요일

아빠가 들려 주는 [통계] 데이터를 모으기 전 준비 - 데이터 유효성 검사



사실 논문 쓰기 전 단계인 데이터 잘 모으는 것이 더 중요합니다. 
통계는 사실 워낙 기계적이라서... 이제는 시간이 별로 안걸립니다. 
자료 모으는 것, 정확히 자료를 모으는 것이 훨씬 중요한 일입니다. 

그리고 시간도 많이 걸리고요... 
그 이야기를 해 보도록 하겠습니다. 


2015년 12월 27일 일요일

[real statistics] All of chi-squre test


at first down load this file here for nothing,




zoom out the sheet.
(1) what is chi- square test and Pearson and Yates
(2) chi-square distribution
(3) Odds ratio, Risk Ratio, Risk Difference and their 95% confidence interval
(4) Phi and Cramer's V
(5) some charts fit to chi- square test. you can copy and paste Word or PowerPoint and modify them easily.


(6) only fill new number Yellow Cells!!!! Do not change other cells



And Now we follow the old man's thought


we make the final number.
the number is "chi-square"
Who made this number? Pearson made it.
The son of Pear? Not actually he is the father of Statistics.

The larger this number, the bigger the difference between expected and observed.
This is Pearson's thought and it is reasonable.


Now he made a nice conclusion.
the possibility that two table is same = p
p=0.005~ so two table is not same.

One scholar named Yates made a small change the number X2
So we call this new number 'Yates X2'
'Yates X2' is more accurate when the cell is small.
if the cell is large, Two X2 get closer.

  
yes we say the possibility be p=0.005

but "How much different"
there are many ways
(1) odds ratio
(2) risk ratio(=relative risk)
(3) risk difference
(4) Cramer V and phi

you can choose one in your paper and power point.
(1) odds ratio
     usually for cross-sectional study
     odds itself ratio between two observation.
(2) risk ratio(=relative risk)
     usually for cohort study
     risk usually include observation after time(period)
(3) risk difference
     usually for cohort study
     risk usually include observation after time(period)
     relatively no so popular but increasing
     especially for non-inferiority test

all three are written with it 95% confidence interval


(4) Cramer V and phi
     two values are same (when 2X2 table)
     not so common
     similar to correlation coefficient



Three chart are easy to understand.
you can copy and paste in your paper(MS word) and slide(powerpoint)
and modify them











2015년 12월 10일 목요일

아빠가 들려 주는 [통계] Risk Difference 계산


if you want to have this excel file...

https://drive.google.com/file/d/0B0ETb2rCxDW2TzBYUERjR1NZR2s/view?usp=sharing

it's free for your study.

아빠가 들려 주는 [통계] 샘플 수의 계산

참 쉽죠?


if you want to have this excel file...

https://drive.google.com/file/d/0B0ETb2rCxDW2b3hqTXlhdE1TdEU/view?usp=sharing

it's free for your study.