2016년 2월 15일 월요일

아빠가 들려 주는 [통계] Boxplot 개념과 개선?

 Boxplot은 아마도 가장 많이 사용되는 plot이 아닐까 생각됩니다. 
상자 수염 그림(box whisker plot)으로도 불립니다.
상자 위 아래로 수염이 있어서 그렇습니다.

사실 이 수염은 전체 분포의 25%를 차지하고, 상자 하나도 25%를 차지합니다. 
그래서, 두 상자 사이는 중앙값 median이 됩니다.
이 상자 그림을 보면, 총 5개의 값을 직관적으로 알 수 있지요. 

 간혹 이런 십자가가 가운데 있기도 합니다. 
배꼽인가? 

 이것은 평균입니다. 평균은 중요하니까 한번 표시해 줍니다. 
그리고,수염 위 또는 아래에 점이 있기도 합니다. 
이것은 이상값을 말해 줍니다. 

두 상자의 위 아래의 간격을 사분위범위(IQR, inter quartile range)라고 부르는데,
상자 경계에서, IQR의 1.5배 이상 벗어나면 이상값이 됩니다.

 때로 어떤 경우는 3배이상이면 이상값,
1.5배 이상이면 suspected outlier라고 하기도 합니다.

또 이렇게 잘록한 것을 
notched boxplot이라고 합니다. 
중앙값의 95% 신뢰구간을 보여 줍니다. 
이렇게 위 아래로 각각 범위가 있는 것이죠. 
대신 이 범위는 위 아래 대칭입니다. 
공식은 위에 있는 것과 같습니다. 

어떤 경우는 이렇게 notch가 커서 상자를 모두 깍아 먹기도 합니다. 
왜 그럴까요?
보통 N수가 적어지면 그렇습니다. 
위의 공식을 보시면 이해 되시죠?
R 같은데서 잘 그려 줍니다. 

여기까지는 공식적으로 많이 알려 진 내용이고요,
 이 다음부터는 저의 이야기 입니다. 
뭐 꼭 안보셔도 됩니다만..
 보셔도 손해 볼 것은 없습니다. 

 이 boxplot의 단점은 수염이 직선이다 보니 
상대적으로 너무 분포가 작을 것같은  착시를 일으킵니다.
또 상자 하나는 같은 n을 가지고 있는데, 
작은 상자는 작기 때문에 분포에 착시를 일으킵니다.
(1)의 그림보다는
(2) 그림이 더 분포를 잘 보여준다
고 저는 생각합니다. 
이 4 상자는 모두 면적이 같습니다. 
사실 이것은 (3)그림하고도 비슷합니다. 
이것은 히스토그램하고도 약간 비슷해 보이죠?
어쨌든 
저는 boxpot이 (2)처럼 바뀌는 것이 더
편하고 분포를 잘 보여 준다고 생각합니다.


극단적으로 (4)에서처럼 수염이 짧으면 
마치 별것없는 것처럼 느껴지지만
실제로 분포는 
(5)처럼 아래쪽에 극단적으로 많이 몰려있는 비대칭적인 구조임을
새로운 boxplot이 더 잘 보여 줍니다. 

혹시 누구 여유있으신 분은 
R 패키지 만들어 주시면 감사하겠습니다. 

댓글 1개:

  1. 좋은 자료 감사합니다. 요새 R 패키지 만드는 것 공부하고 있는데 이 주제로 해보는 것도 좋겠네요

    답글삭제