[데이터 시각화] 탐색적 자료분석(EDA) 시각화 Ⅱ
히스토그램(Histogram): 연속형 관찰값의 구간별 도수를 상대적인 막대의 길이로 나타낸 그래프
상자그림(Boxplot): 사분위수와 중앙값으로 상자를 만들고 최대 최소에 선을 연결한 그래프
줄기 잎 그림(Stem-leaf plot): 수치로 된 자료를 줄기와 잎으로 분류하여 자료의 분포개형을 파악하는 그림
히스토그램
연속형 관찰값의 구간별
도수
를 상대적인 막대의 길이로 나타낸 그래프
분포의 개형을 파악하는데 도움
히스토그램의 검토요령
- 자료의 중심위치
- 자료의 산포
- 봉우리의 갯수
- 이상치의 점검 (outlier)
hist() # 히스토그램 작성
임의의 수 생성에 의한 히스토그램 작성
# 포아송분포로부터의 임의수 생성
rpois(n, lamda)
# 포아송분포로부터 난수생성 자료의 분포 히스토그램
z <- rpois(1000, 5)
table(z)
hist(z)
상자그림 (Boxplot)
사분위수와 중앙값으로 상자를 만들고 최대 최소에 선을 연결한 자료의 퍼짐 정도를 파악하여
분포의 개형을 파악
하는데 도움을 주는 그래프
상자그림의 작성
- 다섯수치요약(min, Q1, M, Q3, max)을 구한다.
- 위, 아래 4분위수(Q)에 해당하는 수직선상의 위치에 네모형 상자의 양끝이 오도록 한다
-
중위수(M)에 해당하는 위치를 표시한다.
+
- 최소값과 최대값의 위치에 점을 찍고, 이 점을 상자의 양끝과 연결하는 선분을 그린다.
# 상자그림 작성
m=matrix(c(1,3,2,3), ncol=2, byrow=T)
layout(mat=m)
boxplot(과포화비율, col="yellow", horizontal=T, main=NULL)
rug(과포화비율, col="blue")
# 상자그림과 바이올린그림
par(mfrow=c(1,3))
require(vioplot)
boxplot(과포화비율~성별, notch=T, col="yellow", main=NULL)
vioplot(male$과포화비율, female$과포화비율)
줄기 잎 그림 (Stem-Leaf Plot)
수치로 된 자료를 줄기와 잎으로 분류하여 자료의 분포개형을 파악하는 그림
# 나무 줄기그림 작성
exam1 <- read.table("exam1.txt", header=T)
str(exam1)
attach(exam1)
stem(score)
stem(score, scale=2)
줄기 잎 그림과 히스토그램의 비교
공통점 | 차이점 |
---|---|
외양적인 테두리가 동일 | 줄기그림은 구간내의 자료들의 도수가 아닌 숫자로 구별되어 있으므로 도수로 나타낸 히스토그램이 정보의 손실 |
자료의 분포 개형을 파악하는데 중요한 정보를 제공 | 줄기그림에서는 작성된 원 줄기그림을 이용하여 좀 더 효율적으로 쉽게 줄기 수를 조절할 수 있음 |
각 구간에 속하는 자료 점의 도수에 비례하는 막대기둥 | 줄기그림은 구간폭이 정수 이어야 하기 때문에 히스토그램처럼 구간폭을 임의로 정할 수 없음 |
'Blog > MOOC' 카테고리의 다른 글
[데이터시각화] 이변량 자료의 시각화 Ⅰ (0) | 2017.04.06 |
---|---|
[데이터 시각화] 탐색적 자료분석(EDA) 시각화 Ⅰ (0) | 2017.03.26 |
[통계패키지] SAS 문장 사용법 (0) | 2017.03.20 |
[통계패키지] SAS 시스템 개요 (0) | 2017.03.15 |
[금융데이터의 이해] 생활속의 금융데이터 - 3 (0) | 2017.03.15 |
댓글