본문 바로가기
Blog/MOOC

[데이터 시각화] 탐색적 자료분석(EDA) 시각화 Ⅱ

by NAMP 2017. 3. 26.

[데이터 시각화] 탐색적 자료분석(EDA) 시각화 Ⅱ

히스토그램(Histogram): 연속형 관찰값의 구간별 도수를 상대적인 막대의 길이로 나타낸 그래프

상자그림(Boxplot): 사분위수와 중앙값으로 상자를 만들고 최대 최소에 선을 연결한 그래프

줄기 잎 그림(Stem-leaf plot): 수치로 된 자료를 줄기와 잎으로 분류하여 자료의 분포개형을 파악하는 그림

히스토그램

연속형 관찰값의 구간별 도수를 상대적인 막대의 길이로 나타낸 그래프

분포의 개형을 파악하는데 도움

히스토그램의 검토요령

  • 자료의 중심위치
  • 자료의 산포
  • 봉우리의 갯수
  • 이상치의 점검 (outlier)

hist() # 히스토그램 작성

임의의 수 생성에 의한 히스토그램 작성


# 포아송분포로부터의 임의수 생성
rpois(n, lamda)
# 포아송분포로부터 난수생성 자료의 분포 히스토그램
z <- rpois(1000, 5)
table(z)
hist(z)

상자그림 (Boxplot)

사분위수와 중앙값으로 상자를 만들고 최대 최소에 선을 연결한 자료의 퍼짐 정도를 파악하여 분포의 개형을 파악 하는데 도움을 주는 그래프

상자그림의 작성

  1. 다섯수치요약(min, Q1, M, Q3, max)을 구한다.
  2. 위, 아래 4분위수(Q)에 해당하는 수직선상의 위치에 네모형 상자의 양끝이 오도록 한다
  3. 중위수(M)에 해당하는 위치를 표시한다. +
  4. 최소값과 최대값의 위치에 점을 찍고, 이 점을 상자의 양끝과 연결하는 선분을 그린다.

# 상자그림 작성
m=matrix(c(1,3,2,3), ncol=2, byrow=T)
layout(mat=m)
boxplot(과포화비율, col="yellow", horizontal=T, main=NULL)
rug(과포화비율, col="blue")

# 상자그림과 바이올린그림
par(mfrow=c(1,3))
require(vioplot)
boxplot(과포화비율~성별, notch=T, col="yellow", main=NULL)
vioplot(male$과포화비율, female$과포화비율)

줄기 잎 그림 (Stem-Leaf Plot)

수치로 된 자료를 줄기와 잎으로 분류하여 자료의 분포개형을 파악하는 그림


# 나무 줄기그림 작성
exam1 <- read.table("exam1.txt", header=T)
str(exam1)
attach(exam1)
stem(score)
stem(score, scale=2)

줄기 잎 그림과 히스토그램의 비교

공통점차이점
외양적인 테두리가 동일줄기그림은 구간내의 자료들의 도수가 아닌 숫자로 구별되어 있으므로 도수로 나타낸 히스토그램이 정보의 손실
자료의 분포 개형을 파악하는데 중요한 정보를 제공줄기그림에서는 작성된 원 줄기그림을 이용하여 좀 더 효율적으로 쉽게 줄기 수를 조절할 수 있음
각 구간에 속하는 자료 점의 도수에 비례하는 막대기둥줄기그림은 구간폭이 정수이어야 하기 때문에 히스토그램처럼 구간폭을 임의로 정할 수 없음

댓글