본문 바로가기
Blog/MOOC

[데이터시각화] 이변량 자료의 시각화 Ⅰ

by NAMP 2017. 4. 6.

[데이터시각화] 이변량 자료의 시각화 Ⅰ

  • 산점도(scatterplot): 연속형 자료에 대한 시각화 기법으로 두 변수 각 상관회귀 관계를 살펴보는데 매우 효과적
  • 이변량 밀도 추정: 이변량 자료로부터 모분포의 밀도를 추정하기 위해서 커널 함수를 사용. 등고선을 덧붙여 시각화 효과를 높임
  • 육각형 칸에 넣기(hexagonal binning): 관측 개체를 육각형 칸에 넣어 얻은 돗수(count)를 칸 별로 색의 농담으로 나타낸 일종의 산점도
  • 회귀적 관계: 이변량 자료로부터 추정된 회귀함수 y=f(x)를 산점도에 넣어 두 변수 간 관계를 시각화함. 회귀 함수 형태는 직선과 곡선이 있음.

산점도 (scatterplot)

이변량 연속형 자료점들을 2차원 평면에 넣은 그래프

회귀적 관계 (X → Y) : X를 수평 축에, Y를 수직 축에 넣음

기본원칙 : 가로와 세로의 비는 1:1 로 (aspect=1)

기술통계를 구하는 명령어


summary(exam)

NA 를 0 으로 변환한다.


mid[is.na(mid)] <- 0
final[is.na(final)] <- 0
windows(height=5.5, width=5)
plot(mid, final, pch=20,
    xlim=c(-5,40), ylim=c(-5,40),
    col="blue",
    xlab="중간시험", ylab="기말시험",
    main="통계적 사고")

무지개 색을 지정한다.


col=rainbow(5)

이변량 밀도

밀도추정(density estimation)

$$ {f(x,y; b_x,b_y)=}\frac{1}{n}\sum^n_{i=1}\frac{1}{b_x}\frac{1}{b_y}{K}(\frac{x-x_i}{b_x}){K}(\frac{y-y_i}{b_y}) $$

R 스크립트 상세 설명


density <- bkde2D(exam, bandwidth=c(2.5,2.5))
  • bkde2D: bivariate kernel density estimate

contour(density$x1, density$x2, density$fhat, xlim=c(-5,40), ylim=c(-5,40), col=heat.colors(7)[7:1], nlevels=7, lwd=2)
  • lwd: line width
  • contour: 등고선

큰 자료의 산점도

자료 크기가 n >= 10,000

그래프 영역이 자료 점들로 포화 → 먹칠

육각형 칸에 넣기(hexagonal binning)

그래프 영역을 육각형의 벌집으로 나누어 개체들을 해당하는 칸에 넣고 칸의 돗수를 색의 불투명도로 표현


libaray(hexbin)
widows(height=7, width=6.4)
hexbinplot(sqrt(price)~carat, data=diamoonds, main="diamonds", xlim=c(-0.5,5.5), ylim=c(0,160), xbins=25, aspect=1, colorkey=F)

회귀적 관계

선형회귀


windows(height=5.5, width=5)
plot(exam$mid, exam$final, pch=20, ...)
abline(lm(exam$final~exam$mid), col="red")
  • lm: linear model

비모수적 회귀: lowess (locally weighted scatterplot smoothing)


windows(height=7, width=6.4)
diamonds$sqrt.price <- sqrt(price)
plot(sqrt(price)~carat, col="gray", ...)
lines(			lowess(diamonds$sqrt.price~diamons$carat, f=0.1), lwd=2, col="blue"	
)

정리

  • 산점도: 두 연속형 변수 간 관계를 보여줌
  • 이변량 밀도: 밀도 등고선(contour line) 넣기
  • 큰 자료의 산점도: 육각형 칸에 넣기(hexagonal binning)
  • 회귀적 관계: 선형회귀 vs 비모수적 회귀 lowess

댓글