[데이터시각화] 이변량 자료의 시각화 Ⅰ
- 산점도(scatterplot): 연속형 자료에 대한 시각화 기법으로 두 변수 각 상관회귀 관계를 살펴보는데 매우 효과적
-
이변량 밀도 추정: 이변량 자료로부터 모분포의 밀도를 추정하기 위해서 커널 함수를 사용.
등고선
을 덧붙여 시각화 효과를 높임 -
육각형 칸에 넣기(hexagonal binning): 관측 개체를 육각형 칸에 넣어 얻은 돗수(count)를 칸 별로 색의 농담으로 나타낸 일종의
산점도
- 회귀적 관계: 이변량 자료로부터 추정된 회귀함수 y=f(x)를 산점도에 넣어 두 변수 간 관계를 시각화함. 회귀 함수 형태는 직선과 곡선이 있음.
산점도 (scatterplot)
이변량 연속형 자료점들을 2차원 평면에 넣은 그래프
회귀적 관계 (X → Y) : X를 수평 축에, Y를 수직 축에 넣음
기본원칙 : 가로와 세로의 비는 1:1 로 (aspect=1)
기술통계를 구하는 명령어
summary(exam)
NA 를 0 으로 변환한다.
mid[is.na(mid)] <- 0
final[is.na(final)] <- 0
windows(height=5.5, width=5)
plot(mid, final, pch=20,
xlim=c(-5,40), ylim=c(-5,40),
col="blue",
xlab="중간시험", ylab="기말시험",
main="통계적 사고")
무지개 색을 지정한다.
col=rainbow(5)
이변량 밀도
밀도추정(density estimation)
$$ {f(x,y; b_x,b_y)=}\frac{1}{n}\sum^n_{i=1}\frac{1}{b_x}\frac{1}{b_y}{K}(\frac{x-x_i}{b_x}){K}(\frac{y-y_i}{b_y}) $$
R 스크립트 상세 설명
density <- bkde2D(exam, bandwidth=c(2.5,2.5))
- bkde2D: bivariate kernel density estimate
contour(density$x1, density$x2, density$fhat, xlim=c(-5,40), ylim=c(-5,40), col=heat.colors(7)[7:1], nlevels=7, lwd=2)
- lwd: line width
- contour: 등고선
큰 자료의 산점도
자료 크기가 n >= 10,000
그래프 영역이 자료 점들로 포화 → 먹칠
육각형 칸에 넣기(hexagonal binning)
그래프 영역을 육각형의 벌집으로 나누어 개체들을 해당하는 칸에 넣고 칸의 돗수를 색의 불투명도로 표현
libaray(hexbin)
widows(height=7, width=6.4)
hexbinplot(sqrt(price)~carat, data=diamoonds, main="diamonds", xlim=c(-0.5,5.5), ylim=c(0,160), xbins=25, aspect=1, colorkey=F)
회귀적 관계
선형회귀
windows(height=5.5, width=5)
plot(exam$mid, exam$final, pch=20, ...)
abline(lm(exam$final~exam$mid), col="red")
- lm: linear model
비모수적 회귀: lowess (locally weighted scatterplot smoothing)
windows(height=7, width=6.4)
diamonds$sqrt.price <- sqrt(price)
plot(sqrt(price)~carat, col="gray", ...)
lines( lowess(diamonds$sqrt.price~diamons$carat, f=0.1), lwd=2, col="blue"
)
정리
- 산점도: 두 연속형 변수 간 관계를 보여줌
- 이변량 밀도: 밀도 등고선(contour line) 넣기
- 큰 자료의 산점도: 육각형 칸에 넣기(hexagonal binning)
- 회귀적 관계: 선형회귀 vs 비모수적 회귀 lowess
'Blog > MOOC' 카테고리의 다른 글
[데이터 시각화] 탐색적 자료분석(EDA) 시각화 Ⅱ (0) | 2017.03.26 |
---|---|
[데이터 시각화] 탐색적 자료분석(EDA) 시각화 Ⅰ (0) | 2017.03.26 |
[통계패키지] SAS 문장 사용법 (0) | 2017.03.20 |
[통계패키지] SAS 시스템 개요 (0) | 2017.03.15 |
[금융데이터의 이해] 생활속의 금융데이터 - 3 (0) | 2017.03.15 |
댓글