본문 바로가기
Blog/MOOC

[데이터 시각화] 탐색적 자료분석(EDA) 시각화 Ⅰ

by NAMP 2017. 3. 26.

[데이터 시각화] 탐색적 자료분석(EDA)

탐색적 데이터 분석은 John Tukey에 의해 제안된 분야

탐색적 자료분석(Exploratory Data Analysis) : 데이터의 특징과 내재하는 구조적인 관계를 알아내기 위한 분석기법

저항성(Resesistance) : 자료의 일부가 파손되었을 때 영향을 적게 받는 성질

재표현(Re-expression) : 원래 변수를 적당한 척도로 변환하여 분포의 대칭성, 분산 안정성, 선형성을 갖게 한다.

원그래프(pie chart) : 항목별 구성을 잘 나타내는 그래프

막대그래프(bar chart) : 항목별 발생 도수를 막대의 상대적인 길이로 나타내는 그래프

  1. 탐색적 자료분석의 개념과 배경을 이해
  2. 데이터의 각종 그래프의 R에 의한 표현
  3. 작성된 그래프에 의한 자료의 특징 파악

EDA란 무엇인가

EDA의 정의 (Exploratory Data Analysis)

탐색적 자료분석이란?

데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 분석기법

데이터 스스로 말하도록 유도하는 분석법

종이와 연필을 가지고 자료분석을 시작한다.

CDA(Confirmatory Data Analysis) : 관측된 자료의 형태로 효과의 재현성을 평가하고 추정하는 전통적인 분석과정, 신뢰구간의 추정이나 유의성 검정에 의한 분석

EDA의 역사

모든것을 그림으로 나타내서 시각화 해야 한다.

EDA의 목적

EDA의 목적은 자료의 구조 및 특징 파악을 위하여 효과적이고 신뢰성있는 자료의 요약과 그래프 기법의 활용

탐험가처럼 데이터를 샅샅이 뒤져서 가능한 모형을 제시하는 역할

해당 분야에 대한 적절한 이해와 도전의식 해당분야 전문가와의 협업을 통해서 만이 좋은 결과 유도 가능

EDA의 네 가지 주제

저항성(Resistance)

자료의 일부가 기존과 현격히 다른 값으로 대체되었을 때 즉 자료의 일부가 파손되었을 때 영향을 적게 받는 성질

저항성 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않는다.

잔차의 해석(Residual)

잔차란 관찰값들이 주경향으로부터 얼마나 벗어났는지를 말해준다.

잔차를 구해봄으로써 데이터의 보통과 다른 특징을 찾아내야 한다.

자료의 재표현(Re-expression)

데이터분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도(로그변환, 제곱근변환, 역수변환)로 바꾸는 것

분포의 선형성, 분산의 안정성, 관련변수의 가법성, 분포의 대칭성 등 데이터 구조파악과 해석에 도움

자료의 현시성(Graphical Respresentation)

자료의 그래프에 의한 표현

자료 안에 숨어있는 정보를 시각적으로 나타내줌으로써 자료의 구조를 효율적으로 파악

EDA에서는 다양한 그래프의 적성법들 이용

작성된 그래프에 의한 자료의 특징 파악

원그래프

전체에서 각 항목이 차지하는 비율을 파악 하기 위한 그래프

시각화의 목표: 데이터의 통계적 정보를 그림의 형태로 나타내어 분포의 구성을 상대적으로 비교하는 데 유용


pie() # 원 그래프
square.pie() # 사각파이 그래프

막대그래프

막대그래프: 항목별 도수를 막대의 상대적인 길이로 나타낸 그래프

시각화의 목표: 전체의 구성비 보다는 어느 항목의 막대가 제일 긴지 보여준다.


# 막대그래프 그리기
barplot()

댓글