본문 바로가기

Blog/MOOC17

[데이터시각화] 이변량 자료의 시각화 Ⅰ [데이터시각화] 이변량 자료의 시각화 Ⅰ 산점도(scatterplot): 연속형 자료에 대한 시각화 기법으로 두 변수 각 상관회귀 관계를 살펴보는데 매우 효과적 이변량 밀도 추정: 이변량 자료로부터 모분포의 밀도를 추정하기 위해서 커널 함수를 사용. 등고선을 덧붙여 시각화 효과를 높임 육각형 칸에 넣기(hexagonal binning): 관측 개체를 육각형 칸에 넣어 얻은 돗수(count)를 칸 별로 색의 농담으로 나타낸 일종의 산점도 회귀적 관계: 이변량 자료로부터 추정된 회귀함수 y=f(x)를 산점도에 넣어 두 변수 간 관계를 시각화함. 회귀 함수 형태는 직선과 곡선이 있음. 산점도 (scatterplot) 이변량 연속형 자료점들을 2차원 평면에 넣은 그래프 회귀적 관계 (X → Y) : X를 수평 .. 2017. 4. 6.
[데이터 시각화] 탐색적 자료분석(EDA) 시각화 Ⅱ [데이터 시각화] 탐색적 자료분석(EDA) 시각화 Ⅱ 히스토그램(Histogram): 연속형 관찰값의 구간별 도수를 상대적인 막대의 길이로 나타낸 그래프상자그림(Boxplot): 사분위수와 중앙값으로 상자를 만들고 최대 최소에 선을 연결한 그래프줄기 잎 그림(Stem-leaf plot): 수치로 된 자료를 줄기와 잎으로 분류하여 자료의 분포개형을 파악하는 그림 히스토그램 연속형 관찰값의 구간별 도수를 상대적인 막대의 길이로 나타낸 그래프 분포의 개형을 파악하는데 도움 히스토그램의 검토요령 자료의 중심위치 자료의 산포 봉우리의 갯수 이상치의 점검 (outlier) hist() # 히스토그램 작성 임의의 수 생성에 의한 히스토그램 작성 # 포아송분포로부터의 임의수 생성 rpois(n, lamda) # 포아송.. 2017. 3. 26.
[데이터 시각화] 탐색적 자료분석(EDA) 시각화 Ⅰ [데이터 시각화] 탐색적 자료분석(EDA) 탐색적 데이터 분석은 John Tukey에 의해 제안된 분야탐색적 자료분석(Exploratory Data Analysis) : 데이터의 특징과 내재하는 구조적인 관계를 알아내기 위한 분석기법저항성(Resesistance) : 자료의 일부가 파손되었을 때 영향을 적게 받는 성질재표현(Re-expression) : 원래 변수를 적당한 척도로 변환하여 분포의 대칭성, 분산 안정성, 선형성을 갖게 한다.원그래프(pie chart) : 항목별 구성을 잘 나타내는 그래프막대그래프(bar chart) : 항목별 발생 도수를 막대의 상대적인 길이로 나타내는 그래프 탐색적 자료분석의 개념과 배경을 이해 데이터의 각종 그래프의 R에 의한 표현 작성된 그래프에 의한 자료의 특징 파.. 2017. 3. 26.
[통계패키지] SAS 문장 사용법 [통계패키지] SAS 문장 사용법 데이터의 구조 데이터 세트(data set) : SAS에서의 자료 모임 데이터 값(data value): 데이터 세트를 이루는 기본단위 관측(observation): 동일 개체에 국한된 데이터 값들 → record 변수(variable): 동일 특성에 대한 데이터 값들의 모임 변수이름(variable name): 자료의 입력과 구조변경 저장등을 수행 연산자: 각종 수학연산을 수행하기 위한 연산기능을 나타내는 기호 데이터 구조 → SAS문장과 연산자 → 데이터 입력의 유형과 용법 → Data 문과 Input 문 SAS문장과 연산자 SAS 키워드 : DATA, INPUT, DATALINES, RUN PROC, PRINT, SET SAS 이름: class, name$(문자변수.. 2017. 3. 20.
[통계패키지] SAS 시스템 개요 [통계패키지] SAS 시스템 개요 통계패키지: 각 통계처리에 적합하도록 미리 작성된 프로그램에 자료를 입력시키고 요구하는 자료처리방법을 지정하면 통계분석결과를 출력하는 프로그램집 SAS 시스템: 자료의 입력과 저장 수정 검색, 파일편집, 단순기술통계분석, 보고서작성 등의 필수기능을 제공하는 기본 SAS 소프트웨어 SAS 작업공간: SAS 시스템에 연관된 모든 작업을 하는 그래픽스 공간 SAS 기본화면: 세조각으로 되어 있는데 위로부터 확장편집기, 로그화면, 탐색기화면, 출력화면으로 구성 프록스텝: 데이터분석을 하기 위한 절차를 정의 데이터스텝: 자료의 입력과 구조변경 저장 등을 수행 통계패키지란 컴퓨터의 통계적 활용 자료의 수집 자료의 처리 (컴퓨터 활용으로 빠르게, 정확하게 처리) 자료의 관찰 (Sim.. 2017. 3. 15.
[금융데이터의 이해] 생활속의 금융데이터 - 3 [금융데이터의 이해] 생활속의 금융데이터 - 3 금리 이자: 돈을 빌린 대가 → 이자는 현재의 소비를 희생하고 돈을 빌려준 대가 금리(이자율): 이자의 원금에 대한 비율 금리는 돈을 빌려려고 하는 수요와 돈을 빌려주고자 하는 공급에 따라 결정금리는 단리와 복리, 명목금리와 실질금리, 수익률과 할인율, 예금이자율과 대출이자율 등 다양하게 구분 단리와 복리 단리방식: 원금에 대해서만 이자를 계산하는 경우 복리방식: 이자를 매년 받아가지 않고 이자를 원금에 포함해서 이자를 계산하는 경우 원금이 2배 되는 시점 이자율2배 되는 시점 1%69.66년10%7.27년20%3.8년 실질금리와 명목금리 명목금리: 우리가 흔히 접하는 금리로 물가를 고려하지 않은 금리 실질금리: 명목금리 - 물가상승률 (4.5% - 2.5.. 2017. 3. 15.