데이터 분석을 할 때 실제로는 내장되어있는 샘플 데이터가 아니라 컴퓨터 디렉토리(폴더) 안에 있는 데이터를 R로 불러서 분석을 하게 된다.
따라서 워킹 디렉토리 설정이나 R외부에서 데이터 파일을 불러오는 것은 필수적이다.
< 워킹 디렉토리 설정 >
워킹 디렉토리는 현재 작업 중인 디렉터리를 말한다.
디렉토리는 흔히 폴더(folder)로 불린다.
R에도 기본적으로 사용하는 워킹 디렉터리가 있는데 예를들면 카카오톡이나 구글 크롬에서 첨부파일을 저장하려고 할 때, 특정 폴더를 지정해주지 않으면 기본적으로 '카카오톡 다운로드 폴더'나 '내문서' 에 저장되는데 이것이 워킹 디렉토리이다.
워킹 디렉토리 확인은 getwd() 으로 할 수 있으며,
워킹 디렉토리 변경은 setwd("새 경로") 이다.
getwd()
setwd("C:\\Users\\user\\Desktop\\data")
getwd()
참고로 역슬래시 표시는 윈도우 키보드에서는 \(원화)표시와 같다.
또 역슬래시(또는 원화) 표시 두개는 /(슬래시) 한개와 같은 의미이다.
< 실습에 사용할 예제 데이터 >
실습에 사용할 데이터는 공공데이터 중 서울시 6호선의 2월 한달 간 승하차 데이터이다.
txt 파일은 탭으로 구분되어 있고, 컬럼명이 있다.
csv 파일에는 컬럼명이 있다.
< TXT 파일 불러오기 >
txt는 텍스트 파일인데 맥OS의 텍스트편집기, 윈도우OS의 메모장에서 작성된 파일이다.
txt 파일은 read.table("파일명.txt", header=T, sep='컬럼 구분기호') 형태로 불러온다.
1) header=T 는 파일의 첫줄은 변수명이라는 뜻이고, 첫줄이 변수명이 아니면 아무것도 안쓰면 된다.
2) sep=' ' 는 데이터 컬럼 구분자를 설정해주는 것이다. 보통 쉼표(,) 공백( ), 탭( ), 특수기호(|) 등으로 구분되어있다. * 탭은 \t로 표시함
var <- read.table("C:\\Users\\user\\Desktop\\data\\line6_seoul.txt", header=T, sep='\t')
# 워킹 디렉토리에 해당파일이 있을 때는 경로 없이 파일명만 입력해줘도 된다.
# ex. var <- read.table("line6_seoul.txt", header=T, sep='\t')
head(var)
str(var)
파일명을 입력하기 싫을 때는 read.table(file.choose(). header=T, sep='구분자') 로 불러올 수도 있다.
var <- read.table(file.choose(), header=T, sep='\t')
str(var)
< CSV 파일 불러오기 >
csv 파일은 comma-separated values의 약자로, 컬럼 구분자가 쉼표(,)로 고정된 특수한 파일 형태이다.
txt 파일은 여러가지 구분자를 취급하는데 comma 구분자는 대중적으로 많이 사용하다보니 아에 csv파일이라는 형태가 생겨났다고 생각해도 된다.
csv파일은 read.csv("파일명", header=T) 의 형태로 불러올 수 있다.
read.csv(file.choose(), header=T)도 사용가능하다.
var <- read.csv("line6_seoul.csv", header=T)
head(var)
str(var)
< 데이터 프레임 전체 확인하기 >
콘솔창에서 데이터 프레임 구조의 데이터를 확인 하려면 행과 열도 잘 맞지 않고,
데이터가 큰 경우 전체 데이터가 다 나오지 않는 문제가 있다.
View(변수명)을 사용하면 조금 더 편하게 데이터를 확인할 수 있다.
View(var)
'R프로그래밍' 카테고리의 다른 글
[R프로그래밍] 샘플링(sampling)과 기초통계, 상관계수 (0) | 2020.03.16 |
---|---|
[R프로그래밍] 팩터(Factor) 변수 (0) | 2020.03.13 |
[R프로그래밍] 패키지 설치 및 관리 (0) | 2020.03.11 |
[R프로그래밍] 데이터 프레임 필터링, 결측치(NA와 NULL) (0) | 2020.03.10 |
[R프로그래밍] 데이터 프레임 핸들링 (0) | 2020.03.09 |