본문 바로가기

R프로그래밍

[R프로그래밍] 워킹디렉토리 설정, 데이터 불러오기(TXT, CSV file)

데이터 분석을 할 때 실제로는 내장되어있는 샘플 데이터가 아니라 컴퓨터 디렉토리(폴더) 안에 있는 데이터를 R로 불러서 분석을 하게 된다.

 

따라서 워킹 디렉토리 설정이나 R외부에서 데이터 파일을 불러오는 것은 필수적이다.

 

 

 

 

< 워킹 디렉토리 설정 >

워킹 디렉토리는 현재 작업 중인 디렉터리를 말한다.

디렉토리는 흔히 폴더(folder)로 불린다.

 

R에도 기본적으로 사용하는 워킹 디렉터리가 있는데 예를들면 카카오톡이나 구글 크롬에서 첨부파일을 저장하려고 할 때, 특정 폴더를 지정해주지 않으면 기본적으로 '카카오톡 다운로드 폴더'나 '내문서' 에 저장되는데 이것이 워킹 디렉토리이다.

 

워킹 디렉토리 확인은 getwd() 으로 할 수 있으며,

워킹 디렉토리 변경은 setwd("새 경로") 이다.

 

getwd()
setwd("C:\\Users\\user\\Desktop\\data")

getwd()

 

 

참고로 역슬래시 표시는 윈도우 키보드에서는 \(원화)표시와 같다.

또 역슬래시(또는 원화) 표시 두개는 /(슬래시) 한개와 같은 의미이다.

 

 

 

< 실습에 사용할 예제 데이터 >

실습에 사용할 데이터는 공공데이터 중 서울시 6호선의 2월 한달 간 승하차 데이터이다.

 

 

txt 파일은 탭으로 구분되어 있고, 컬럼명이 있다.

line6_seoul.txt
0.04MB

 

csv 파일에는 컬럼명이 있다.

line6_seoul.csv
0.04MB

 

 

 

 

< TXT 파일 불러오기 >

txt는 텍스트 파일인데 맥OS의 텍스트편집기, 윈도우OS의 메모장에서 작성된 파일이다.

txt 파일은 read.table("파일명.txt", header=T, sep='컬럼 구분기호') 형태로 불러온다.

 

1) header=T 는 파일의 첫줄은 변수명이라는 뜻이고, 첫줄이 변수명이 아니면 아무것도 안쓰면 된다.

2) sep=' ' 는 데이터 컬럼 구분자를 설정해주는 것이다.  보통 쉼표(,) 공백( ), 탭(        ), 특수기호(|) 등으로 구분되어있다.  * 탭은 \t로 표시함

var <- read.table("C:\\Users\\user\\Desktop\\data\\line6_seoul.txt", header=T, sep='\t')
# 워킹 디렉토리에 해당파일이 있을 때는 경로 없이 파일명만 입력해줘도 된다.
# ex. var <- read.table("line6_seoul.txt", header=T, sep='\t')

head(var)
str(var)

 

 

파일명을 입력하기 싫을 때는 read.table(file.choose(). header=T, sep='구분자') 로 불러올 수도 있다.

 

var <- read.table(file.choose(), header=T, sep='\t')

str(var)

 

 

 

 

 

< CSV 파일 불러오기 >

csv 파일은 comma-separated values의 약자로,  컬럼 구분자가 쉼표(,)로 고정된 특수한 파일 형태이다. 

txt 파일은 여러가지 구분자를 취급하는데 comma 구분자는 대중적으로 많이 사용하다보니 아에 csv파일이라는 형태가 생겨났다고 생각해도 된다.

 

csv파일은 read.csv("파일명", header=T) 의 형태로 불러올 수 있다.

read.csv(file.choose(), header=T)도 사용가능하다.

 

var <- read.csv("line6_seoul.csv", header=T)

head(var)
str(var)

 

 

 

 

 

< 데이터 프레임 전체 확인하기 >

콘솔창에서 데이터 프레임 구조의 데이터를 확인 하려면 행과 열도 잘 맞지 않고,

데이터가 큰 경우 전체 데이터가 다 나오지 않는 문제가 있다.

 

View(변수명)을 사용하면 조금 더 편하게 데이터를 확인할 수 있다.

 

View(var)