[R-전처리] 데이터 집계 함수(dplyr group_by 그룹별 요약통계)
Raw data 상의 데이터 레코드를 좀 더 큰 단위로 변환하여 요약통계를 산출해야하는 일은 데이터 탐색 또는 의사결정에서 중요하다. 2020-03-20 기준, 한국 영화 역대 박스오피스200 데이터 movie 대표값이라고 하면, 서로 다른 데이터 셋을 비교하는데 있어서 비교 가능한 하나의 대표값을 말한다. 주로 평균을 많이 사용하지만 최대, 최소값, 중앙값, 백분위도 많이 사용하는 대표값이다. dplyr 패키지에서 최대값은 max 함수, 최소값은 min 함수, 평균값은 mean 함수, 중앙값은 median 함수, 백분위는 quantile 함수로 구현한다. library(dplyr) movie %>% group_by(대표국적) %>% summarise(max = max(매출액), mi..