본문 바로가기

전체 글

(34)
[ADsP 자격증] 1-1. 데이터와 정보(데이터-정보-지식-지혜) 제 1과목 데이터 이해 / 1. 데이터의 이해 / 1-1. 데이터와 정보 데이터는 사물, 현상, 사건, 인간관계 등에 관한 관찰 기록이다. 1) 재료, 자료, 논거라는 뜻인 Datum의 복수형 2) 컴퓨터 용어로 정보를 작성하기 위해 필요한 자료 3) 현실 세계에서 관찰 수집한 객관적 사실(Fact, raw material) 그리고 나아가 추론이나 예측을 위해 사용되는 존재 e.g) 신용카드 기록을 통해 다음달 매출을 예측하거나, 2000명의 표본을 통해 국민 전체의 여론을 추론하는 행위 4) 논문, 경영전략, 정책수립 등 일련의 가치 창출과정에서 가장 기초를 이루는 것 ※ 데이터가 아닌 것? 엄밀히 말했을 때 원주율이라 불리는 '3.14159253589....'와 같은 숫자는 데이..
데이터분석준전문가(ADsP) 시험 소개 (국가공인 자격증) 데이터분석준전문가(ADsP)는 한국데이터산업진흥원에서 시행하는 국가자격증으로 처음 민간자격증으로 출발했으나 2016년부터 국가공인으로 변경되었다. 빅데이터 산업 분야에서는 몇안되는 국가 자격증이다. 올해부터 정보처리기사를 대신해 빅데이터 분야를 대표하는 빅데이터분석기사가 시행된다고 하지만 기사 자격증은 4년제 대학의 4학년 재학 이상의 조건을 요구하고 있다. 데이터분석전문가(ADP)는 자격조건이 있는 반면, ADsP는 자격조건이 따로 없어서 누구나 응시할 수 있다. - 자격조건 : 응시 자격 조건 없음 - 합격조건 : 과목별 40% 이상 득점이며 총점 100점 만점 중 60점 이상 - 시험형태 : 필기시험(객관식 40문항, 주관식단답형 10문항 총 50문항) - 배점은 각 문항당 ..
[R-전처리] 데이터 테이블 조인(dplyr join) 실전 업무에서 데이터베이스는 데이터 종류별로 테이블이 나뉘기 때문에 하나의 테이블에 필요한 데이터 모두 포함된 경우는 드물다. 이상적인 분석용 데이터를 만들기 위해서는 데이터 테이블을 결합하는 처리가 필요하다. 학생테이블, 수업테이블 그리고 수강 신청 테이블을 각각 생성한다. # 학생테이블 students % filter(major == "경영학과"), lec_stu, by=('studentID') ) %>% View() 이중 삼중으로 데이터를 조인할 수도 있다. # 수강신청 테이블과 학생 테이블을 조인한 뒤, 수업테이블과 조인 inner_join((inner_join(lec_stu, students, by=('studentID'))), lecture, by=('lec_c..
[R-전처리] 데이터 집계함수(dplyr group_by 최빈값과 순위 계산) 2017년 기준의 경기도 내 SSM(Super Super Market) 기업형 슈퍼마켓 현황 데이터 ssm 최빈값은 주어진 데이터에서 가장 많은 개수로 나타나는 값을 뜻한다. R에는 최빈값을 계산해주는 함수(mode)는 따로 없어서 출현 횟수를 계산한 후에 출현 횟수가 최대가 되는 범주값을 찾으면 된다. View(table(ssm$브랜드명)) # 브랜드명 출현 빈도 계산 which.max( )는 전달된 벡터에서 최대값이 되는 벡터의 요소를 반환해준다. which.min( )는 전달된 벡터에서 최소값이 되는 벡터의 요소를 반환해준다. names( )는 전달된 벡터의 벡터 속성 정보를 반환환다. names(which.max(table(ssm$브랜드명))) # 최빈값 dp..
[R-전처리] 데이터 집계 함수(dplyr group_by 그룹별 요약통계) Raw data 상의 데이터 레코드를 좀 더 큰 단위로 변환하여 요약통계를 산출해야하는 일은 데이터 탐색 또는 의사결정에서 중요하다. 2020-03-20 기준, 한국 영화 역대 박스오피스200 데이터 movie 대표값이라고 하면, 서로 다른 데이터 셋을 비교하는데 있어서 비교 가능한 하나의 대표값을 말한다. 주로 평균을 많이 사용하지만 최대, 최소값, 중앙값, 백분위도 많이 사용하는 대표값이다. dplyr 패키지에서 최대값은 max 함수, 최소값은 min 함수, 평균값은 mean 함수, 중앙값은 median 함수, 백분위는 quantile 함수로 구현한다. library(dplyr) movie %>% group_by(대표국적) %>% summarise(max = max(매출액), mi..