본문 바로가기

데이터분석준전문가(ADsP)

[ADsP 자격증] 1-4. 빅데이터의 이해

제 1과목 데이터 이해 / 2. 데이터의 가치와 미래 / 2-1.빅데이터의 이해

 

 

 

 

 

 

< 빅데이터의 정의 >

큰(big) 데이터,  하지만 단순히 용량만 방대한 것이 아니라 복잡성도 증가하여 기존 데이터 처리 애플리케이션이나 관리 툴(tool)로는 다루기 어려운 데이터세트 집합(collection of data sets).

 

빅데이터 현상은 다양한 영역에서 일어나고 있으며 정의 또한 다양하다.

 

Mckinsey, 2011 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터(활용하는 데이터 규모에 중점을 둔 정의).
IDC, 2011 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처(분석비용 및 기술에 초점을 둔 정의).
일본, 노무라연구소 데이터와 데이터 처리, 저장 및 분석 기술 그리고 의미있는 정보 도출에 필요한 인재나 조직
가트너 그룹(Gartner Group)의 더그 래니 3V (크기 및 양 Volumn, 종류 및 소스의 다양성 Variety, 수집과 처리 속도 Velocity)
메이어-쇤베르거와쿠키어, 2013 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치(Value)를 추출해 내는 일, 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일

 

빅데이터 정의를 종합하면 빅데이터를 보는 관점에 따라 3가지로 정의할 수 있다.

 

1) 좁은 의미의 정의 : 규모, 형태 속도 3V로 요약되는 데이터 자체의 특성 변화에 초점을 맞춘 정의

2) 중간 의미의 정의 : 데이터 자체의 변화 뿐 아니라 처리, 분석, 기술적 변화까지 포함하는 중간 범위의 정의

3) 넓은 의미의 정의 : 인재, 조직 변화까지 포함하여 넓은 의미로 정의

 

 

 

 

< 빅데이터 출현 배경 >

기업의 고객데이터 축적 증가, 인터넷 확산, Memory(메모리) 기술 발전 및 가격 하락, 모바일 시대 도래, 클라우드 컴퓨팅, SNS와 IOT(internet of things) 사물인터넷 확산 등으로 빅데이터 출현

 

산업계

- 인터넷 로그 데이터(Web, SNS, Blog, E-commerce)

- 백화점, 마트의 구매 데이터

- 은행, 신용카드의 트랜젝션 데이터

- 기타 고객데이터 축적

- 기업의 무한 경쟁 시대 진입

학계

- 거대 데이터 활용 과학의 확산

e.g) 위성에 장착된 많은 원격 센서, 하늘을 스캐닝하는 고성능 망원경, 유전자 데이터를 생성하는 마이크로 어레이, TB데이터를 생성하는 과학 시뮬레이션 등

관련기술 발전 - 디지털화, 저장기술, 인터넷보급, 클라우드 컴퓨팅 확산 등

 

 

 

< 빅데이터의 기능 >

빅데이터에 거는 기대를 잘 표현한 4가지 비유는 다음과 같다.

 

산업혁명 시대 석탄/철 18c 영국에서 시작된 산업혁명 시대의 석탄, 철의 역할을 할 것으로 기대하고 있다. 오늘날 제조업 뿐만 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 산업 전반에 혁명적 변화를 가져올 것으로 기대한다.
21세기 원유 각종 비즈니스에 정보를 제공함으로써 산업 전반에 생산성을 향상 시킬 것으로 기대한다. 기존에 없던 새로운 범주의 산업을 만들어 낼 것으로 전망한다.
렌즈 렌즈를 통해 현미경이 생명과학에 미쳤던 영향처럼 빅데이터는 그동안 보지 못했던 사회적 사실을 발견하여 산업발전에 영향을 미칠 것이라고 기대한다.
플랫폼

빅데이터가 다양한 서비스 파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 기대한다.

※ 플랫폼? 비즈니스 측면에서는 '공동활동의 목적으로 구축된 유무형의 구조물'을 의미

 

 

 

 

 

< 빅데이터가 만들어내는 본질적인 변화 >

 

사전처리에서 사후처리 필요한 정보만 수집하고 필요하지 않는 정보를 버리는 시스템에서 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합하여 정보 발굴
표본조사에서 전수조사 샘플링이 주지 못하는 패턴이나 정보를 얻을 수 있는 전수조사로 변화
질보다 양으로 변수가 지속적으로 추가될 때 분석 모델의 설명력이 일반적으로 증가하는 현상에 착안하여 데이터가 추가될 때마다 양질의 정보가 오류 정보보다 많아져 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 둔 변화
인과관계에서 상관관계로 상관관계를 통해 특정 현상의 발생 가능성이 포착되고 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어나 데이터 기반의 상관관계 분석이 주는 인사이트가 인과관계에 의해 미래 예측을 점점 더 압도해 가는 시대가 도래할 것으로 전망