chapter 2 데이터의 가치와 미래
빅데이터
빅데이터 정의
빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터이다.
빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처이다.
데이터의 양(Volume)데이터 유형과 소스측면의 다양성(Variety), 데이터 수집과 처리 측면에서 속도(Velocity)가 급격히 증가하면서 나타난 현상이다.
4V(ROI, Return On Investment, 투자자본수익률 관점에서 보는 빅데이터)
- Volume : 데이터의 크기, 생성되는 모든 데이터를 수집
- Variety : 데이터의 다양성, 정형화된 데이터를 넘어 텍스트, 오디오, 비디오 등 모든 유형의 데이터를 대상으로 함
- Velocity : 데이터의 속도, 사용자가 원하는 시간 내 데이터 분석 결과 제공, 업데이트 속도가 빠름
- Value : 비즈니스 효과 요소(나머지는 투자비용 요소)
빅데이터 출현 배경
-
산업계에서 일어난 변화를 보면 빅데이터 현상은 양질 전환 법칙 으로 설명할 수 있다.
양질전환법칙 : 일정한 양이 누적되면 어느 순간 질적인 비약이 이루어진다.
기업들이 보유한 데이터가 ‘거대한 가치 창출이 가능할 만틈 충분한 규모’에 도달
-
학계의 거대 데이터 활용 과학 확산
학계에서도 빅데이터를 다루는 현상들이 늘어나고 있다. 대표적 사례는 인간게놈 프로젝트가 있다.
-
디지털화, 저장기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 등 관련 기술 발전 과 관련이 있다.
-
클라우드 컴퓨팅 : 빅데이터 분석에 경제적 효과를 제공해준 결정적 기술
클라우드 분산 병렬처리 컴퓨팅은 대용량 데이터 처리 비용을 획기적으로 줄임
-
-
소셜 미디어, 영상 등 비정형 데이터의 확산
-
데이터 처리 기술 발전
빅데이터의 역할
-
석탄, 철
- 빅데이터는 석탄, 철이 산업혁명에서 했던 역할을 지금의 제조업 뿐 아니라 서비스 분야의 생산성 을 획기적으로 끌어올려 혁명적 변화를 가져올 것으로 기대된다.
-
원유
- 각종 비즈니스, 공공기관 대국민 서비스, 경제 성장에 필요한 ‘정보를 제공’ 하여, 산업 전반의 생산성 을 향상시킬 것으로 기대된다.
-
렌즈
-
현미경이 생물학 발전에 미쳤던 영향만큼 데이터가 산업 전반에 영향을 미칠것이다.
-
구글 ‘Ngram Viewer’를 통해 수천만 권의 책을 디지털화
-
-
플랫폼
- 비즈니스 측면에서는 ‘공동 활용의 목적으로 구축된 유/무형의 구조물’ 을 의미한다.
- 페이스북과 같이 다양한 사업자들이 공동으로 사용하는 플랫폼을 빅데이터 형태로 제공할 것으로 예상
- 각종 사용자 데이터와 센서 데이터를 수집하고 API를 공개하면 서드파티 사업자들이 활용하는 플랫폼 역할 을 기대
빅데이터의 가치 산정, 본질적 변화
빅데이터의 가치 산정이 어려운 이유
- 데이터의 활용방식
- 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없다.
- 새로운 가치 창출
- 데이터가 기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어렵다
- 분석기술의 발달
- 분석 기술의 발달로 지금은 가치없는 데이터도 새로운 분석 기법의 등장으로 거대한 가치를 만들어내는 재료가 될 가능성이 있다.
빅데이터가 만들어내는 본질적인 변화
사전처리 -> 전후처리
표본조사 -> 전수조사
질(Quality) -> 양(Quantity)
인과관계 -> 상관관계
빅데이터 활용 사례
- 구글 검색엔진, 월마트의 구매패턴 분석, IBM 왓슨 - 의료분야에 활용
- 정부의 실시간 교통정보 활용, CCTV
- 사회관계망분석을 통한 현상분석, 가수 팬 음악청취 기록 분석 활용
- 아마존의 킨들(Kindle, 전자책 전용 단말기)에 쌓이는 전자책 읽기 관련 데이터 분석해 저자들에게 제공
빅데이터 활용 기법
- 연관규칙학습(Association rule Learning)
- 변수간 주목할 만한 상관관계가 있는지 찾아내는 방법
- 우유구매자가 기저귀도 같이 구매하는가?
- 커피를 사는 사람들이 탄산음료도 많이 구매하는가?
- 유형분석(Classification tree Analysis)
- 사용자는 어떤 특성을 가진 집단에 속하는가? 와 같은 문제해결에 사용
- 문서를 분류하거나 조직을 그룹으로 나눌때, 온라인 수강생들을 특성에 따라 분류할 때 사용함
- 유전 알고리즘(Generic Algotirhms)
- 최적화가 필요한 문제의 해결책 을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화 시켜 나가는 방법
- 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
- 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가?
- 기계학습
- 훈련 데이터로부터 패턴을 학습해 ‘예측’하는 일에 활용되고 있음
- 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화중 어떤 것을 가장 보고싶어할까?
- 회귀분석
- 선형함수로 나타낼 수 있는 수치데이터 분석
- 사용자의 만족도가 충성도에 어떤 영향을 미치는가?
- 감정분석
- 특정 주제에 대해 말하거나 글을 쓴 사람들의 감정을 분석함
- 소셜 미디어에 나타난 의견을 바탕으로 고객이 원하는 것을 찾아낼때 활용함
- 호텔에서 고객의 논평을 받아 서비스를 개선 하기 위해 활용함
- 소셜네트워크 분석
- 사회관계망 분석(SNA)
- 영향력 있는 사람을 찾아낼 수 있으면, 사람들 간 소셜관계를 파악할 수 있다.
빅데이터 위기요인과 통제방안
빅데이터 위기요인
1. 사생활 침해
- 위기요인
- 우리를 둘러싼 정보 수집 센서들의 수가 점점 늘어나고 있고, 특정 데이터가 본래 목적 외에 가공 처리돼 2차 3차적 목적으로 활용될 가능성이 증가
- 익명화(Anonymizarion) : 사생활 침해를 방지하기 위해 데이터에 포함된 개인 식별 정보를 삭제하거나 알아볼 수 없는 형태로 변환 하는것
- 통제방안
- 동의제에서 책임제로 전환
- 개인정보의 활용에 대한 개인이 매번 동의하는 것은 경제적으로도 매우 비효율적임
- 사생활침해 문제를 개인정보 제공자의 동의를 통해 해결하기보다는 개인정보 사용자에게 책임을 지움 으로써 개인정보 사용 주체가 보다 적극적인 보호장치를 강구하게 하는 효과가 발생할 것으로 기대
2. 책임 원칙의 훼손
- 위기요인
- 빅데이터 기반분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성이 증가함
- 그러나 잠재적 위험 사항에 대해서도 책임을 추궁하는 사회로 변질될 가능성이 높아 민주주의 사회의 원칙을 크게 훼손할 수 있다.
- 예 : 범죄 예측 프로그램을 통해 범죄 전 체포
- 통제방안
- 기존의 책임원칙을 강화할 수 밖에 없다.
3. 데이터의 오용
- 위기요인
- 빅데이터는 일어난 일 에 대한 데이터에 의존함
- 그것을 바탕으로 미래를 예측하는 것은 적지않은 정확도를 가질 수 있지만, 항상 맞을 수는 없음
- 주어진 데이터에 잘못된 인사이트를 얻어 비즈니스에 직접 손실을 불러 올 수 있음
- 통제방안
- 데이터 알고리즘에 대한 접근권 허용 및 객관적 인증방안을 도입 필요성 제기
알고리즈미스트
- 데이터 분석 알고리즘으로 부당한 피해를 보는 사람을 방지하기 위해서 생겨난 직업
- 데이터 분석 알고리즘으로 인해 피해를 입은 사람을 구제하는 전문가
개인 정보 비식별화 기법
개인정보 비식별화 기법
- 데이터 마스킹(Masking)
- 다양한 유형의 데이터 관리 시스템에 저장된 정보를 보호하는 데 사용되는 프로세스(카드 뒤 4자리 숨기기, 주민번호 뒤 6자리 숨기기)
- 데이터 범주화
- 변수가 가질 수 있는 가능한 값들을 몇개의 구간으로 범주화
- 홍길동, 35세 -> 홍씨, 30대
- 가명
- 개인식별 정보를 삭제, 알아볼 수 없는 형태로 변환
- 홍길동, 국제대 재학 -> 임꺽정, 한국대 재핫
- 잡음 첨가
- 자료 값에 잡음을 추가하거나 곱해 원래 자료에 약간의 변형을 가하여 공개
- 총계 처리 / 평균값 대체
- 데이터의 총합 값을 보임으로 개별 데이터의 값이 보이지 않도록 함
- 데이터 값 삭제
- 데이터 셋의 값 중 필요 없는 값 또는 개인 식별에 중요한 값 삭제
빅데이터 열풍
IT솔루션은 ‘공포 마케팅’이 잘 통하는 영역
도입만 하면 모든 문제를 한번에 해소할 것처럼 강조하다 나중에는 합류하지 못하면 위험에 처할지도 모른다는 공포 분위기 조성
거액의 투자를 하지만, 어떻게 활용하고 어떻게 가치를 뽑아내야 할지 첫 번째 물음부터 다시 해야하는 사태가 벌어짐
빅데이터 열풍 또한 유사한 패턴과 흐름을 갖는다.
기존 분석 프로젝트를 포장해 놓은것이 많음
성공적인 인터넷 기업 : 데이터 분석과 함께 시작되고 분석이 내부 의사결정에 결정적 정보를 제공함
성공하지 못한 인터넷 기업 : 데이터 분석에 기초해 전략적 통찰을 얻고, 효과적인 의사결정을 내리고 성과를 만들어내는 체계가 없었음
빅데이터 분석
‘BIG’이 핵심이 아니다.
- 데이터의 양이 아닌 유형의 다양성과 관련 이 있음
- 음성, 텍스트, 이미지, 비디오 -> 다양한 정보 원천의 활용
전략적 통찰이 없는 분석의 함정
- 한국의 경영 문화는 여전히 분석을 국소적인 문제 해결 용도로 사용하는 단계
- 기업의 핵심 가치와 관련해 전략적 통찰력을 가져다 주는 데이터 분석을 내재화 하는 것이 어려움
일차적인 분석 vs 전략 도출을 위한 가치 기반 분석
- 일차적 분석을 통해서도 부서나 업무 영역에서 상당한 효과를 얻을 수 있음
- 일차적 분석 경함이 증가하고 분석의 활용 범위를 더 넓고 전략적으로 변화시켜야함
대표적인 일차적 분석 애플리케이션 사례
산업과 분석 애플리케이션의 사례
금융서비스 : 신용점수 산정, 사기 탐지, 고객의 수익성 분석
소매업 : 재고보충, 수요예측
제조업 : 맞춤형 상품 개발, 신상품 개발
에너지 : 트레이딩, 공급, 수요 예측
온라인 : 웹 매트릭스, 사이트 설계, 고객 추천
데이터 사이언스의 정의
- 데이터로부터 의미있는 정보를 추출해내는 학문
- 정형, 반정형, 비정형의 *다양한 유형의 데이터를 대상8 으로 함
- 분석 뿐 아니라 이를 효과적으로 구현하고 과정까지 포함한 포괄적 개념
- 데이터 공학, 수학, 통계학, 컴퓨터 공학, 시각화, 해커의 사고방식, 해당 분야의 전문 지식을 종합한 학문 -> 총체적(holistic) 접근법을 사용함
- 과학과 인문학의 교차로에 서 있다고 할 수 잇음 -> 스토리텔링, 커뮤니케이션, 창의력, 직관력 필요
데이터사이언스의 핵심 구성요소
-
IT(Data Maangement)
-
분석
-
비즈니스 컨설팅
다른 학문과의 차이점
데이터 사이언스 | 통계학 | 데이터 마이닝 | |
---|---|---|---|
분석 대상 | 정형, 비정형, 반정형 등 다양한 데이터 유형 | 정형화된 데이터 | |
분석 방법 | 분석 + 시각화 + 전달을 포함한 포괄적 개념 | 분석에 초점 | |
학문 접근 | 종합적 학문 또는 총체적 접근법 |
데이터 사이언티스트의 역량
가트너(Gartner)가 본 데이터 사이언티스트의 역량
데이터 관리, 분석 모델링, 비즈니스 분석, 스프트 스킬 -> 공통점은 호기심에서 시작
데이터 해커, 애널리스트, 커뮤니케이션, 신뢰받는 어드바이저 등의 조합이라 할 수 있다.
하드스킬과 스프트 스킬 능력을 동시 에 갖추고 있어야 한다.
데이터 처리 기술 이외에 사고방실, 비즈니스 이슈에 대한 감각, 고객들에 대한 공감 능력이 필요하다.
데이터 사이언티스트가 갖춰야하는 스킬
- 하드스킬
- Machine Learning, Modeling, Data Technical Skill
- 빅데이터에 대한 이론적 지식 : 관련 기법에 대한 이해와 방법론 습득
- 분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적
- 소프트 스킬
- 통찰력 있는 분석 : 차으이적 사고, 호기심, 논리적 비판
- 설득력 있는 전달 : Storytelling, Visualization
- 다분야 간 협력 : Communication
데이터 사이언티스트가 효과적으로 분석모델 개발을 위해 고려해야 하는 사항
- 분석 모델이 예측할 수 없는 위험을 살피기 위해 현실 세계를 돌아보고 분석을 경험과 세상에 대한 통찰력과 함께 활용한다.
- 가정들과 현실의 불일치에 대해 끊임없이 고찰하고 모델의 능력에 대해 항상 의구심을 갖는다.
- 분석의 객관성에 의문을 제기하고 분석 모델에 포함된 가정과 해석의 개입 등의 한계를 고려한다.
- 모델 범위 바깥의 요인은 판단하지 않는다.
정보 vs 통찰력
데이터 사이언티스트에 요구되는 인문학적 특성과 역할
과거 | 현재 | 미래 | |
---|---|---|---|
정보 | 무슨일이 일어났는가?(보고서) | 무슨일이 일어나고 있는가?(경고) | 무슨 일이 일어날 것인가?(추출) |
통찰력 | 어떻게 왜 일어났는가?(모델링, 실험설계) | 차선 행동은 무엇인가?(권고) | 최악, 최선의 상황은?(예측, 최적화) |
최근 사회경제적 환경의 변화
최근의 사회경제적 환경의 변화(인문학 열풍의 이유)
- 단순 세계에서 복잡한 세계로의 변화 : 다양성과 각 사회의 정체성, 연결성, 창조성 키워드 대두
- 비즈니스 중심이 제품생산에서 서비스로 이동 : 고객에게 얼마나 뛰어난 서비스를 제공 여부가 관건
- 경제와 산업의 논리가 생산에서 시장창조로 바뀜 : 무형자산이 중요
데이터 기반 분석의 상관관계, 통계적 분석의 인과관계
- 신속한 의사결정을 원하는 비즈니스에서는 실시간 ‘상관관계 분석’에서 도출된 인사이트를 바탕으로 수익을 창출할 수 있는 기회가 점점 늘어나고 있음
- ‘상관관계’를 통해 특정 현상의 발생 가능성이 포착 되고, 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어날 것
- 데이터 기반의 ‘상관관계’ 분석이 주는 인사이트가 ‘인과관계’ 에 의한 미래 예측을 점점 더 압도해 가는 시대가 도래하고 있음
의사결정 오류
- 로직(논리) 오류
- 부정확한 가정을 하고 테스트를 하지 않는 것
- 프로세스 오류
- 결정에서 분석과 통찰력을 고려하지 않은 것
- 데이터 수집이나 분석이 너무 늦어 사용할 수 없게 되는것
- 대안을 진지하게 고려하지 않은 것
가치 패러다임의 변화
Digitalization - Connection - Agency
데이터 사이언스의 한계와 인문학
- 모든 분석은 가정에 근거함 -> 잘못된 분석은 안 좋은 결과를 가져올 수 잇음
- 모델의 능력에 대해 항상 의구심을 갖고
- 가정과 현실의 불일치에 대해 계속 고찰하고
- 분석 모델이 예측할 수 없는 위험을 살펴야 함