chapter 2 데이터의 가치와 미래

빅데이터

빅데이터 정의

빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터이다.

빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처이다.

데이터의 양(Volume)데이터 유형과 소스측면의 다양성(Variety), 데이터 수집과 처리 측면에서 속도(Velocity)가 급격히 증가하면서 나타난 현상이다.

4V(ROI, Return On Investment, 투자자본수익률 관점에서 보는 빅데이터)
  • Volume : 데이터의 크기, 생성되는 모든 데이터를 수집
  • Variety : 데이터의 다양성, 정형화된 데이터를 넘어 텍스트, 오디오, 비디오 등 모든 유형의 데이터를 대상으로 함
  • Velocity : 데이터의 속도, 사용자가 원하는 시간 내 데이터 분석 결과 제공, 업데이트 속도가 빠름
  • Value : 비즈니스 효과 요소(나머지는 투자비용 요소)

빅데이터 출현 배경

  • 산업계에서 일어난 변화를 보면 빅데이터 현상은 양질 전환 법칙 으로 설명할 수 있다.

    양질전환법칙 : 일정한 양이 누적되면 어느 순간 질적인 비약이 이루어진다.

    기업들이 보유한 데이터가 ‘거대한 가치 창출이 가능할 만틈 충분한 규모’에 도달

  • 학계의 거대 데이터 활용 과학 확산

    학계에서도 빅데이터를 다루는 현상들이 늘어나고 있다. 대표적 사례는 인간게놈 프로젝트가 있다.

  • 디지털화, 저장기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 등 관련 기술 발전 과 관련이 있다.

    • 클라우드 컴퓨팅 : 빅데이터 분석에 경제적 효과를 제공해준 결정적 기술

      클라우드 분산 병렬처리 컴퓨팅은 대용량 데이터 처리 비용을 획기적으로 줄임

  • 소셜 미디어, 영상 등 비정형 데이터의 확산

  • 데이터 처리 기술 발전

빅데이터의 역할

  • 석탄, 철

    • 빅데이터는 석탄, 철이 산업혁명에서 했던 역할을 지금의 제조업 뿐 아니라 서비스 분야의 생산성 을 획기적으로 끌어올려 혁명적 변화를 가져올 것으로 기대된다.
  • 원유

    • 각종 비즈니스, 공공기관 대국민 서비스, 경제 성장에 필요한 ‘정보를 제공’ 하여, 산업 전반의 생산성 을 향상시킬 것으로 기대된다.
  • 렌즈

    • 현미경이 생물학 발전에 미쳤던 영향만큼 데이터가 산업 전반에 영향을 미칠것이다.

    • 구글 ‘Ngram Viewer’를 통해 수천만 권의 책을 디지털화

  • 플랫폼

    • 비즈니스 측면에서는 ‘공동 활용의 목적으로 구축된 유/무형의 구조물’ 을 의미한다.
    • 페이스북과 같이 다양한 사업자들이 공동으로 사용하는 플랫폼을 빅데이터 형태로 제공할 것으로 예상
    • 각종 사용자 데이터와 센서 데이터를 수집하고 API를 공개하면 서드파티 사업자들이 활용하는 플랫폼 역할 을 기대

빅데이터의 가치 산정, 본질적 변화

빅데이터의 가치 산정이 어려운 이유

  • 데이터의 활용방식
    • 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없다.
  • 새로운 가치 창출
    • 데이터가 기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어렵다
  • 분석기술의 발달
    • 분석 기술의 발달로 지금은 가치없는 데이터도 새로운 분석 기법의 등장으로 거대한 가치를 만들어내는 재료가 될 가능성이 있다.

빅데이터가 만들어내는 본질적인 변화

사전처리 -> 전후처리

표본조사 -> 전수조사

질(Quality) -> 양(Quantity)

인과관계 -> 상관관계

빅데이터 활용 사례

  • 구글 검색엔진, 월마트의 구매패턴 분석, IBM 왓슨 - 의료분야에 활용
  • 정부의 실시간 교통정보 활용, CCTV
  • 사회관계망분석을 통한 현상분석, 가수 팬 음악청취 기록 분석 활용
  • 아마존의 킨들(Kindle, 전자책 전용 단말기)에 쌓이는 전자책 읽기 관련 데이터 분석해 저자들에게 제공

빅데이터 활용 기법

  • 연관규칙학습(Association rule Learning)
    • 변수간 주목할 만한 상관관계가 있는지 찾아내는 방법
    • 우유구매자가 기저귀도 같이 구매하는가?
    • 커피를 사는 사람들이 탄산음료도 많이 구매하는가?
  • 유형분석(Classification tree Analysis)
    • 사용자는 어떤 특성을 가진 집단에 속하는가? 와 같은 문제해결에 사용
    • 문서를 분류하거나 조직을 그룹으로 나눌때, 온라인 수강생들을 특성에 따라 분류할 때 사용함
  • 유전 알고리즘(Generic Algotirhms)
    • 최적화가 필요한 문제의 해결책 을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화 시켜 나가는 방법
    • 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
    • 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가?
  • 기계학습
    • 훈련 데이터로부터 패턴을 학습해 ‘예측’하는 일에 활용되고 있음
    • 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화중 어떤 것을 가장 보고싶어할까?
  • 회귀분석
    • 선형함수로 나타낼 수 있는 수치데이터 분석
    • 사용자의 만족도가 충성도에 어떤 영향을 미치는가?
  • 감정분석
    • 특정 주제에 대해 말하거나 글을 쓴 사람들의 감정을 분석함
    • 소셜 미디어에 나타난 의견을 바탕으로 고객이 원하는 것을 찾아낼때 활용함
    • 호텔에서 고객의 논평을 받아 서비스를 개선 하기 위해 활용함
  • 소셜네트워크 분석
    • 사회관계망 분석(SNA)
    • 영향력 있는 사람을 찾아낼 수 있으면, 사람들 간 소셜관계를 파악할 수 있다.

빅데이터 위기요인과 통제방안

빅데이터 위기요인

1. 사생활 침해
  • 위기요인
    • 우리를 둘러싼 정보 수집 센서들의 수가 점점 늘어나고 있고, 특정 데이터가 본래 목적 외에 가공 처리돼 2차 3차적 목적으로 활용될 가능성이 증가
    • 익명화(Anonymizarion) : 사생활 침해를 방지하기 위해 데이터에 포함된 개인 식별 정보를 삭제하거나 알아볼 수 없는 형태로 변환 하는것
  • 통제방안
    • 동의제에서 책임제로 전환
    • 개인정보의 활용에 대한 개인이 매번 동의하는 것은 경제적으로도 매우 비효율적임
    • 사생활침해 문제를 개인정보 제공자의 동의를 통해 해결하기보다는 개인정보 사용자에게 책임을 지움 으로써 개인정보 사용 주체가 보다 적극적인 보호장치를 강구하게 하는 효과가 발생할 것으로 기대
2. 책임 원칙의 훼손
  • 위기요인
    • 빅데이터 기반분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성이 증가함
    • 그러나 잠재적 위험 사항에 대해서도 책임을 추궁하는 사회로 변질될 가능성이 높아 민주주의 사회의 원칙을 크게 훼손할 수 있다.
    • 예 : 범죄 예측 프로그램을 통해 범죄 전 체포
  • 통제방안
    • 기존의 책임원칙을 강화할 수 밖에 없다.
3. 데이터의 오용
  • 위기요인
    • 빅데이터는 일어난 일 에 대한 데이터에 의존함
    • 그것을 바탕으로 미래를 예측하는 것은 적지않은 정확도를 가질 수 있지만, 항상 맞을 수는 없음
    • 주어진 데이터에 잘못된 인사이트를 얻어 비즈니스에 직접 손실을 불러 올 수 있음
  • 통제방안
    • 데이터 알고리즘에 대한 접근권 허용 및 객관적 인증방안을 도입 필요성 제기
알고리즈미스트
  • 데이터 분석 알고리즘으로 부당한 피해를 보는 사람을 방지하기 위해서 생겨난 직업
  • 데이터 분석 알고리즘으로 인해 피해를 입은 사람을 구제하는 전문가

개인 정보 비식별화 기법

개인정보 비식별화 기법
  • 데이터 마스킹(Masking)
    • 다양한 유형의 데이터 관리 시스템에 저장된 정보를 보호하는 데 사용되는 프로세스(카드 뒤 4자리 숨기기, 주민번호 뒤 6자리 숨기기)
  • 데이터 범주화
    • 변수가 가질 수 있는 가능한 값들을 몇개의 구간으로 범주화
    • 홍길동, 35세 -> 홍씨, 30대
  • 가명
    • 개인식별 정보를 삭제, 알아볼 수 없는 형태로 변환
    • 홍길동, 국제대 재학 -> 임꺽정, 한국대 재핫
  • 잡음 첨가
    • 자료 값에 잡음을 추가하거나 곱해 원래 자료에 약간의 변형을 가하여 공개
  • 총계 처리 / 평균값 대체
    • 데이터의 총합 값을 보임으로 개별 데이터의 값이 보이지 않도록 함
  • 데이터 값 삭제
    • 데이터 셋의 값 중 필요 없는 값 또는 개인 식별에 중요한 값 삭제

빅데이터 열풍

IT솔루션은 ‘공포 마케팅’이 잘 통하는 영역

도입만 하면 모든 문제를 한번에 해소할 것처럼 강조하다 나중에는 합류하지 못하면 위험에 처할지도 모른다는 공포 분위기 조성

거액의 투자를 하지만, 어떻게 활용하고 어떻게 가치를 뽑아내야 할지 첫 번째 물음부터 다시 해야하는 사태가 벌어짐

빅데이터 열풍 또한 유사한 패턴과 흐름을 갖는다.

기존 분석 프로젝트를 포장해 놓은것이 많음

성공적인 인터넷 기업 : 데이터 분석과 함께 시작되고 분석이 내부 의사결정에 결정적 정보를 제공함

성공하지 못한 인터넷 기업 : 데이터 분석에 기초해 전략적 통찰을 얻고, 효과적인 의사결정을 내리고 성과를 만들어내는 체계가 없었음

빅데이터 분석

‘BIG’이 핵심이 아니다.
  • 데이터의 양이 아닌 유형의 다양성과 관련 이 있음
  • 음성, 텍스트, 이미지, 비디오 -> 다양한 정보 원천의 활용
전략적 통찰이 없는 분석의 함정
  • 한국의 경영 문화는 여전히 분석을 국소적인 문제 해결 용도로 사용하는 단계
  • 기업의 핵심 가치와 관련해 전략적 통찰력을 가져다 주는 데이터 분석을 내재화 하는 것이 어려움
일차적인 분석 vs 전략 도출을 위한 가치 기반 분석
  • 일차적 분석을 통해서도 부서나 업무 영역에서 상당한 효과를 얻을 수 있음
  • 일차적 분석 경함이 증가하고 분석의 활용 범위를 더 넓고 전략적으로 변화시켜야함

대표적인 일차적 분석 애플리케이션 사례

산업과 분석 애플리케이션의 사례

금융서비스 : 신용점수 산정, 사기 탐지, 고객의 수익성 분석

소매업 : 재고보충, 수요예측

제조업 : 맞춤형 상품 개발, 신상품 개발

에너지 : 트레이딩, 공급, 수요 예측

온라인 : 웹 매트릭스, 사이트 설계, 고객 추천

데이터 사이언스의 정의

  • 데이터로부터 의미있는 정보를 추출해내는 학문
  • 정형, 반정형, 비정형의 *다양한 유형의 데이터를 대상8 으로 함
  • 분석 뿐 아니라 이를 효과적으로 구현하고 과정까지 포함한 포괄적 개념
  • 데이터 공학, 수학, 통계학, 컴퓨터 공학, 시각화, 해커의 사고방식, 해당 분야의 전문 지식을 종합한 학문 -> 총체적(holistic) 접근법을 사용함
  • 과학과 인문학의 교차로에 서 있다고 할 수 잇음 -> 스토리텔링, 커뮤니케이션, 창의력, 직관력 필요
데이터사이언스의 핵심 구성요소
  • IT(Data Maangement)

  • 분석

  • 비즈니스 컨설팅

다른 학문과의 차이점
  데이터 사이언스 통계학 데이터 마이닝
분석 대상 정형, 비정형, 반정형 등 다양한 데이터 유형 정형화된 데이터  
분석 방법 분석 + 시각화 + 전달을 포함한 포괄적 개념   분석에 초점
학문 접근 종합적 학문 또는 총체적 접근법    

데이터 사이언티스트의 역량

가트너(Gartner)가 본 데이터 사이언티스트의 역량

데이터 관리, 분석 모델링, 비즈니스 분석, 스프트 스킬 -> 공통점은 호기심에서 시작

데이터 해커, 애널리스트, 커뮤니케이션, 신뢰받는 어드바이저 등의 조합이라 할 수 있다.
하드스킬과 스프트 스킬 능력을 동시 에 갖추고 있어야 한다.
데이터 처리 기술 이외에 사고방실, 비즈니스 이슈에 대한 감각, 고객들에 대한 공감 능력이 필요하다.
데이터 사이언티스트가 갖춰야하는 스킬
  • 하드스킬
    • Machine Learning, Modeling, Data Technical Skill
    • 빅데이터에 대한 이론적 지식 : 관련 기법에 대한 이해와 방법론 습득
    • 분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적
  • 소프트 스킬
    • 통찰력 있는 분석 : 차으이적 사고, 호기심, 논리적 비판
    • 설득력 있는 전달 : Storytelling, Visualization
    • 다분야 간 협력 : Communication
데이터 사이언티스트가 효과적으로 분석모델 개발을 위해 고려해야 하는 사항
  • 분석 모델이 예측할 수 없는 위험을 살피기 위해 현실 세계를 돌아보고 분석을 경험과 세상에 대한 통찰력과 함께 활용한다.
  • 가정들과 현실의 불일치에 대해 끊임없이 고찰하고 모델의 능력에 대해 항상 의구심을 갖는다.
  • 분석의 객관성에 의문을 제기하고 분석 모델에 포함된 가정과 해석의 개입 등의 한계를 고려한다.
  • 모델 범위 바깥의 요인은 판단하지 않는다.

정보 vs 통찰력

데이터 사이언티스트에 요구되는 인문학적 특성과 역할
  과거 현재 미래
정보 무슨일이 일어났는가?(보고서) 무슨일이 일어나고 있는가?(경고) 무슨 일이 일어날 것인가?(추출)
통찰력 어떻게 왜 일어났는가?(모델링, 실험설계) 차선 행동은 무엇인가?(권고) 최악, 최선의 상황은?(예측, 최적화)

최근 사회경제적 환경의 변화

최근의 사회경제적 환경의 변화(인문학 열풍의 이유)
  • 단순 세계에서 복잡한 세계로의 변화 : 다양성과 각 사회의 정체성, 연결성, 창조성 키워드 대두
  • 비즈니스 중심이 제품생산에서 서비스로 이동 : 고객에게 얼마나 뛰어난 서비스를 제공 여부가 관건
  • 경제와 산업의 논리가 생산에서 시장창조로 바뀜 : 무형자산이 중요
데이터 기반 분석의 상관관계, 통계적 분석의 인과관계
  • 신속한 의사결정을 원하는 비즈니스에서는 실시간 ‘상관관계 분석’에서 도출된 인사이트를 바탕으로 수익을 창출할 수 있는 기회가 점점 늘어나고 있음
  • ‘상관관계’를 통해 특정 현상의 발생 가능성이 포착 되고, 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어날 것
  • 데이터 기반의 ‘상관관계’ 분석이 주는 인사이트가 ‘인과관계’ 에 의한 미래 예측을 점점 더 압도해 가는 시대가 도래하고 있음

의사결정 오류

  • 로직(논리) 오류
    • 부정확한 가정을 하고 테스트를 하지 않는 것
  • 프로세스 오류
    • 결정에서 분석과 통찰력을 고려하지 않은 것
    • 데이터 수집이나 분석이 너무 늦어 사용할 수 없게 되는것
    • 대안을 진지하게 고려하지 않은 것
가치 패러다임의 변화

Digitalization - Connection - Agency

데이터 사이언스의 한계와 인문학
  • 모든 분석은 가정에 근거함 -> 잘못된 분석은 안 좋은 결과를 가져올 수 잇음
  • 모델의 능력에 대해 항상 의구심을 갖고
  • 가정과 현실의 불일치에 대해 계속 고찰하고
  • 분석 모델이 예측할 수 없는 위험을 살펴야 함