Super Crunchers: Why Thinking-by-Numbers Is the New Way to Be Smart

슈퍼크런처 - 8점
이언 에어즈 지음, 안진환 옮김/북하우스

                           Daum 책 상세보기>

영화를 보고나서, o.park님의 집에서 인터넷 서핑을 하는 중이었다.
온라인 서점에서 읽을 만한 책들을 찾아보고 있었는데, o.park님이 내가 관심 있을 것 같다면서 이 책을 추천해 주셨다. 장바구니에서 <넛지(nudge)>대신에 이 책을 담았다. 역시 재미있는 내용이었고, 단숨에 읽을 수 있는 책이었다.

이 책을 통해서, Number Cruncher 단어를 알게 되었는데, 수치 데이터 분석가를 칭하는 말이라 한다. Super Cruncher 는 새로운 부류의 넘버크런처라고 소개되고 있으며, 주로 data mining과 같은 대규모의 데이터들을 분석한다는 의미로 저자가 만들어낸 단어인 것 같다.

이 책은 Data 기반의 의사결정이 유용함을 이야기한다. 저자는 이 책의 제목을 원래 <직관의 종말>로 지었다고 한다. 이 제목이 책의 전체적인 내용을 잘 요약해 주는 듯 하다. 다양한 사례를 바탕으로, 의사결정과정에서 소위 전문가들의 직관에 기반한 예측보다 더 유용하다고 주장한다. 저자는 몇 장에 걸쳐서 현재 전문가들이 직관으로 판단하는 것들보다 슈퍼크런칭을 활용한 의사결정이 더 경제적이고 예측력이 높다고 말하고 있다.

물론, 데이터 분석이 잘못된 경우도 짚고 넘어가기도 한다. 또한, 슈퍼크런칭은 직관을 대체하는 것이 아니라 상호 보완하는 것이며, 전문가의 직관과 슈퍼크런칭 두 가지가 모두 필요할 것이라 이야기한다. 그런데 의사결정과정에서 대체와 보완이 이루어지는 부분에 논쟁이 있을 법하다. 저자는 의사결정과정에서 슈퍼크런칭이 직관을 대체하고 있으며, 대체하게 될 것이라고 말한다. 올바른 슈퍼크런칭을 하기 위한 가설단계, 그리고 결과를 검증, 해석하고 활용하는 과정에서만큼은 직관이 필요하다는 것을 인정하며, 전문가의 역할이 변화해야 한다고 주장한다.

저자가 슈퍼크런칭의 효과가 괜찮다는 것을 이야기하지만, 효율성을 이야기하는 측면도 있다. 비슷하거나 더 적은 비용을 들여도 전문가들의 판단만큼은 가능하거나 때로는 더 나은 판단이 가능하다는 이야기인 것 같다. 하지만, 현재 우리가 전문가라고 부르는 사람들 또는 그들이 내리는 판단에 대한 검증하고 피드백을 주는 시스템 자체가 문제는 아닐까라는 의문이 든다. 전문가들이 지식을 독점하고 울타리를 쳐 놓고 있기 때문에 나타나는 문제일 수도 있다는 생각을 해 본다. 이것을 고려하지 않고서, 슈퍼크런칭이 전문가들의 판단과 동등하거나 앞선다고 말하기는 힘들 것 같다.

그리고, 이 책에서 이야기하는 것과 같이, 전문가 혹은 인간의 역할이 컴퓨터에게 지식을 먹이는 것으로 끝나는 것일까? 과연 노동의 종말에서 직관의 종말까지 이어지는 것일까? 오히려, 전문가가 올바른 판단을 할 수 있도록, 슈퍼크런칭이 전문가들에게 의사결정지원시스템(Decision Support System)으로서의 역할을 다 하면 되지 않을가? 그리고, 앞서 말한 바와 같이 전문가들과 그들이 내린 판단들을 종합하고 검증할 수 있는 체계도 필요할 것 같다. 

이 책을 보면서, 전문가나 직관에 대해 이런 생각을 해 보았다. 직관이란 일종의 데이터 분석의 산물이 아닐까? 컴퓨터로는 가능하지 않은 처리까지도 가능한 부분이 아닐까? 인간의 두뇌는 경험이나 관찰을 통해, 무의식적으로 또는 의식적으로 데이터 분석을 하고 있으며, 거기에서 발생하는 패턴에 관한 지식들이 직관으로 나타나는 것이 아닐까? 경험했던 데이터와 동일한 분야에 적용할 수도 있고, 전혀 다른 분야에 적용할 수도 있다. - 이것은 경험론에 가까운 생각인 듯 하다. 물론, 직관에 대해서는 반대의 해석도 가능하다. - 이전에 <생각의 탄생>을 읽으면서도 비슷한 생각을 했다. 사람은 누구나 비슷한 사고방식의 메커니즘을 가지고 있는데, 우리가 천재라고 부르는 이들은 이러한 사고를 더 잘하는 것은 아닐까? 그런데, 이 메커니즘에는 인간 고유의 심리적 요인들이 개입되면서 편중됨이 생기고, 심리적 요인들이나 직관들은 슈퍼크런칭 분석이나 해석에도 개입될 것 같다.

이것은 좀 다른 이야기일 수도 있으나, 의사결정, 민주주의, 데이터에 관한 생각을 덧붙인다.
사람의 직관에는 편향이 들어가기 마련이긴 하다. 예전에는 막연히 역사를 객관적으로 서술하는 것이 좋다라고 생각에서부터 시작하여, 올바른 의사결정을 위해서는 의사결정하는 사람이 객관적이어야 할 것이라고 생각했다. 그런데, 과연 사람으로서 얼마나 객관적일 수 있을까라는 의문이 들었다. 개인의 주관을 배제한다는 것이 참 어렵고도 어려운 일이라 생각하기 때문이다.
그러다가 어는 순간부터는 한 사람 한 사람이 모두 객관적이 될 필요가 없다는 결론에 도달했다. 사람은 누구나 자신의 가치관을 가지고 의사결정을 할 수 있다. 개인은 뚜렷한 자기 생각을 가질 필요가 있다. 다만, 다양성을 인정하는 것이다. 개인이 각자 다른 주관을 가지고 주장할 수 있도록 말이다. 그럼, 모자이크를 멀리서 보면 한 가지 색처럼 보이듯이, 이들이 모이면 어떤 합의점이 보이지 않을까? 주관적인 개인들이 모여서 의사결정을 하면 좀 더 객관적이고 올바른 의사결정을 할 수 있지 않을까? 이 과정에서 토론이나 데이터 기반의 의사결정방법도 올바른 의사결정 과정에서 좋은 도구로 사용될 수 있을 것이다. 여기에서 반드시 필요한 것은 서로 공감하는 '의사결정 Rule'과 '오픈 마인드'인 것 같다. - 아무래도 다른 책에서 알게 된 '사회정의'와 '똘레랑스' 개념에서 영향을 받은 것 같다. 두 가지로 생각을 정리하고 보니, 비슷한 점이 보인다.


아래 두 가지는 저자가 슈퍼크런칭의 이해를 돕기 위해서 가르쳐 준 내용을 메모했다.

1. 슈퍼크런칭을 유용하게 만드는 2가지 방법론
1) 회귀분석
2) 무작위 추출법
: 이 책에 나오는 분석은 주로 회귀분석과 무작위 추출법을 기반으로 한다고 한다. 회귀분석 대신에 Neural Network를 사용하기도 한다는데, 거의 회귀분석을 이야기한다. 실험계획을 통해서 변수를 제어하고 데이터를 수집하는 것보다는, 주로 대규모의 데이터를 무작위 추출하여 사후 회귀분석을 실시한다. 현실에서는 회귀분석이나 t-test처럼 간단한 분석방법을 가장 많이 사용한다고 강의시간에 들은 기억이 난다.

2. 직관과 숫자 사이를 오고 갈수 있는 데에 유용한 도구 2가지
1) 2SD 법칙
: 예전에 들었던바로는 two-sigma 법칙으로도 불리는 것 같다. σ (sigma) = standard deviation 이니........
  무작위와 분산도를 통해서, 표준편차와 신뢰도, 유의확률의 관계를 이해하는데 도움이 된다고 한다.
2) 베이즈의 정리
: 학습의 과학. 새로운 정보가 들어올 때, 예측과 직관을 수정해 나간다.


* 슈퍼크런칭 성장 계기
슈퍼크런칭이 성장하게 된 발판은 무엇이었을까? 저자는 슈퍼크런칭의 성장 배경으로 아래와 같이 3가지 후보를 제시하고, 그 중에서 저장장치의 가격 하락을 꼽는다. 그러나 이 부분을 이유라고 보기에는 어려운 듯 하다. 그보다는 3가지 모두 슈퍼크런칭의 활용에는 반드시 필요한 배경이 있는데, 다만 스토리지 부분이 가장 마지막에 성공했기에 그렇게 보이는 것이 아닐까 싶다.
1) CPU 처리능력 증가
2) Network 통신대역폭 증가
3) 비용 대비 저장용량 증가

* BI 서비스 및 기업
이전에 포스팅했던 글(http://node.tistory.com/52)에서도 언급했고,
<Big Switch>의 리뷰 (http://node.tistory.com/55)에서도 생각했던 부분이 있다.
바로, 통계분석이나 BI (Business Intelligence)의 유틸리티 서비스가 가능할 것인가이다.
그리고, 그 만큼의 가치가 충분할 지도 궁금했다.

이 책의 부록에 따르면, 주요 BI 기업들의 M&A 일지가 나온다.
2007년 04월. Oracle : Hyperion Solutions Corp. 인수. 33억 달러
          10월. SAP : Business Object 인수. 48억 달러 68억 달러 (= 48억 유로)
          11월. IBM : Cognos 인수. 49억 달러

저자는 SAS 인수 가능성을 이야기하며, 인수자로 Terra Data 를 예상한다.
나도 왠지 SAS가 다른 기업에 인수되지 않을까 생각했었는데… SAS기업문화를 보면 그렇지 않은 것 같기도 하고…

* URL 메모
farecast.com
www.teradata.com

* 덧붙임 01)
2009년 08월. IBM : SPSS 인수. 12억 달러
  http://www.eikorea.com/news/articleView.html?idxno=1163

* 덧붙임 02)
2007년 10월. SAP : Business Object 인수. 48억 달러 68억 달러 (= 48억 유로)
  >> 책 내용에 틀린 것이 있다.
       번역상 오류인지 원문에도 그런지는 모르겠다. 48억 달러가 아니라, 48억 유로 (= 68억 달러)이다.
  >> 원문도 문제임. ...
       ... in October, SAP purchased Business Objects for $4.8 billion ...
       ==> $6.8 billion ...


데이터에 대한 개인적인 생각을 정리해 봤다.
value chain : Contents - Platform  - Network - Terminal - End Users


흔히들 정보가 중요하다고들 한다.
데이터를 빠르게 해석하여, 유의미한 정보를 만들어내고 활용하는 기업이 경쟁우위를 점할 수 있을 것이다.

그럼, 대량의 데이터는 어디에서 수집할 수 있을까?
사실 어떤 기업이든지 데이터는 모아지고 있을 것이다. 많은 기업들이 데이터를 모으고 해석하는 능력이 가능하다.
하지만, 불특정 다수의 전체 소비자에 대해 알 수 있는 기업들을 꼽아본다면, 아래와 같은 업체들이 아닐까 한다.

1. 대형 유통업체

Wall-mart나 이마트 등과 같은 대형유통업체들이 있다.
전국 각 요지에 있는 대형유통업체들은 소비자들의 직접적인 구매행태를 데이터로 모을 수 있다.
백화점이나 할인마트에서 멤버쉽 서비스를 하는 이유가 여기에 있다. 

2. Telecom Network 서비스 제공자

SKT나 KT 등과 같은 통신사업자들이 있다.
통신서비스는 소비자들의 트랜잭션이 활발하다.
특히, 오늘날에는 이동통신 서비스들은 이동성을 무기로 사람들의 활발한 커뮤니케이션을 기반으로 한다.

통신 서비스회사들 또한 멤버쉽서비스를 제공하고 있다.
가격할인과 포인트적립 등의 부가서비스 제공하고 통합 membership을 구축하여,
고객의 Loyalty를 높이고 고객의 Life-Time Value를 극대화하려는 노력이다.
이것은 Transaction Data를 Communication에서 주요 Consumption expenditure까지 확대했다는 것을 의미한다.

3. Credit Card 서비스 제공자

금융업은 서비스과정에서 소비자들이 자신의 자산 데이터를 제공하고 있는 곳이다.
예금, 대출, 결제 등을 통해서, 고객들의 현금흐름이 발생한다. 
특히, 신용카드회사들은 소비지출 데이터를 모을 수 있다.
신용카드는 기본적으로 멤버쉽 서비스를 기반으로 한다.
이런 관점에서 본다면, 누가 뭐래도 가장 많은 데이터를 모을 수 있는 곳은 국세청이다.

텔레콤회사는 제휴된 업체들에서의 소비행태만을 고려가능하지만,
신용카드회사는 소비자의 소비지출 대부분을 커버가능하다는 장점이 있다.
물론, 대부분의 결제를 그 신용카드로 한다면 말이다.
텔레콤회사의 멤버십카드는 주로 다른 결제수단에 덧붙여 사용되기 때문에, 고객의 메인카드가 아니어도 된다.
신용카드는 메인으로 사용되어야 한다는 단점이 있다. 그래서, 신용카드는 Wallet Share가 특히 중요한 듯 하다.

4. 검색 서비스 제공자

현재 소비자들의 attention을 가장 많이 모을 수 있는 기업은 어디일까?
세계적으로는 Google이고, 국내에서는 nhn이다.   

Google의 핵심역량도 '대용량의 데이터를 빠르게 잘 해석하는 능력'에 있는 것 같다.
Google의 기술은 모두 그것을 위해 필요한 것이다.
 
그런데, 검색 서비스 업체들의 데이터가 Telecom Network Service기업과 
credit Card Service 기업에 비해 취약한 부분이 바로 이동성이다.

Telecom Network 기업은 Mobile Device를 Terminal에 접점을 가지고 있고,
Credit card 기업들은 신용카드라는 Terminal에 접점을 가지고 있다.

이에 비해, 검색서비스는 검색창을 제공하는데, 현재는 주로 Desktop PC와 인터넷망을 통해 접근하고 있어,
장소에 제약을 받고 있다. 최근 모바일기기의 인터넷이 활성화되면서 이러한 장소의 제약은 사라질 가능성이 있다.

그리고, 위 4개의 기업들이 제공하는 서비스들은 모두 Mobile Device 같은 하나의 Terminal로 통합될 수 있다.
과연 이 모바일 플랫폼을 지배할 곳은 어디가 될 지도 흥미롭게 지켜볼 일이다.

5. 덧붙이는 생각

위 기업들의 공통점이 바로 소비자들의 니즈에 따라 Transaction이 발생한다는 점이다.
데이터 통합, 수집 및 해석 등은 항상 개인정보 노출과 사생활 침해의 가능성을 함께 가지고 있다.
이러한 부작용을 제거하는 것이 대단히 중요할 것이다.

그리고, 이러한 데이터를 어떻게 활용하여 비즈니스와 연결시킬 수 있을 지에 대한 문제도 있다.
막상 데이터에서 유의미한 정보들을 만들어내고, 이를 활용할 방법을 찾는 것이 어려운 부분이다.

또, 다른 생각을 덧붙인다면, 바로 이러한 기능을 서비스화하는 기업들의 가능성에 대한 것이다.
몇몇 기업들은 대량의 데이터를 모으고 해석하는 데에 필요한 컴퓨팅 자원을 적절하게 제공함으로써, 
각 기업들안에 모이는 데이터를 분석을 제대로 제공하는 유틸리티 서비스도 활발해지지 않을까 하는 생각을 해 봤다.

특히, 위 4개의 기업들이 자신들의 내부 데이터 분석을 기반으로, 외부 기업들이 가진 데이터 분석에도 활용가능하다면 어떨까?
그리고, 거기에 가장 가까운 기업은 어디일까?
허나, 당분간은 이러한 데이터 수집, 분석 자체가 차별화된 자산이므로, 기업 내부에 두게 될 것 같기도 하다.

+ Recent posts