데이터에 대한 개인적인 생각을 정리해 봤다.
value chain : Contents - Platform  - Network - Terminal - End Users


흔히들 정보가 중요하다고들 한다.
데이터를 빠르게 해석하여, 유의미한 정보를 만들어내고 활용하는 기업이 경쟁우위를 점할 수 있을 것이다.

그럼, 대량의 데이터는 어디에서 수집할 수 있을까?
사실 어떤 기업이든지 데이터는 모아지고 있을 것이다. 많은 기업들이 데이터를 모으고 해석하는 능력이 가능하다.
하지만, 불특정 다수의 전체 소비자에 대해 알 수 있는 기업들을 꼽아본다면, 아래와 같은 업체들이 아닐까 한다.

1. 대형 유통업체

Wall-mart나 이마트 등과 같은 대형유통업체들이 있다.
전국 각 요지에 있는 대형유통업체들은 소비자들의 직접적인 구매행태를 데이터로 모을 수 있다.
백화점이나 할인마트에서 멤버쉽 서비스를 하는 이유가 여기에 있다. 

2. Telecom Network 서비스 제공자

SKT나 KT 등과 같은 통신사업자들이 있다.
통신서비스는 소비자들의 트랜잭션이 활발하다.
특히, 오늘날에는 이동통신 서비스들은 이동성을 무기로 사람들의 활발한 커뮤니케이션을 기반으로 한다.

통신 서비스회사들 또한 멤버쉽서비스를 제공하고 있다.
가격할인과 포인트적립 등의 부가서비스 제공하고 통합 membership을 구축하여,
고객의 Loyalty를 높이고 고객의 Life-Time Value를 극대화하려는 노력이다.
이것은 Transaction Data를 Communication에서 주요 Consumption expenditure까지 확대했다는 것을 의미한다.

3. Credit Card 서비스 제공자

금융업은 서비스과정에서 소비자들이 자신의 자산 데이터를 제공하고 있는 곳이다.
예금, 대출, 결제 등을 통해서, 고객들의 현금흐름이 발생한다. 
특히, 신용카드회사들은 소비지출 데이터를 모을 수 있다.
신용카드는 기본적으로 멤버쉽 서비스를 기반으로 한다.
이런 관점에서 본다면, 누가 뭐래도 가장 많은 데이터를 모을 수 있는 곳은 국세청이다.

텔레콤회사는 제휴된 업체들에서의 소비행태만을 고려가능하지만,
신용카드회사는 소비자의 소비지출 대부분을 커버가능하다는 장점이 있다.
물론, 대부분의 결제를 그 신용카드로 한다면 말이다.
텔레콤회사의 멤버십카드는 주로 다른 결제수단에 덧붙여 사용되기 때문에, 고객의 메인카드가 아니어도 된다.
신용카드는 메인으로 사용되어야 한다는 단점이 있다. 그래서, 신용카드는 Wallet Share가 특히 중요한 듯 하다.

4. 검색 서비스 제공자

현재 소비자들의 attention을 가장 많이 모을 수 있는 기업은 어디일까?
세계적으로는 Google이고, 국내에서는 nhn이다.   

Google의 핵심역량도 '대용량의 데이터를 빠르게 잘 해석하는 능력'에 있는 것 같다.
Google의 기술은 모두 그것을 위해 필요한 것이다.
 
그런데, 검색 서비스 업체들의 데이터가 Telecom Network Service기업과 
credit Card Service 기업에 비해 취약한 부분이 바로 이동성이다.

Telecom Network 기업은 Mobile Device를 Terminal에 접점을 가지고 있고,
Credit card 기업들은 신용카드라는 Terminal에 접점을 가지고 있다.

이에 비해, 검색서비스는 검색창을 제공하는데, 현재는 주로 Desktop PC와 인터넷망을 통해 접근하고 있어,
장소에 제약을 받고 있다. 최근 모바일기기의 인터넷이 활성화되면서 이러한 장소의 제약은 사라질 가능성이 있다.

그리고, 위 4개의 기업들이 제공하는 서비스들은 모두 Mobile Device 같은 하나의 Terminal로 통합될 수 있다.
과연 이 모바일 플랫폼을 지배할 곳은 어디가 될 지도 흥미롭게 지켜볼 일이다.

5. 덧붙이는 생각

위 기업들의 공통점이 바로 소비자들의 니즈에 따라 Transaction이 발생한다는 점이다.
데이터 통합, 수집 및 해석 등은 항상 개인정보 노출과 사생활 침해의 가능성을 함께 가지고 있다.
이러한 부작용을 제거하는 것이 대단히 중요할 것이다.

그리고, 이러한 데이터를 어떻게 활용하여 비즈니스와 연결시킬 수 있을 지에 대한 문제도 있다.
막상 데이터에서 유의미한 정보들을 만들어내고, 이를 활용할 방법을 찾는 것이 어려운 부분이다.

또, 다른 생각을 덧붙인다면, 바로 이러한 기능을 서비스화하는 기업들의 가능성에 대한 것이다.
몇몇 기업들은 대량의 데이터를 모으고 해석하는 데에 필요한 컴퓨팅 자원을 적절하게 제공함으로써, 
각 기업들안에 모이는 데이터를 분석을 제대로 제공하는 유틸리티 서비스도 활발해지지 않을까 하는 생각을 해 봤다.

특히, 위 4개의 기업들이 자신들의 내부 데이터 분석을 기반으로, 외부 기업들이 가진 데이터 분석에도 활용가능하다면 어떨까?
그리고, 거기에 가장 가까운 기업은 어디일까?
허나, 당분간은 이러한 데이터 수집, 분석 자체가 차별화된 자산이므로, 기업 내부에 두게 될 것 같기도 하다.

- Searching the Web, Introduction to Linear Algebra, 3/E international Edition, by Gilbert Strang -

2005년 봄...
선형대수 강의를 듣는데, 쉬어가기 페이지처럼 쓰여진 위 페이지를 보게 되었다.
SVD 응용 분야를 이야기하면서, HITS algorithm을 소개하는 내용이었다.
신기하고 재밌었다.

원래 그 전에는 국내에 위 책이 나오지 않아서, 같은 저자 Gilbert Strang 이 쓴 
<Linear Algebra and Its Applications>로 공부했었다. 그 책이 계속 교재였다면, 위 페이지는 못 봤을텐데...... -_-;;

암튼, 추가로 아래 글들을 찾아보고 HITS와 PageRank에 대해 좀 더 알아보다가, '검색'은 내 관심사 중의 하나가 되어버렸다.
- <The Use of the Linear Algebra by Web Search Engines> by Amy N. Langville and Carl D. Meyer
- <구글 페이지랭크(PageRank) 알고리듬>, 출처: 이명헌 경영스쿨
- <구글 검색 엔진의 해부학('The anatomy of large scale search engine' 번역)>, 출처: 이명헌 경영스쿨
- <Authoritative sources in a hyperlinked environment (HITS algorithm)>, 출처: 이명헌 경영스쿨
- HITS algorithm from wikipedia
- PageRank from wikipedia

당시에, <링크(Linked)>를 다시 읽고 있었는데, 그 내용과 연관되어 자꾸 관심이 커져버렸다.
과거에 컴퓨터를 처음 만져봤을 때와 인터넷을 처음 경험했을 때의 호기심이 다시 발동했다. 그러면서 드는 생각이...
'이거 미래의 우리 주위에 두루 퍼져 있을지도 모르는, Intelligent Agent 의 시작이 될 수도 있겠는걸?'

그리고, 아래 책이 나오길래 도서관에서 무작정 찾아봤다.
<Google's PageRank and Beyond : the Science of Search Engine Rankings> (Amazon.com에서 보기, Daum 책에서 보기)
구글에서 찾았던 <The Use of the Linear Algebra by Web Search Engines>의 저자들이 책으로 냈다.

도서관에 책이 들어오자마자 대출중이라, 대출 예약을 걸어두었다.
도서대출기간이 긴 사람 - 대학원생이나 교수님 - 이 빌려갔는지 좀 오래 기다려야 했다. 이 사람 대출기간도 넘겼다. -_-;;

이 책을 겨우 대출받아 보는데, 끊임없이 전개되는 행렬 연산 수식에 질려서 완독을 하지 못했다.
그냥 훑어 봐서는 완벽히 이해하기가 좀 어려웠다.
수학을 좋아하지만 잘하지는 못해서 항상 부족함을 느꼈는데, 수학공부의 중요함을 다시 한번 생각하게 됐다.
그런데, 수학공부를 계속 했느냐? 그렇지 못했다.
그 자리에서 바로 삽질을 하고 싶었지만, 워낙에 바쁜 시절인지라. -_-;;;

수학공부는 계속 되어야 한다. ㅋ
"The math learning must go on."

그 전에 읽었던 <구글스토리>라는 책도 다시 읽게 되었고,
드물게도 검색의 스타트업을 끊었던 첫눈의 시작과 끝을 보고...

몇몇 강연과 수업들. 그 때 적었던 메모들...
연습장에 쓰여진 낙서같은 아이디어들...
조금씩 찾아보던 검색서비스들...

저 페이지를 읽을 때만 해도, 현재의 ... 시작점이 될 줄은 몰랐다.
그야말로 나비효과처럼...

그 때를 생각해보니, 재미있어서 소설 한 번 써 봤다.
C'est la vie ~!

책을 읽으면서, 자연스럽게도 persona라는 개념을 접하게 되었다.

내가 알고 있던 persona는 단지 personality의 어원으로 가면이라는 뜻을 가지고 있다는 것.
또한 이와 관련해, 성격심리학에서 Carl Gustav Jung이 제시한 개념이 있다는 것이 전부였다.

여기에 한 가지 더 알게된 것이, Prouct Design에서의 persona 다.
책을 찾아보기도 하고, 인터넷을 찾아보기도 하고, 전문가에게 물어보기도 하고...
 
이 personas는 Product Design과정에서 실제 사용자 유형을 대표하는 몇 가지 전형적인 캐릭터로 구분한다고 한다.
Perosnas는 사용자 의도, 목적, 니즈 등을 조사해서, 데이터 분석결과를 기반으로 만들어 놓은 가상의 사용자 모델이다.
(참고: Personas from wikipedia)
마케팅분야의 소비자행동분석과도 유사한 점들이 있는데... 자세한 건 더 공부를 해야될 것 같다.

10 steps to Personas

이미지 출처: http://www.hceye.org/HCInsight-Nielsen.htm


의인(意人:의도를 가진 사람)이라는 개념을 생각했던 적이 있는데, persona는 이와 비슷한 듯 하다.
의인도 persona처럼 굳이 라틴어로 표현한다면, intentio라고 할 수 있을 것 같다.

이전에, 회사법이었는지 상법이었는지 확실치 않지만,
CPA공부하던 친구를 따라 강의를 들어간 적이 있었다.

강의 첫 시간에 자연인과 법인이라는 개념을 배우는데,
지루해서 딴 생각을 하다가 의인이라는 것을 생각했다.

법률로 정의되는 주체가 아니라, 의도나 의지로 정의되는 주체...
각기 다른 자연인들이 뜻을 같이하는 공동체처럼,
의도나 의지만으로 정의될 수 있는 가상의 인격체.
여러 명의 자연인이 하나의 의인을 구성할 수도 있지만,
한 명의 자연인은 여러 명의 의인을 포함할 수도 있다. n:n의 관계이다.

그러다가, 인공신경망에서의 레이어 구조와 구조방정식에서의 변수 연결을 보면서
문득, 의도(의인)-사용자(자연인)-쿼리-문서 사이의 연결구조를 떠올렸다.

사용자, 쿼리, 문서 데이터를 가지고, 의도를 찾아내고 의인을 정의하는 모델...
의인을 쿼리와 문서의 링크 정보로 활용하여 매칭하는 구조...
그리고, 이 구조는 새로운 데이터(쿼리, 문서)에 의해, 동적으로 변동하게 된다.

이렇게 컴퓨터가 인간의 의도를 알게되는 날이 올 수 있을까?

이용자에 의해 생성되는 키워드 길이에 대한 조사결과를 보다가, 재미있는 것을 발견했다.
조사결과의 히스토그램을 보는 순간, 포아송 분포와 닮았다는 생각이 들었다.
평균길이가 대략 4 ~ 5 인 포아송 분포를 따르는 것처럼 보였다.

이용자가 특정 키워드 하나를 생성할 때 발생하는 음절 수를 확률변수라고 한다면,
그 확률변수는 포아송 분포를 따를 수도 있을 것 같다.
자세한 것은 검증이 필요할 수도 있지만, 위 생각은 틀렸을 수도?
각 음절이 독립적으로 발생한다고 보기에는 무리가 있으려나?

So what ?
이러한 지적 호기심에서, 그 다음으로 무엇이 이어질 수 있는지는 모르겠다.
깊게 들어가면, 항상 내공이 부족함을 느끼게 된다.

책장에 꽂아두었던 확률 책을 다시 한번 꺼내 봐야겠다.
꺼내 본다고, 알 수 있으려나 ~ -_-;;
다시는 볼 일이 없을 줄 알았는데......

확률 공부를 깊이있게 하지 않았던 게... ...
기초가 참 중요한데... 알고 있지만, 어렵단 말이다.


포아송분포 관련 URL :
- Poisson Distribution From Wikipedia

+ Recent posts