이용자에 의해 생성되는 키워드 길이에 대한 조사결과를 보다가, 재미있는 것을 발견했다.
조사결과의 히스토그램을 보는 순간, 포아송 분포와 닮았다는 생각이 들었다.
평균길이가 대략 4 ~ 5 인 포아송 분포를 따르는 것처럼 보였다.

이용자가 특정 키워드 하나를 생성할 때 발생하는 음절 수를 확률변수라고 한다면,
그 확률변수는 포아송 분포를 따를 수도 있을 것 같다.
자세한 것은 검증이 필요할 수도 있지만, 위 생각은 틀렸을 수도?
각 음절이 독립적으로 발생한다고 보기에는 무리가 있으려나?

So what ?
이러한 지적 호기심에서, 그 다음으로 무엇이 이어질 수 있는지는 모르겠다.
깊게 들어가면, 항상 내공이 부족함을 느끼게 된다.

책장에 꽂아두었던 확률 책을 다시 한번 꺼내 봐야겠다.
꺼내 본다고, 알 수 있으려나 ~ -_-;;
다시는 볼 일이 없을 줄 알았는데......

확률 공부를 깊이있게 하지 않았던 게... ...
기초가 참 중요한데... 알고 있지만, 어렵단 말이다.


포아송분포 관련 URL :
- Poisson Distribution From Wikipedia

+ Recent posts