Amazon에는 SIPs라는 서비스가 있다. 책에서 주요 키워드를 보여준다.
SIPs는 Statistically Improbable Phrases 의 약자이다.
그 아래로는 CAPs도 있는데, CApitalized Phrases 의 약자이다.

두 가지 모두 Key Phrases 그 책을 대표하는 키워드를 보여주는 것이다.
한 책에서만 나타나는 키워드는 그 책의 고유한 특성을 보여줄 수 있다.

TF*IDF 개념과 비슷하지만, 통계적으로 불가능하다는 의미가 키워드 빈도의 분포곡선에서 오른쪽 꼬리 끝에 위치하는 부분을 의미하는 게 아닐까 싶다. 무작위성으로는 발생하기 어려운 이벤트라고 생각하면 이해하기 쉽다.


+ Recent posts