문서 군집화는 비슷한 문서들을 하나의 군집으로 묶어줍니다. k-means 는 빠른 속도와 안정성 때문에 문서 군집화에 유용합니다. 하지만, 학습된 군집이 어떤 주제의 문서들이 모여있는지를 확인하기는 어렵습니다. 데이터가 수백만건이라면 각 군집에 속한 문서를 확인하는 것도 불가능합니다. 그러나 수작업이 아닌 데이터 기반으로 각 군집의 레이블을 할당할 수 있습니다. 특히 Bag of words model 로 표현된 문서에 k-means 를 적용시켰다면, 학습된 center vectors 를 이용하여 손쉽게 군집에 레이블을 부여할 수 있습니다.
Carblog. Problem description
Posted on
|
In
nlp
Carblog 는 데이터분석 사례의 프로젝트이름 입니다. Carblog 는 키워드 기반으로 수집된 문서 집합에서 의도한 문서 만을 선택하는 문제입니다. 네이버 블로그에 차량 이름을 쿼리로 입력하여 데이터를 수집하였습니다. 하지만 하나의 단어는 여러 의미를 지닙니다. 소나타는 차량의 이름이기도 하지만, 클래식 음악의 형식이기도 합니다. 혹은 가수 아이비의 “유혹의 소나타”라는 노래 제목에 포함된 단어이기도 합니다. 키워드 기반으로 수집된 문서에는 우리가 예상하지 못한 수많은 주제의 문서들이 포함되어 있습니다. 학습데이터를 마련하여 문서 판별기를 만들 수도 있겠지만, 학습데이터를 만드는 과정이 고통스럽습니다. 좀 더 멋지게 데이터 기반으로 학습데이터를 마련하지 않고서 차량 문서들만을 선택하는 필터를 만듭니다.
k-means initial points 선택 방법
Posted on
|
In
nlp
,
machine learning
Lloyd k-means 는 initial points 가 제대로 설정된다면 빠르고 안정적인 수렴을 보입니다. Lloyd k-means 의 입장에서 최악의 initial points 는 비슷한 점이 뽑히는 경우입니다. 이를 방지하기 위하여 다양한 initializer 가 제안되었으며, 그 중 널리 이용되는 것 중 하나가 k-means++ 입니다. 하지만, 데이터의 특성에 따라서는 k-means++ 가 제대로 작동하지 않을 수 있습니다. 이번 포스트에서는 어떤 경우에 k-means++ 가 잘 작동하지 않는지 그 이유를 살펴보고, 이를 해결하기 위한 방법에 대해서도 논의합니다.
Personalized PageRank and its application, movie recommender
Posted on
|
In
machine learning
to be …