*HITS

HITS 알고리듬과 소셜 네트웍 1

웹 기반 정보 검색(Information Retrieval)에서 웹 문서간 하이퍼링크를 통해 좋은 문서를 찾는 랭킹 모델의 가장 중요한 알고리듬이 두 가지가 있다. 하나는 HITS(Hyperlink-Induced Topic Search)이고 나머지 하나는 페이지랭크(PageRank)이다. 두 가지 모두 너무 유명해서 설명할 것도 없지만 간단하게 정리해 보면 다음과 같다. HITS는 웹 문서을 서로 링크로 인용하는 행렬로 보고 그 고유벡터(eigenvector)를 계산하는 방식을 기반으로 만들어졌다. 이 알고리듬은 크게 두 단계로 나뉘는데 질의어와 관계있는 문서의 부분집합(서브 그래프(subgraph))을 만든다. 그리고, 서브 그래프를 이용해서 Hub와 Authority를 계산하는 단계이다. 그림에서 보..
2009.05.08