'소셜 웹'에 해당되는 글 5

소셜 친구 추천의 한계

대개 소셜 네트웍 분석 및 연구자들에게 킬러 애플리케이션을 묻는다면,  친구 추천(Friend Recommendation)을 많이 꼽는다. 사람들에게 친구 추천이 유용한 기능이라고 생각하기 보다는 추천 알고리즘을 검증하는 데 용이한 측면이 있기 때문이다.

아니나다를까 우리가 쓰는 소셜 네트웍 서비스에서도 친구 추천은 가장 먼저 구현되고 제공되는 기능이기도 하다. 트위터도 "팔로우해야할 사람", 페이스북도 "알 수도 있는 사람", 심지어 싸이월드도 "오래된 친구 추천" 기능이 들어 있다.
사용자 삽입 이미지
친구 추천은 각 서비스의 특징에 따라 달리 해야 되겠지만 대개 1) 상호 관계- 일방향 혹은 양방향 연결  2) 공통된 관심사 - 사는 지역, 성별, 연령대와 공유하는 정보의 의미 3) 공유 인맥 - 친구의 친구 등으로 연결된 인맥 구조 4) 친구 필터링 - 추천 콘텐츠 같은 필터링 정보를 기반해서 하게 된다.1)

이는 크게 콘텐츠 혹은 관심사 중심 혹은 관계 중심 친구 추천 알고리즘으로 나뉘게 된다. 콘텐츠에 대해 일반적인 TF/IDF 혹은 코사인 유사성을 기반한 Content Matching와 여기에 소셜 링크 정보를 추가한  Content-plus-Link (CplusL)는 전자에 속하고, 소셜 네트웍 관계 구조를 기반한 Friend-of-Friend와 인트라넷 애플리케이션으로 소셜 네트웍을 분석하는 SONAR(SOcial Networking ARchitecture) 등은 후자에 속하는데 이를 기반으로 친구 추천 효과를 측정한 연구가 있었다.2)

연구 결과에 따르면, 아래 그림에서 보듯이 관심사 기반 알고리즘으로는 잘 모르는 친구를 찾을 때 유용하고 관계 기반 알고리즘은 잘 아는 사이의 친구를 찾을 때 의미 있는 결과를 보인다. 대신 결과가 좋다고 판단한 경우는 대개 아는 친구를 추천해 줄때에 더 좋은 결과를 보여준다.

사용자 삽입 이미지

어찌 보면 당연한 이 결론은 현실에도 그대로 유용할까?

물론 트위터나 페이스북 그리고 싸이월드에도 각자의 친구 추천 알고리즘을 가지고 있을 것 같다. 특히, 트위터의 경우 데이터가 완전히 오픈 되어 있기 때문에 많은 서드 파티들이 추천 서비스를 하고 있기도 하다.

경험적(정성적)으로 봤을 때 트위터의 친구 추천은 대개 팔로우가 많은 유명인이 될 수 밖에 없다. 일방향 관계를 가지게 되는 특징 때문이든 리트윗이 많아 콘텐츠 매칭의 허브가 되든 말이다.

트위터와 달리 양방향 관계를 제공하는 페이스북이나 싸이월드의 경우도 네트웍을 확장하는데 도움을 주는지 아니면 그 반대의 결과를 가지고 오는지 한번 생각해 볼 필요가 있다.

얼마 전 싸이월드가 친구 추천 기능을 추가했을 때, 얼마지나지 않아 많은 사람들이 "싸이월드 친구 추천 없애기"라는 자동 검색어 추천 항목이 나오고 지식iN에서 이와 관련한 질문이 최상위에 노출될 정도로 심리적인 결과가 좋지 않다고 한다.

이는 성숙한 소셜 네트웍 서비스에서 "알 만한 사람은 이미 다 알게 되었다"라는 부분을 간과한 이유일 것이다. 즉, 친추 기능이 보고 싶지 않은 사람을 다시 보여줄 확률을 높혀서 어떠한 이유로 관계를 끊은 사람들까지도 "추천" 이라는 명목으로 보는 일은 그리 유쾌하지 않을 듯 하다.

다시 말해, 소셜 네트웍의 성숙도와 인간적 요인을 잘 고려하지 않으면 정교한 친구 추천 알고리즘이 나오기 어렵다는 것을 의미한다. 아예 페이스북 처럼 프로필 사진이 멋있는 인기있는 이성을 골라 주는 게 어찌 보면 더 효과적일지도...

----
1) Scott A. Golder et al, A Structural Approach to Contact Recommendations in Online Social Networks, SIGIR 2009
2) Jilin Chen et al,"Make New Friends, but Keep the Old"- Recommending People on Social Networking Sites, CHI 2009


'소셜 웹' 카테고리의 다른 글

소셜 친구 추천의 한계  (3) 2010.09.13
소셜 웹 알고리즘 만들기  (2) 2010.04.24
과학자를 위한 소셜 서비스  (0) 2010.02.18
소셜 검색 알고리듬 찾기  (3) 2010.02.12
HITS 알고리듬과 소셜 네트웍  (1) 2009.05.08

여러분의 생각

  1. rain 2010.09.14 00:01
    글쎄요..소개팅사이트도 아니고..아예 모르는 사람보다는 그래도 연관있는 사람..을 추천해주는게 낫다고 보는데요..그러면서 찾고싶었던..반가운 친구도 찾게 되는거구요...
  2. sense 2010.09.14 01:07
    저는 나와 관련된 사람을 친구추천해주는 점이 마음이 들더라구요. 비록 달갑지 않은 인연이 추천되어있다고 해도 그 또한 나와 관련된 사람이니.. 그리고 다시 보게 되어 불쾌한 사람보다는 반가운 인연들이 더 많아서 요즘 싸이월드 친구추천 잘 활용하고 있습니다^^
  3. xhyjune 2010.10.01 18:30
    언제나 좋은 글 감사드려요^^ 모든 웹 서비스가 그렇겠지만 특히 명색이 소셜 딱지가 붙는다면 인간에 대한 보다 근원적인 고민이 반드시 필요한 것 같습니다.

의견 쓰기

이름* 암호* 홈페이지(선택) 비밀글?

소셜 웹 알고리즘 만들기

전세계 최대 소셜 네트워크 서비스라할 수 있는 페이스북의 개발자 컨퍼런스(f8)이 있었다. 뉴스에 오르내리지는 않았지만, 페이스북 로그인 후 첫화면에 나오는 친구들의 최근 소식을 요약해서 전달해 주는 알고리즘인 EdgeRank에 대한 내용이 있었다.

친구들의 모든 활동을 다 보여줄 수 없기 때문에 가장 중요하고 볼 만하다고 여겨지는 것만을 선별하는 알고리즘이다. PageRank에 이후에 수 많은 Rank들이 나와서 이름이 낯설지는 않지만 Edge라는 건 특정 기사(Object)에 어떤 상호 작용(Status)이 추가 될 때 새로운 것이 덧붙여지기 때문에 붙인 이름 같다.

아이디어는 아주 간단해서 (1)affinity score: 새로운 소식을 업데이트 한 사람과의 친밀도 (2) weight: 각 상호작용의 가중치 (3) time: 올라온 시간의 세 가지 곱의 합으로 되어 있다.


즉, 잘 알고 있는(상호 작용)이 최근에 여러 사람의 댓글(Comment)이나 추천(Like)를 받은 게 나의 뉴스피드에 나타난다는 말이다.

예전에 Social Interaction Ontology를 설계 할 때, 상호 작용은 가중치를 부여해야 하는데 그 가중치를 정하는 공식은 매우 중요하다. 페이스북에서는 Like가 코멘트 보다 가중치가 낮다고 산정하는 것 같다. 하지만, 트위터에서 RT가 코멘트 보다 가중치가 낮을까? 미투데이에서 미투 버튼이 댓글 보다 가중치가 낮을까? 이건 고민해 봐야할 문제다.

소셜 네트웍에서 알고리즘을 만들 때, 휴먼 팩터를 고려하는 건 굉장히 중요한 문제이다.

Daum View(블로거뉴스)의 열린 편집을 통한 베스트 뉴스를 뽑는 알고리즘 (Open Editing Algorithm: A Collaborative News Promotion Algorithm based on Users' Voting History)에 따르면 추천 버튼을 누르는 사람의 성향과 추천을 받아 베스트 뉴스에 오르는 여러 과정 중의 추천 버튼을 누르는 방법을 구별해서 점수를 계산하고 있다.

이 알고리즘 역시 매우 간단하다. 베스트글을 한번이라도 써본 사람(M)과 일반 블로거(N)가 특정 글을 베스트에 올릴 때 유효했던 추천(A)에 가중치를 두어 나머지 추천(B)를 토대로 그 사람이 했던 추천 점수를 계산 하게 된다. (여기서 c와 c'는 표본 에디터에서 산출한 상수 값).

그런 다음 사람이 충분히 읽지 않고 추천한 짧은 시간에 추천(D)과 베스트 글 이후의 유사한 추천(DB)를 뺀 값이다. 즉, 추천 점수는 내용을 충분히 읽고 추천한 글 중에 베스트 글을 쓴 사람이 베스트 글이 될만한 딱 그 시점에 추천이 많은 경우 올라갈 수 있다는 의미이다.

웹 서비스가 사회적 인간적 요인들이 많아지면서 공학적 알고리즘에 인간적 요인을 배려를 하기 시작한 건 그리 오래된 일은 아닌 것 같다.

예전에 장난 삼아 '떠날 직원 알아내는 알고리즘'을 쓴 적이 있는데 많은 분들이 공감했던 기억이 난다.

사용자 삽입 이미지
즉, 홀수(1,3,5...)년차에 쯤에 그 동안 팀 이동 횟수가 많고, 평균 연봉 인상율이 낮은 사람 중 야근 빈도가 팀원들의 야근 빈도 보다 높을 때 이직할 확률이 높다는 우스개소리였다.

아주 복잡한 수학 처럼 보이지만, 아주 단순한 경험의 산물이다. 결국 문제는 어떻게 검증(Evaluation)하느냐 하는 것이다. 이것이 바로 연구의 성패를 가늠하는 것이고, 데이터를 가진 자만이 할 수 있는 우월함 아닐까?

'소셜 웹' 카테고리의 다른 글

소셜 친구 추천의 한계  (3) 2010.09.13
소셜 웹 알고리즘 만들기  (2) 2010.04.24
과학자를 위한 소셜 서비스  (0) 2010.02.18
소셜 검색 알고리듬 찾기  (3) 2010.02.12
HITS 알고리듬과 소셜 네트웍  (1) 2009.05.08

여러분의 생각

  1. LiFiDeA 2010.04.27 11:51
    다음 뷰에서 이렇게 정교한 랭킹 모델을 사용하는줄은 몰랐네요. 그래서 다른 곳보다 낚시성 글이 탑에 오르는 횟수가 적었던가요.

    단, 웨이트를 데이터에서 학습하는 알고리즘과 결합하면 좀더 단순하면서도 효과적인 모델이 되지 않을까 합니다. 다음 정도라면 충분한 양의 데이터도 있을 테니까요.
  2. sangwon 2010.04.27 13:29
    말씀하신 것처럼 Edge type들에 대한 가중치 부여는 많이 생각해봐야 할 것 같아요. 사용자별로 각각의 타입별 가중치가 달라질 수 있다는 부분도 고려해봐야 할 것 같네요.

의견 쓰기

이름* 암호* 홈페이지(선택) 비밀글?

과학자를 위한 소셜 서비스

과학을 연구하는 사람에게 소셜 네트웍 서비스는 일종의 시간 낭비와 같은 것이다. (물론 예외도 있지만) 그 시간에 랩에 틀여 박혀서 논문 하나 더 읽는 게 중요하다고 생각하는 사람들이 많다.

그러나 사실상 연구도 협업의 시대에 들어선 요즘 이제 과학자들을 위한 소셜 네트웍이 중요해졌고 이에 대응하는 여러 서비스가 있다. 이제는 이러한 변화를 외면할 수가 없다는 말... 최근 좀 알려지기 시작한 연구자를 위한 온라인 소셜 네트웍 서비스들을 한번 알아보자.

아카데미아(Academia.edu)
영국 벤처 기업인 Academia.edu는 소셜 네트웍망을 제공하는 서비스이다. 마치 Geni.com과 같은 가계도와 유사하다. 교수, 박사 졸업자, 대학 졸업자, 지도 교수 및 멘토, 동료 등과 같은 관계망에서 연구 과제에서 같이 협업한 동료들까지 표시할 수 있다.

특히 페이스북이나 프렌즈피드와 같은 뉴스 피드는 자신의 연구 분야의 최신 동향과 사건들을 바로 알 수 있다. 즉, 최근 발표 논문, 학회 소식, 연구 과제 동향 등이다. 이 서비스는 과학자들간의 사교 장소라기 보다는 오히려 정보 공유를 위해 만들어졌다.

새로 회원 가입 시에는 학부와 전공 분야를 적고 그러면 관련 정보들이 전달된다. 트위터의 팔로잉 시스템을 통해 특정 멤버의 소식을 받을 수도 있다. Academia의 성공의 열쇠는 분야별로 전문성이 높은 네트워크를 축으로서 도움이 되는 뉴스 피드를 구축하는 능력에 있을 것 같다. 과학자들은 시간이 없기 때문에...

랩미팅(Labmeeting.com)

연구자들의 데이터는 대개 논문, 실험 데이터, 메모 등이 문서 도구에 쌓여 있어도 대개 남에게 줄 때는 PDF 파일을 준다. 랩미팅에서는 누구나 PDF를 간단히 업로드 해서 정리 및 검색 할 수 있는 문서 관리 서비스를 만들었다.

그룹을 만들어 멤버를 초대할 수 있고 공유 및 접근 가능한 논문 저장소(Repository)도 만들 수 있다. PDF는 Scribd 서비스를 이용해 별도 뷰어 없이 웹에서 바로 볼 수 있다. 이 서비스는 주로 의학 연구와 의료 커뮤니티에 있어서의 정보 제공 방법을 바꾸는 것을 목표로 하고 있다.

회원들은 동료 논문을 리뷰하거나, 추천 및 평점을 매길 수 있고, 모음집을 만들어 공유 할 수 있다. 랩미팅은 특정 논문을 누가 읽었고 어떻게 평가했는지 확인 할 수 있고 앞으로 제약, 바이오 기술 관련 법인 사용자를 대상으로 유료 서비스가 가능할 것으로 보인다 .

리서치게이트(ResearchGate)
ResearchGATE는 LinkedIn 방식의 이력서 기반 소셜 네트웍에서 연구자들 사이 커뮤니케이션이나 정보 공유를 위해 만들어 졌다.우선 자신의 프로필을 만들어 학력, 직업 경력, 스킬, 관심 분야와 자신의 연구 논문을 첨부하고 특정 분야의 사람들과 연결하게 된다.

이를 지원하기 위해 Google Docs와 유사한 ReStory라는 문서 도구와 오프라인 모임을 만들고 연락하는 ReMeet, 투표나 앙케이트 조사 같은 ReVote 등을 제공한다. 이 사이트의 장점은 검색 기능이 좋고 내부 뿐만 아니라 PubMed나 Citeseer 같은 외부 논문 DB도 검색 하기 때문에 자신의 논문을 업로드하면 유사 논문을 발견해 주기 때문에 누가 이 분야에 연구를 하고 있는지 쉽게 알 수 있으며, 그들을 직접 연락할 수도 있다.

2009년 5월 시작한 ResearchGATE는 현재 196개국 20만명이 등록되어 있고 총 논문 10만개가 있다. 가령 신형 인플루엔자(H1N1) 연구 그룹에는 100명이 넘는 전문가가 모여 있다. ResearchGATE에서 생물학, 의학, 컴퓨터 과학의 분야 연구자들이 다수를 이룬다. 이 사이트는 문서 공유가 편리하고 전 세계 연구자들의 특정 연구 주제 및 관심 분야를 중심으로 쉽게 모일 수 있다는 장점이 있다.

E-페르니쿠스 (epernicus.com)
E-페르니쿠스는 주료 의료 및 생물, 사회학 연구자들이 찾는 소셜 네트웍 서비스이다. 기존 서비스 처럼 프로필을 이용한 소통 기능이 있지만, 가장 중요한 것이 서로 질문을 주고 받는 기능이다. BenchQ라고 하는 이 기능을 이용하면 유사한 분야에 있는 사람들과 질문과 답을 바로 할 수 있다.

올로기즈(Ologeez.com)

올로기즈(Ologeez)는 원래 PubMed의 검색 기능을 쉽게 해 주기 위해 만든 사이트이다. 검색이 용이한 사용자 인터페이스를 가지고 있으며, 검색한 논문에 대한 평가가 가능해 랭킹에 반영이 된다. 소셜 네트웍 기능이 있으며 연구 그룹간 일정표나 연구 규칙 및 문서 자료를 공유할 수 있는 가상 BBS의 형식을 띠고 있지만, 아직 사용자 수가 적다는 것이 단점.

사이언스피드(ScienceFeed.com)
얼마전 오픈한 사이언스 피드는 과학 정보에 관한 헤드라인, 주요 발견, 학설, 컨퍼런스 정보 등을 마이크로 블로깅 방식으로 보낼 수 있다. 물론 트위터나 프렌즈피드 처럼 팔로잉 및 답글도 가능하다. 주요 토픽과 키워드 기반 검색도 가능하고 다른 SNS로 보낼 수도 있다.

재미 있는 것은 각종 컨퍼런스 마다 별도 그룹을 만들어 트위터처럼 해시태그로 정보를 볼 수 있게 해 두고 있다. 연구 논문을 투고할 수도 있고, PubMed를 비롯 10개의 논문 DB를 검색할 수도 있다. 연구 주제를 기반한 가벼운 커뮤니케이션을 지향하고 있지만, 앞서 소개한 서비스 보다 후발 주자이면서 주요 특징이 따로 없는 것이 약간 아쉽다.


지금까지 연구자를 위한 신생 소셜 네트웍 서비스 들을 간단히 살펴 보았다. 수학 정석 가지고 다닌다고 수학 문제가 저절로 풀리는 것이 아니듯, 과학자 소셜 네트웍을 쓴다고 연구가 술술 진행되는 건 아니다.

하지만, 과학자들간의 협력과 공유가 중요한 시대인 만큼 책상에서 논문을 보는 시간을 잠시 떠나 비슷한 연구자를 찾아 대화 하는 시간도 가져봄이 어떨까?

'소셜 웹' 카테고리의 다른 글

소셜 친구 추천의 한계  (3) 2010.09.13
소셜 웹 알고리즘 만들기  (2) 2010.04.24
과학자를 위한 소셜 서비스  (0) 2010.02.18
소셜 검색 알고리듬 찾기  (3) 2010.02.12
HITS 알고리듬과 소셜 네트웍  (1) 2009.05.08

여러분의 생각

의견 쓰기

이름* 암호* 홈페이지(선택) 비밀글?

소셜 검색 알고리듬 찾기

소셜 웹
웹 검색에 있어 PageRank가 가져온 영향력을 볼 때, 소셜 데이터가 실시간으로 전달되는 현 시대의 검색 패러다임에 걸맞는 알고리듬이 필요한 시점이 되었다.

1998년에 Larry Page와 Sergey Brin이 발표한 "Anatomy of a Large-Scale Hypertextual Search Engine"라는 논문을 빗댄 "Anatomy of a Large-Scale Social Search Engine"라는 논문을 블로그에 공개했다.  이 논문은 페이지랭크 논문이 WWW1998에서 발표된 것 처럼 오는 4월 WWW2010에서 발표된다.

이 논문의 저자들은 Q&A 기반 소셜 검색 엔진 개발 회사은 Aardvark의 개발자들로서 구글에 근무하던 직원들이 2008년에 만든 회사다. Aardvark은 내가 가지고 있는 소셜 네트웍에 질문을 던져서 빠르고 신뢰할만한 해답을 얻기 위한 서비스로서 메신저나 메일을 이용할 수 있는 특징이 있다.


구글이 도서관이라면 마을에 빗댄 그들의 알고리듬은 몇 가지 차이점이 있다. 페이지랭크가 정보의 롱테일에 기반한 크롤러와 랭킹에 기반한다면 소셜 검색에서는 어떤 주제를 잘 아는 양질의 사용자의 양이 중요하고 이를 유지 시키는 것이 관건이다.

특히, 그런 사용자의 과거 블로그 글, 트윗 내용, 소셜 네트웍 내 사용자들의 성향 같은 것이 중요하고 특히 동질의 사용자들이라고 가정한다. 문서 검색 엔진에서 링크의 권위에 해당하는 신뢰도는 정보를 주는 사람과 사용자의 친밀도와 관계성에 기초를 둔다.

구글이 키워드에 대해 적당한 문서를 찾아 랭킹을 맺어 주는 대신 Aardvark은 그 주제에 대해 알고 있는 사람을 제시한다.


대략 10만명의 사용자를 기반으로 조사해 본 결과 55.9%가 질문하거나 대답 했고, 일평균 3,167건 정도였다. 액티브 사용자의 월 평균 질문수는 3.1건이고, 신속한 답변을 얻기 위해 모바일에서 더 많이 사용했다. 질문의 87% 정도는 답변을 받았고 60%는 10분내, 평균 6분 37초내에는 답을 받았다. 70%의 사용자들이 답에 대해 만족을 표했다고...

이 논문은 소셜 네트웍 내에서 정보의 흐름과 이를 계량화 하는 좋은 예가 된다. 구글 버즈 출시 후 세르게이 브린은 "사용자들의 행동을 주시하는 것이 소셜 검색의 중요한 팩터이고 스팸을 감내하면서도 사용자에게 적절한 추천을 해 줄 수 있는 시스템을 만들 수 있느냐가 큰 도전"이라고 소셜 검색에 대한 의견을 밝혔다.

아이러니하게도 오늘 구글이 이 회사를 5천만불에 인수한다고 밝혔다. 회사 창업자인 Mac Ventilla는 애드센스를 만들었고, Nathan Still는 구글 뉴스를 이끌었던 인물로 다시 구글로 돌아가게 되었다.

따라서, 소셜 검색은 이러한 실시간성, 연관성, 신뢰성을 기반으로 빠르게 전달해 주어야 하는 만큼 실시간 검색이라는 이름으로도 불린다. 기존 검색엔진이 크롤링과 인덱싱, 랭킹이라는 정적인 방식이라면  소셜 검색은 블로그, 트위터와 소셜미디어를 기반한다.

국내에서도 소셜 검색에 대한 관심이 증가되고 있다. 그 중 라이브K라는 회사는 아마 내가 보기엔 최초로 실시간 소셜 검색에 집중하는 회사이다.
 

RSS 기반 블로그 검색 엔진인 Feedmil.com을 만드셨던 서울대 박종헌 교수님의 기술 지원하에 만들어진 서비스이므로 꽤 신뢰할 만 하다. 우리 나라 만큼 소셜 네트웍과 액티비티가 강한 나라에서 무언가 만들어 낸다면 좋은 시도와 본보기가 될 것 같다.

누가 차세대 "Anatomy of a Large-Scale"의 타이틀을 획득할지 기대가 되고 우리 연구자들에게도 여전히 기회가 열려 있다.

업데이트. 구글은 Aardvark 인수를 발표 하면서 기존의 경우와 달리 Google Labs를 통해 본격적으로 서비스를 시작하고 있다.

'소셜 웹' 카테고리의 다른 글

소셜 친구 추천의 한계  (3) 2010.09.13
소셜 웹 알고리즘 만들기  (2) 2010.04.24
과학자를 위한 소셜 서비스  (0) 2010.02.18
소셜 검색 알고리듬 찾기  (3) 2010.02.12
HITS 알고리듬과 소셜 네트웍  (1) 2009.05.08

여러분의 생각

  1. 라이브K 2010.02.12 10:35
    좋은 글이군요... 국내최초 실시간웹(real-time web) 컨퍼런스 (www.bizdeli.com/realtimeweb)에서 이와 관련된 더 많은 이야기를 선보이게 됩니다.
  2. LiFiDeA 2010.02.21 23:18
    윤석찬님 안녕하세요,

    예전에 연구실에서 시맨틱 데스크톱 관련한 발표를 잠깐 했었던 김진영이라고 합니다. 좋은 글 감사드리고요, 제 블로그에 Aardvark의 검색 모델에 관한 글을 썼어요 ;)
  3. 맑은하늘 2010.03.12 06:37
    오 상상했던 검색엔진입니다ㅋ

의견 쓰기

이름* 암호* 홈페이지(선택) 비밀글?

HITS 알고리듬과 소셜 네트웍

소셜 웹
웹 기반 정보 검색(Information Retrieval)에서 웹 문서간  하이퍼링크를 통해 좋은 문서를 찾는 랭킹 모델의 가장 중요한 알고리듬이 두 가지가 있다.

하나는 HITS(Hyperlink-Induced Topic Search)이고 나머지 하나는 페이지랭크(PageRank)이다. 두 가지 모두 너무 유명해서 설명할 것도 없지만 간단하게 정리해 보면 다음과 같다.

HITS는 웹 문서을 서로 링크로 인용하는 행렬로 보고 그 고유벡터(eigenvector)를 계산하는 방식을 기반으로 만들어졌다. 이 알고리듬은 크게 두 단계로 나뉘는데 질의어와 관계있는 문서의 부분집합(서브 그래프(subgraph))을 만든다. 그리고,  서브 그래프를 이용해서 Hub와 Authority를 계산하는 단계이다.

그림에서 보다시피 Hub는 링크를 내보내는 문서이고 Authorities는 링크를 많이 받는 문서이다. 따라서 두 가지 Factor를 모두 계산할 수 있는 장점이 있다. 이에 반해 PageRank는 백링크를 많이 받는 문서를 위주로 계산을 한다.

이 알고리듬의 문제는 질의어가 나와야 계산을 하기 때문에 문서를 인덱싱할 때 계산을 하는 PageRank에 비해 퍼포먼스가 떨어진다는 점이다. 그래서 검색 엔진에서 적극적으로 도입되지는 못했다. (Ask.com의 전신인 Teoma엔진 정도?)  테크노라티가 몇 년전에 블로그 검색 랭킹에서 이와 유사한 Authorities를 도입하기는 했었다.

HITS 알고리듬을 자세히 보면 소셜 그래프에도 적용이 가능하지 않을까 하는 생각이 든다. 기존의 소셜 네트웍에서는 친구 관계가 형성되려명 양방향이 모두 결합되어야만 가능했다.

하지만 최근 인기를 끌고 있는 Twitter의 경우는 일방향으로도 친구 관계가 성립된다. 즉, Twitter 같은 경우 Hub와 Authorities는 Follow를 받는 여부에 따라 확연히 달라지고 이들을 분석해 낼 수 있다는 것이다.

SNA의 경우, 기존의 네트워크 이론이나 복잡계 이론에서 소셜 네트웍 분석에 대한 연구가 많았지만, 소셜 네트웍이 기존 웹 문서와 링크 처럼 만들어지고 있다는 점에서 비슷하게 적용할 수 있지 않을까 하는 생각이 든다.

뿐만 아니라 이 모델은 사람들의 이동 행적과 같은 소셜 액션에도 적용이 가능하지 싶다. 요즘 토픽을 잡은 것 중에 하나가 그거다.

'소셜 웹' 카테고리의 다른 글

소셜 친구 추천의 한계  (3) 2010.09.13
소셜 웹 알고리즘 만들기  (2) 2010.04.24
과학자를 위한 소셜 서비스  (0) 2010.02.18
소셜 검색 알고리듬 찾기  (3) 2010.02.12
HITS 알고리듬과 소셜 네트웍  (1) 2009.05.08

여러분의 생각

  1. 2009.06.01 08:05
    블로그 항상 잘 보고 있습니다. 비슷하게 Q&A 게시판이나 Q&A 서비스내의 전문가를 찾는 것에 HITS를 적용한 예가 있었는데, Q&A 는 답변하는 사람이 질문을 하는 경우도 있지만, 카테고리에 따라 질문을 거의 하지 않고 답변만 하는 사람이 있기 때문에 이 알고리즘이 적합했던 듯 합니다.

의견 쓰기

이름* 암호* 홈페이지(선택) 비밀글?