클라우드 기반 대용량 시맨틱 웹 검색

작년에 이어 올해 학교에서 과제 PM으로 맡고 있는 분야가 있다. 바로 대용량 시맨틱 웹 검색 엔진을 연구하고 만들어 보는 일이다.

LinkedData가 활발해지면서 시맨틱 웹 포맷을 가진 데이터양이 기하 급수적으로 늘고 있고 이들 데이터를 크롤링 해서 적합한 쿼리에 대한 응답을 만들어 주는 검색 엔진에 대한 연구가 필수 불가결한 상태가 되고 있다.

문제는 기존의 시맨틱 웹 검색 엔진들이 특정 도메인의 적인 데이터를 다루다보니 기존 DB 방식의 검색 이상을 해보지 않았고, IR의 기법을 가져오자니 시맨틱 웹의 원래 의도를 반영하기가 어려운 단점이 존재하고 있다.

정보 검색에 대한 두 가지 접근이나 시맨틱 검색 vs. 시맨틱 웹 검색에서 이런 종류의 이야기를 한 적은 있지만 우리가 가진 접근 방법에 대한 소개를 한 적은 없는 것 같아서 간단하게 정리해 본다.


시맨틱 웹 정보 검색은 크게 RDF 형식 파일을 모아서 트리플(Triple)이라는 지식 기반을 만들고 이를 추론엔진에 따라 쿼리를 던져 원하는 "의미가 정확한" 정보를 얻는 데 그 목적이 있다. 하지만, 각 단계 별로 무수한 어려운 점이 존재한다.

간단히 말해 우리 연구 과제의 가장 큰 주안점은 각 요소의 문제점을 분산 컴퓨팅 기반 '클라우드 환경'을 이용하여 해결 하는 것이다. 작년에 분산 기반 RDF 크롤러와 트리플 변환기를 Map/Reduce 방식으로 만들고, 아마존 같은 클라우드 컴퓨팅 환경에서 작업을 필요 시 언제든지 할 수 있도록 동적으로 제어하는 연구를 진행 했다.

올해 우리 그룹에서는 복잡한 SPARQL 쿼리에 대한 빠른 응답을 해주는 추론법을 MR 방식으로 제공하는 방법에 대한 연구와 이를 시각적으로 어떻게 잘 표현해서 사람들이 정확한 답을 찾아가도록 도와 줄것인가에 대한 연구를 지속적으로 진행할 것 같다.

이 과제와 더불어 국내에 별로 없는 LinkedData Repository를 늘이기 위한 작업도 대형 포털과 함께 진행하고, 이 데이터를 이용해 볼 예정이다. 혹시 클라우드 기반 시맨틱 웹 검색 엔진 구현과 연구에 관심 있는 분들은 알려 주시길...

'시맨틱 웹' 카테고리의 다른 글

검색 엔진 HTML5를 선택하다  (0) 2011.06.03
Social Interaction Ontology  (0) 2009.06.11
구글은 시맨틱웹에 관심 없다?  (5) 2009.05.14