클라우드 기반 대용량 시맨틱 웹 검색

작년에 이어 올해 학교에서 과제 PM으로 맡고 있는 분야가 있다. 바로 대용량 시맨틱 웹 검색 엔진을 연구하고 만들어 보는 일이다.

LinkedData가 활발해지면서 시맨틱 웹 포맷을 가진 데이터양이 기하 급수적으로 늘고 있고 이들 데이터를 크롤링 해서 적합한 쿼리에 대한 응답을 만들어 주는 검색 엔진에 대한 연구가 필수 불가결한 상태가 되고 있다.

문제는 기존의 시맨틱 웹 검색 엔진들이 특정 도메인의 적인 데이터를 다루다보니 기존 DB 방식의 검색 이상을 해보지 않았고, IR의 기법을 가져오자니 시맨틱 웹의 원래 의도를 반영하기가 어려운 단점이 존재하고 있다.

정보 검색에 대한 두 가지 접근이나 시맨틱 검색 vs. 시맨틱 웹 검색에서 이런 종류의 이야기를 한 적은 있지만 우리가 가진 접근 방법에 대한 소개를 한 적은 없는 것 같아서 간단하게 정리해 본다.


시맨틱 웹 정보 검색은 크게 RDF 형식 파일을 모아서 트리플(Triple)이라는 지식 기반을 만들고 이를 추론엔진에 따라 쿼리를 던져 원하는 "의미가 정확한" 정보를 얻는 데 그 목적이 있다. 하지만, 각 단계 별로 무수한 어려운 점이 존재한다.

간단히 말해 우리 연구 과제의 가장 큰 주안점은 각 요소의 문제점을 분산 컴퓨팅 기반 '클라우드 환경'을 이용하여 해결 하는 것이다. 작년에 분산 기반 RDF 크롤러와 트리플 변환기를 Map/Reduce 방식으로 만들고, 아마존 같은 클라우드 컴퓨팅 환경에서 작업을 필요 시 언제든지 할 수 있도록 동적으로 제어하는 연구를 진행 했다.

올해 우리 그룹에서는 복잡한 SPARQL 쿼리에 대한 빠른 응답을 해주는 추론법을 MR 방식으로 제공하는 방법에 대한 연구와 이를 시각적으로 어떻게 잘 표현해서 사람들이 정확한 답을 찾아가도록 도와 줄것인가에 대한 연구를 지속적으로 진행할 것 같다.

이 과제와 더불어 국내에 별로 없는 LinkedData Repository를 늘이기 위한 작업도 대형 포털과 함께 진행하고, 이 데이터를 이용해 볼 예정이다. 혹시 클라우드 기반 시맨틱 웹 검색 엔진 구현과 연구에 관심 있는 분들은 알려 주시길...

  1. LiFiDeA 2010.04.27 11:59
    저는 계속 Semantic Desktop을 연구하고 있습니다만, 어떤 도메인에서 이런 검색엔진을 연구하시는지 궁금하네요.

    제 소견에는 데이터가 이미 웬만큼 구조화되있지 않고, 구조화된 질의(SPARQL)를 꼭 사용해야하는 경우가 아니고서는 온톨로지와 RDF 형태의 데이터 모델을 유지하는 것이 효용보다 비용이 클 수도 있다고 보거든요. 범용 시멘틱 웹의 실용화가 아직 요원한 것도 이런 이유에서일 거구요.