Linked Data 기반 검색 현황과 과제

지난 12월 3일 국립중앙도서관에서 한국 시맨틱웹 컨퍼런스가 열렸다. 이 행사는 국내 시맨틱웹 연구자들이 모여서 시맨틱웹에 대한 소개와 최근 동향에 대해 공유하는 행사이다.

올해는 공공정보의 활용 가능성을 주제로 하고 있고, 특히 링크드데이터(LinkedData)에 대한 세부적인 세션들로 마련 되었다. 지난 클라우드 기반 시맨틱웹 검색 엔진 개발 사례를 기반으로 대용량 링크드 데이터를 이용하기 위한 방법 및 문제점에 대한 발표를 하게 되었다.

강연 내용 요약은 다음과 같다.

LinkedData는 기존의 의료, 문헌 도메인을 벗어나 콘텐츠, 정부 데이터 등 그 폭이 커질 뿐만 아니라 데이터량도 폭발적으로 증가하고 있다. 일반적으로 특정 도메인의 시맨틱 웹 데이터 검색 서비스를 제공하기 위해 운영되는 RDF 데이터 처리 및 SPARQL 엔진 기반 포털 서비스는 대용량의 데이터를 다루기 어렵다.

본 발표에서는 기존 방식을 탈피하여 클라우드 컴퓨팅 환경에서 Hadoop 기반 MapReduce를 이용한 대용량 데이터 처리 방식을 이용하여 관계 기반 질의 확장을 통한 사용자 친화적인 Linked Data 검색 서비스 개발 사례를 소개한다. 현재 대용량 Linked Data를 처리하기 위한 Billion Triple Challenge의 아이디어와 현황을 살펴 보고 향후 방향을 전망해 본다.

여러분의 생각

의견 쓰기

이름* 암호* 홈페이지(선택) 비밀글?