검색 엔진 HTML5를 선택하다

HTML5, RDFa, 마이크로데이터, 마이크로포맷 2011/06/03 02:09
HTML5의 승리인가 아니면 시맨틱 웹의 승리인가.

구글, 야후 그리고 마이크로소프트가 2006년 웹 사이트맵 표준을 만들었던 것처럼 데이터 구조화 또는 시맨틱 데이터 표현을 위한 schema.org를 공동으로 개설했다.


시맨틱 표현(Semantic Annotation)은 마이크로포맷, RDFa 그리고 HTML5 Microdata 등 다양한 표준 경쟁이 있었는데, 결국 HTML5 마이크로데이터로 귀결되는 모양세다.

웹 사이트 운영자 입장에서는 시맨틱 표현을 하는 것은 조금이라도 더 잘 검색되기 위한 검색 엔진 최적화(SEO)에 목적이 있기 때문에 환영할만한 일이긴 하다. 세 가지 방법으로 모드 마크업에 한다는 건 비용이 소요되는 것이니... />


schema.org에 있는 것은 100여개의 데이터 표현을 포함하고 있고 이는 Yahoo!의 SearchMonkey와 Google의 Rich snippets를 합한 것을 중심으로 담고 있다. 웹 사이트들이 이들 속성 태그를 사용하면 검색 결과의 상위에 노출되고 특히, 더 많은 정보를 자세히 표현할 수 있다.



schema.org의 설명에는 이렇게 적혀있다 :
대부분의 웹 사이트가 데이터베이스에 저장하고 있는 구조화된 데이터로부터 웹 페이지를 생성하지만 그 데이터를 HTML에서 다시 얻기란 매우 힘듭니다. 웹 페이지를 분석하는 많은 웹 애플리케이션이나 검색 엔진은 원래 구조화된 데이터에 접근하여 웹 페이지의 정보를 이해하여 보다 풍부한 검색 결과를 제공할 수 있고 사용자는 적절한 정보를 쉽게 찾을 수 있습니다.
주요 데이터 표현은 다음과 같다.
전 세계에서 검색 엔진은 몇 개 없다. 구글, MS, 야후, 바이두(중국), 얀덱스(러시아) 정도... 국내에서는 네이버, 다음 어디서 먼저 도입할 것인가?

저작자 표시 비영리

함께 공유하기

여러분의 생각

여러분의 의견

의견 쓰기

비밀글?

클라우드 기반 대용량 시맨틱 웹 검색

검색엔진, 시맨틱웹, 클라우드컴퓨팅 2010/03/26 03:16
작년에 이어 올해 학교에서 과제 PM으로 맡고 있는 분야가 있다. 바로 대용량 시맨틱 웹 검색 엔진을 연구하고 만들어 보는 일이다.

LinkedData가 활발해지면서 시맨틱 웹 포맷을 가진 데이터양이 기하 급수적으로 늘고 있고 이들 데이터를 크롤링 해서 적합한 쿼리에 대한 응답을 만들어 주는 검색 엔진에 대한 연구가 필수 불가결한 상태가 되고 있다.

문제는 기존의 시맨틱 웹 검색 엔진들이 특정 도메인의 적인 데이터를 다루다보니 기존 DB 방식의 검색 이상을 해보지 않았고, IR의 기법을 가져오자니 시맨틱 웹의 원래 의도를 반영하기가 어려운 단점이 존재하고 있다.

정보 검색에 대한 두 가지 접근이나 시맨틱 검색 vs. 시맨틱 웹 검색에서 이런 종류의 이야기를 한 적은 있지만 우리가 가진 접근 방법에 대한 소개를 한 적은 없는 것 같아서 간단하게 정리해 본다.


시맨틱 웹 정보 검색은 크게 RDF 형식 파일을 모아서 트리플(Triple)이라는 지식 기반을 만들고 이를 추론엔진에 따라 쿼리를 던져 원하는 "의미가 정확한" 정보를 얻는 데 그 목적이 있다. 하지만, 각 단계 별로 무수한 어려운 점이 존재한다.

간단히 말해 우리 연구 과제의 가장 큰 주안점은 각 요소의 문제점을 분산 컴퓨팅 기반 '클라우드 환경'을 이용하여 해결 하는 것이다. 작년에 분산 기반 RDF 크롤러와 트리플 변환기를 Map/Reduce 방식으로 만들고, 아마존 같은 클라우드 컴퓨팅 환경에서 작업을 필요 시 언제든지 할 수 있도록 동적으로 제어하는 연구를 진행 했다.

올해 우리 그룹에서는 복잡한 SPARQL 쿼리에 대한 빠른 응답을 해주는 추론법을 MR 방식으로 제공하는 방법에 대한 연구와 이를 시각적으로 어떻게 잘 표현해서 사람들이 정확한 답을 찾아가도록 도와 줄것인가에 대한 연구를 지속적으로 진행할 것 같다.

이 과제와 더불어 국내에 별로 없는 LinkedData Repository를 늘이기 위한 작업도 대형 포털과 함께 진행하고, 이 데이터를 이용해 볼 예정이다. 혹시 클라우드 기반 시맨틱 웹 검색 엔진 구현과 연구에 관심 있는 분들은 알려 주시길...

함께 공유하기

여러분의 생각

여러분의 의견

  1. LiFiDeA님의 생각

    저는 계속 Semantic Desktop을 연구하고 있습니다만, 어떤 도메인에서 이런 검색엔진을 연구하시는지 궁금하네요.

    제 소견에는 데이터가 이미 웬만큼 구조화되있지 않고, 구조화된 질의(SPARQL)를 꼭 사용해야하는 경우가 아니고서는 온톨로지와 RDF 형태의 데이터 모델을 유지하는 것이 효용보다 비용이 클 수도 있다고 보거든요. 범용 시멘틱 웹의 실용화가 아직 요원한 것도 이런 이유에서일 거구요.

의견 쓰기

비밀글?

Social Interaction Ontology

소셜네트워크, 시맨틱웹, 연구주제 2009/06/11 15:45
최근 소셜 시맨틱웹(Social Semantic Web)이라는 부분의 연구나 표준화가 활발하게 이루어지고 있다.

소셜 시맨틱웹이란 소셜 네트웍에서 사람과 사람 혹은 사람과 정보 사이의 관계를 의미 있게 표현하고 이를 통해 새로운 지식과 특정 문제를 해결하기 위한 시도이다. 특히 사람들의 협업과 상호 작용으로 생성된 웹 데이터를 좀 더 의미적으로 묶어 내기 위한 많은 시도들이 여기에 포함 된다.

예를 들어, 위키퍼디아를 조직화된 데이터로 뽑아낸 DBPedia로 부터 시작된 Linked Data와 온라인 커뮤니티에서 사람과 객체(글, 사진, 동영상)을 기술한 SIOC 그리고 소셜 검색 등 다양한 측면에서 연구가 되고 있다.

하지만, 나의 관심은 협업과 상호 작용으로 생산된 데이터를 연결하는데 있어 누가 누구를 안다거나 잘 알고 있다는 것을 정말 의미적으로 표현 할 수 있을까 하는 점이다.

예전에 블로그에서 온라인에서 누가 친구인가라는 설문 조사를 한적이 있는데 50% 가까이 생판 모르는 사람도 온라인에서는 상호 작용을 할 수 있다고 답했다. 즉, 소셜 시맨틱 웹 분석에 있어 소셜 인터랙션의 시맨틱스는 매우 중요한 요소라고 할 수 있다.

아래 발표 자료는 나의 이러한 연구 동기를 만들게 된 원인과 방법에 대해 다루고 있다.
 

상원님이 잘 설명해 주셨듯이 Social Interaction Ontology는 User Actions을 표현해주는 온톨로지로서 user-verb-user에 관심을 가지게 된다. 즉 소셜 네트워크상에서 사용자와 사용자간의 Activity(Verb) – comment, reply, RT, 미투 등등을 표현하게 되고 당시의 스냅샷으로 만들어져 SIOC의 확장이나 별도 시맨틱 웹 포맷으로 제공 가능할 것 같다.

이렇게 만들어진 사람-사람 간의 세밀하고 정확한 인터랙션 강도를 기반으로 우리가 원하는 문제를 푸는데 있어 기반이 되어 줄 것이다.

아마 소셜 네트웍 별로 이러한 강도를 측정하는 공식이 모두 다를 것이고 온라인 SNS에서 일반화된 공식을 찾는 것이 나의 목표 중에 하나다. 이를 위해 특정 소셜 네트웍에서 특정 문제를 풀기 위해 소셜 인터랙션을 측정하고 이를 토대로 나온 데이터가 유효한지 Evaluation 하는 작업을 계속 해볼까 한다.

함께 공유하기

여러분의 생각

여러분의 의견

의견 쓰기

비밀글?

구글은 시맨틱웹에 관심 없다?

RDFa, 구글, 마이크로포맷, 시맨틱웹 2009/05/14 10:55
구글이 Searchology 09라는 행사를 통해 자기들의 새로운 검색 서비스들을 선 보였다. 그 중에 Rich Snippets이라는 기능을 위해 시맨틱 웹 분야에 있는 사람이라면 어제의 뉴스는 “ RDFa와 Microformat 지원“이 알려졌다.

Rich Snippets라는 이들 포맷이 지원하는 리뷰 결과 등 의미있는 데이터를 분석해서 검색 결과에 약간 멋있게 보여 준다는 것이다. 예를 들어 아래와 같은 검색 결과를 만들기 위해...


Microformat의 hreview를 이용한다던가...

RDFa의 용어 중 review type을 쓰는 식이다.

이 소식이 나오고 나서 많은 시맨틱 웹 관련  연구자나 기업, 관심자들이 이제 구글이 시맨틱 웹을 지원하는 것인가? 하는 논의가 시작되었다. 물론 구글은 이들 포맷을 지원하는 첫번째 검색엔진은 아니다. Yahoo! SearchMonkey는 이미 이들을 지원하고 있다.

최근에 웹3.0을 주장하는 많은 사람들이 시맨틱 웹 혹은 시맨틱 웹 검색 엔진이 차세대 웹이라는 Buzz를 펴고 있는 상태이다. 하지만, 실제 웹 2.0이 소셜 데이터를 이끌어 내는 원동력임을 감안했을 때 오히려 소셜 컴퓨팅의 영역으로 간다는 한상기 박사님의 의견에 공감이 가는 편이다.

즉, 사람이 웹을 적극적으로 만들고 이용해 가는 방식이 더 공고해졌다는 것이다. 여기서 시맨틱 웹 기술은 최소한의 소통 장치의 역할만을 하고 있다.

Sonagi님의 블로그에서 시맨틱웹, 구글, RDFa라는 글에는 시맨틱 웹 연구자의 걱정과 실망감이 잘 드러나 있다.

O’reilly Radar의 뉴스와 댓글을 보면 구글의 새로운 도전을 긍정적으로 생각하는 것 같다. 역시 즐거운 소식은 RDF를 이용해서 데이터를 구조화시키는데 구글이 관심을 보였다는 것이다. 적어도 시맨틱 웹의 비전에 대해 “최소“의 필요성은 인정했다라고 해석할 수 있을까? 2006년 좀 심하게 무시했던 것과 비교하면 진일보했다. 우울한 것은 구글이 접근하는 방법이다.

구글은 RDFa를 지원하지만 기존에 만들어진 RDF 어휘들 - FOAF, SIOC - 을 지원하지 않을 계획이다. 정확히 말하면 아주 새로운 어휘를 만들 계획이다.

data-vocabulary.org 가 그런 역할을 하지 않을까? Ian은 그동안 만들어지고 사용되고 있는 어휘들을 무시한채 구글의 방식대로 진행되는 것을 지적하고 있다. 구글도 점점 마이크로소프트처럼 행동한다는 생각이 드는 이유가 왜인지?
Microformat과 RDFa가 왜 탄생했는지 알아야 할 필요가 있다. 이 두 가지 포맷은 HTML에 직접 Annotation할 수 있는 포맷들이다. 즉, HTML만 좀 아는 사람이면 누구나 정보를 기재할 수 있고, 시맨틱웹을 모르는 일반 웹 개발자도 자신의 웹 사이트에 관련 정보를 표시할 수 있다는 장점이 있다.

이는 기존의 시맨틱 웹 어휘 혹은 온톨로지가 '심하게' 복잡하다는 것을 반증하는 것이다. 나 스스로도 FOAF 파일을 만들기 위해 Generator를 쓰지 않으면 안되었는데 실제로 나온 결과는 마이크로포맷의 hCard와 크게 다르지 않다.

왜냐면 FOAF의 어휘중 웹에서 쓸 수 있는 건 극히 일부분이기 때문이다. 나처럼 웹에다 모든 걸 드러내놓고 사는 사람도 전화 번호나 상세 집주소는 노출 하지 않는다. 그런데 FOAF 같은 어휘를 모두 써서 웹에다 노출한다는 것이 얼마나 큰 문제인가?

구글이 원하는 것은 크롤링한 HTML의 의미적 데이터를 어떻게 유용하게 활용할 것인가 하는 문제의 결론이지 시맨틱 웹을 적용한건 아닐 것이다. 만약 구글이 자체의 어휘를 만든다 해도 시맨틱 웹 연구자들이 뭐라할 상황은 아니지 않을까? 원래 HTML의 시맨틱 마크업이 시맨틱 웹의 영역은 아니였으니...

결국 미래는 소셜 웹 세계에서 시맨틱 마크업이 얼마나 쓰일 것이냐 혹은 그걸 얼마나 활용(Utilization)할 것인가의 문제이지 시맨틱 웹으로 진입이라는 것은 쉽게 일어나지 않을 것 같다. 지금까지도 그랬던 것 처럼 시맨틱 웹은 여전히 인트라넷이나 특정 도메인의 웹 기반 서비스 처럼 보이지 않는 웹(Invisible Web)에서 주로 활용될 가능성이 높고, 웹으로 커밍아웃하기에는 아직 멀어 보인다.

소셜 데이터 웹의 최전선에 있는 DBpedia의 LinkedData들이 일상적인 웹 세계에 제대로 활용되기 위해서는 더 쉬운 뭔가가 있어야 한다. 언제나 그랬던 것 처럼 웹은 쉬워야 하니까...

함께 공유하기

여러분의 생각

여러분의 의견

  1. 이동균님의 생각

    좋은 글 잘 읽었습니다.
    한상기 박사님의 블로그 컨텐츠도 완전 마음에 드네요
  2. hardboil님의 생각

    좋은 글 잘 읽고 갑니다 =)
  3. 모노피스님의 생각

    아...어렵습니다. ㅡㅡ;;;
  4. jamiepark님의 생각

    RDF 검색했다가 이글이 나와서 참고했는데,
    이 "차니"가 그 "차니"인줄 몰라뵈었네요^^

    좋은 연구활동 많이 하세요!
  5. Bardisch님의 생각

    아... 전 아직 바보인가봅니다...

의견 쓰기

비밀글?