Hadoop World 2011 참관기

지난 11월 8~9일 양일간 뉴욕에서 Hadoop World 2011이라는 콘퍼런스에 참석하고 왔다. 아무래도 논문 연구 테마가 클라우드 컴퓨팅에서 대용량 의학 시맨틱 웹 데이터 검색 (혹은 분석)이니 Hadoop 또한 주 관심사가 된다.

2009년 처음 우리 랩에서 연구를 시작할 때만 해도 하둡이 이렇게 성장하리라고는 생각 못했다. 그저 구글 MapReduce를 오픈소스 개념에서 사용할 수 있었다는 정도? 하지만 우리도 연구를 하면서 이놈의 성장 속도가 너무 무서울 정도로 빠르다. 오픈 소스의 저략이라고 할까?

Hadoop Stack?
지금 하둡 커뮤니티는 매우 빠르게 성장하면서 엄청난 파편화가 진행 중이다. 사실 하나의 솔루션에 불과했는데, 빅데이터 분석을 위한 일종의 Stack을 구성하기 위해 엄청나게 많은 오픈 소스 프로젝트가 시작되었다. (Apache Mahout, Golden Orb, Datameer 등등)

키노트에서 이베이나 JP 모건 같은 업체도 하둡을 쓰고, 페이스북도 열심히 쓰고 있다. 하둡 관련 스타트업도 많이 생겼고, 투자도 엄청나게 진행 중이다. 거품이랄까?

리얼 타임 분석?
HBase의 성장이 놀랍다. 사실 하둡을 쓰고 나서 데이터를 다른 nosql에 담는 비율이 높았는데, 이제는 HBase의 안정도가 높아졌다는 말이다. 특히, 리얼타임 분석에서 큰 비약적 발전이 있다. 내년도 연구 주제인 시맨틱 센서 데이터의 리얼 타임 빅데이터 분석에 HBase를 기본으로 가야 할까 보다.

쉽게 사용할 수 있어야?
콘퍼런스의 분위기가 웬지 무겁고 이상했다. 가만 생각해보니 여기 있는 사람들이 고급 개발자거나 데이터 분석을 하는 경우가 많다 보니... 다른 기술 콘퍼런스와 좀 다른 분위기다.

데이터를 집어 넣기는 쉬워도 빼기는 어려운게 하둡이다. 그만큼 복잡하고 고급 개발자만이 사용할 수 있을 정도로 좀 복잡하다. 데이터를 넣고 빼기가 쉬워야 한다. 아마 올해 콘퍼런스에도 이런 부분이 많이 논의 된 듯.

첫날 키노트 보러 가서 매우 놀랐다. 거의 천 명이 넘는 사람이 앉아 있는게 아닌가? 듣기에 야후!가 실리콘밸리에서 주최하는 Hadoop Summit과 클라우데라가 어쩔 수 없이 동부인 뉴욕에서 Hadoop World를 하고 있다고 한다.

규모면에서는 Hadoop World가 더 커지고 있고, 실제로 야후!의 하둡 개발자 대부분이 창업 및 이직으로 야후의 입김이 점점 약화되는 느낌도...