출처 http://blog.naver.com/olpaemi/140206211167


하둡을 이용해서 지리 정보 데이터를 효율적으로 처리하는 방법

하둡을 이용해서 지리 정보 데이터를

최근에 스마트폰이 일상화되면서 가장 많은 양으로 발생하고 있는 데이터 중의 하나라 지리 정보 데이터(Geo-location Data)일 것입니다.

이전까지는 워낙 대량으로 실시간 생산되는 데이터라는 측면 때문에 이러한 데이터를 저장하고 처리해서 새로운 가치를 얻으려는 노력은 극소소의 인터넷 기업들 외에는 시도하기 힘들었습니다.

하지만 이러한 지리 정보 데이터(Geo-location Data)는 하둡이라는 시스템을 통해서 각종 자산의 이동을 추적(Asset Tracking)하는 단순한 용도에서 부터 최적화(Optimization)을 위한 예측 모델링(Predictive Modeling)에 이르기까지 광범위한 활용도를 가진 좋은 데이터 소스입니다.

아래 영상은 어떻게 운손회사가 지리 정보 데이터를 분석해서 연료 소비(Fuel costs)를 줄이고 운전수의 안전을 높히는 데 이용될 수 있는 지를 보여 줍니다.

이 데모를 통해서 지리 정보 데이터를 활용하기 위한 여러 가지 힌트와 하둡 에코시스템의 각 모듈을 이용하는 방법을 이해할 수 있습니다.
1. 플룸(Flueme)을 이용하여 지리 정보 데이터(Geo-location Data)를 스트리밍하여 하둡 파일시스템에 저장하는 방법
2. 스쿱(Sqoop)을 이용하여 관계형 데이터베이스와 같은 정형화된 정보를 하둡 파일시스템에 저장하는 방법
3. HCatalog를 이용하여 Raw Data를 데이터베이스처럼 볼 수 있는 뷰(View)를 만드는 방법
4. HIVE와 Pig를 사용하여 데이터를 정제하는 방법
5. 데이터를 ODBC Connector를 이용하여 엑셀로 보내서 분석하는 방법

여기서 설명하는 플룸(Flume), 스쿱(Sqoop)은 데이터 소스로부터 HDFS로 데이터를 저장하기 위한 ETL(Extraction, Transformation and Load) 모듈의 일종이라고 이해하면 되겠습니다.

실제로 하둡 프로젝트를 진행할 때는 어떻게 분산되어 있는 다양한 데이터 소스로부터 하둡 파일시스템(HDFS)에 데이터를 잘 저장할 것인가 하는 부분은 아주 중요합니다.
이 부분을 중점적으로 본다면 실제 프로젝트에 어떻게 적용되는 지에 대한 좋은 힌트를 얻을 수 있습니다.


Posted by null.
,