본문 바로가기

빅데이터를 지탱하는 기술2

Hive, Presto, Impala Hive Hive는 Hadoop ecosystem에서 데이터 웨어하우스 시스템을 담당하고 있으며, 대규모 배치 처리를 하는 쿼리 엔진이며, 데이터양에 좌우되지 않는 쿼리 엔진이다. Hive는 Hive Metastore가 있는데, 여기는 데이터들을 저장하고 스키마를 이용해 구조화하여 저장하는 곳이다. 특히, 텍스트 데이터를 가공하거나 열 지향 스토리지를 만드는것 같은 무거운 처리의 경우 Hive를 사용하는게 적합하다. Hive의 특징 및 한계 특징 Hive는 빠르고 확장성이 있다. MapReduce 나 Spark 작업으로 변환되는 SQL 같은 쿼리를 제공한다. HDFS에 저장된 대용량 데이터 세트를 분석 가능하다. 인덱싱을 사용해 쿼리를 가속화한다. Hadoop 에코시스템에 저장된 압축 된 데이터에서 작동.. 2023. 2. 24.
Hadoop 도입 Hadoop은 분산 데이터 처리의 공통 플랫폼으로, 다음과 같은 구조로 다양한 소프트웨어로 구성되어 있다. Hadoop의 기본 구성 요소는 '분산 파일 시스템(distributed file system)'인 'HDFS(Hadoop Distributed File System)', '리소스 관리자(resource manager)'인 'YARN(Yet Another Resource Negotiator)' 그리고 '분산 데이터 처리(distributed data processing)'의 기반인 'MapReduce'로 이루어져 있으며, 이 외의 프로젝트는 Hadoop과 독립적으로 개발되어 Hadoop을 이용한 분산 어플리케이션으로 동작한다 즉, 모든 분산 시스템이 Hadoop에 의존적인것이 아니라, Hadoop을.. 2023. 2. 17.