본문 바로가기

데이터엔지니어링/빅데이터3

Hive, Presto, Impala Hive Hive는 Hadoop ecosystem에서 데이터 웨어하우스 시스템을 담당하고 있으며, 대규모 배치 처리를 하는 쿼리 엔진이며, 데이터양에 좌우되지 않는 쿼리 엔진이다. Hive는 Hive Metastore가 있는데, 여기는 데이터들을 저장하고 스키마를 이용해 구조화하여 저장하는 곳이다. 특히, 텍스트 데이터를 가공하거나 열 지향 스토리지를 만드는것 같은 무거운 처리의 경우 Hive를 사용하는게 적합하다. Hive의 특징 및 한계 특징 Hive는 빠르고 확장성이 있다. MapReduce 나 Spark 작업으로 변환되는 SQL 같은 쿼리를 제공한다. HDFS에 저장된 대용량 데이터 세트를 분석 가능하다. 인덱싱을 사용해 쿼리를 가속화한다. Hadoop 에코시스템에 저장된 압축 된 데이터에서 작동.. 2023. 2. 24.
Hadoop 도입 Hadoop은 분산 데이터 처리의 공통 플랫폼으로, 다음과 같은 구조로 다양한 소프트웨어로 구성되어 있다. Hadoop의 기본 구성 요소는 '분산 파일 시스템(distributed file system)'인 'HDFS(Hadoop Distributed File System)', '리소스 관리자(resource manager)'인 'YARN(Yet Another Resource Negotiator)' 그리고 '분산 데이터 처리(distributed data processing)'의 기반인 'MapReduce'로 이루어져 있으며, 이 외의 프로젝트는 Hadoop과 독립적으로 개발되어 Hadoop을 이용한 분산 어플리케이션으로 동작한다 즉, 모든 분산 시스템이 Hadoop에 의존적인것이 아니라, Hadoop을.. 2023. 2. 17.
데이터 웨어하우스, 레이크, 마트, ETL 테이블의 칼럼 명, 데이터 형, 테이블 간의 관계 등을 스키마라고 하는데, 이 스키마가 명확하게 정의된 데이터를 '구조화된 데이터(structured data, 정형 데이터)'라고 한다. 텍스트 데이터와 이미지, 음성, 동영상 등의 미디어 데이터 등 스키마가 없는 데이터는 '비구조화 데이터(unstructured data, 비정형 데이터)'라고 한다. 정형 데이터는 SQL로 집계가 가능하고, 비정형 데이터는 불가능하다. 예전의 데이터 웨어하우스와 데이터 레이크는 정형데이터와 비정형데이터로 각 각 축적하는것이 일반적이었다. 현재의 데이터 웨어하우스는 주로 정형데이터를 기반으로 트랜잭션 시스템이나 비즈니스 의사결정을 지원할 수 있는 분석 작업 목적으로 데이터를 구성된다. 데이터 레이크는 데이터의 형태와 관계.. 2023. 2. 6.