본문 바로가기
데이터엔지니어링/빅데이터

데이터 웨어하우스, 레이크, 마트, ETL

by 잼있는잼니 2023. 2. 6.

테이블의 칼럼 명, 데이터 형, 테이블 간의 관계 등을 스키마라고 하는데, 이 스키마가 명확하게 정의된 데이터를 '구조화된 데이터(structured data, 정형 데이터)'라고 한다.

 

텍스트 데이터와 이미지, 음성, 동영상 등의 미디어 데이터 등 스키마가 없는 데이터는 '비구조화 데이터(unstructured data, 비정형 데이터)'라고 한다.

 

정형 데이터는 SQL로 집계가 가능하고, 비정형 데이터는 불가능하다.

 

예전의 데이터 웨어하우스와 데이터 레이크는 정형데이터와 비정형데이터로 각 각 축적하는것이 일반적이었다.

 

현재의 데이터 웨어하우스는 주로 정형데이터를 기반으로 트랜잭션 시스템이나 비즈니스 의사결정을 지원할 수 있는 분석 작업 목적으로 데이터를 구성된다.

 

데이터 레이크데이터의 형태와 관계없이 데이터를 빠르게 저장하기 위해 등장하였으며, 정형, 반정형 및 비정형 등 모든 데이터를 저장하는게 목적이며, 가공되지 않은 데이터가 저장되기때문에 이런 데이터를 '원시 데이터(raw data)'라고 부른다.

 

데이터 웨어하우스나 데이터 마트가 '분석'을 목적으로 데이터를 저장시킨다면, 데이터 레이크는 '저장'을 목적으로 데이터를 저장한다.

 

데이터 레이크에 들어온 데이터는 데이터 웨어하우스나 데이터 베이스에 옮겨지는 목적이 있기때문에 ETL 도구들과 호환성이 좋은 저장소를 택하는게 좋다.

또한, 주기적으로 저장된 데이터를 소멸시켜주는게 좋다고 하는데 그러지 않을시엔 dark data(불필요한 데이터)가 계속 쌓여서 비용적 측면이나 속도적 측면에서 문제가 발생할 수 있기 때문이다.

 

데이터 마트는 특정 목적을 가진 분석에 맞는 데이터를 다루기 위해서 구축되는 것으로, 데이터 웨어하우스에서 각 분석 목적에 맞는 데이터를 따로 빼 놓은 저장소로 보면된다.

데이터 웨어하우스에서 데이터를 가져오기 때문에 데이터 마트 역시 정형 데이터이며, 관계형 데이터베이스를 사용한다.

데이터 마트를 구축하면 조회 시간과 비용을 아낄 수 있는 장점이 있고, 데이터 권한에 대한 관리도 가능하다.

 

ETL은 소스 데이터베이스에서 데이터를 추출하고(Extract) 분석에 적합한 방식으로 변환하고(Trasform) 데이터를 적재하는(Load) 작업이며, 각 과정의 앞 글자만 따서 ETL이라는 데이터를 옮기는 과정을 말한다.

원시 데이터를 정리 및 구성해서 분석이나 학습용으로 준비하기 위해서 이용한다고 보면 될 것 같다.

 

ELT추출, 적재, 변환의 과정으로 대량의 비정형 데이터 세트에 적합한 과정이며,

데이터 추출 및 저장 후 분석을 위한 계획을 수립할 수 있기때문에 빅 데이터에도 이상적이며, 변환 작업은 분석시에 수행하고, 최소한의 처리만 된 원시 데이터(raw data)를 데이터 웨어하우스에 로드하는데 초점을 맞춘다고 생각하면 된다.

 

데이터 양이 많으면 ELT 방식을 이용하고, 데이터 양이 많지 않으면 ETL 방식을 이용하는 것이 좋다고 생각하는데, 여기서 데이터 양이 많다 적다의 기준은 현업에서 데이터의 양을 보고 판단해야 할 것 같다.

'데이터엔지니어링 > 빅데이터' 카테고리의 다른 글

Hive, Presto, Impala  (0) 2023.02.24
Hadoop 도입  (1) 2023.02.17

댓글