본문 바로가기
데이터엔지니어링/견데엔

[Chapter 1] 데이터 엔지니어링

by 잼있는잼니 2023. 11. 3.

 

이 책에서는 다음과 같이 데이터 엔지니어링과 데이터 엔지니어를 정의한다.

 

데이터 엔지니어링은 원시 데이터(raw data)를 가져와 분석 및 머신러닝과 같은 다운스트림 사용 사례를 지원하는, 고품질의 일관된 정보를 생성하는 시스템과 프로세스의 개발, 구현 및 유지 관리이다. 데이터 엔지니어링은 보안, 데이터 관리, 데이터 운영, 데이터 아키텍처, 오케스트레이션, 소프트웨어 엔지니어링의 교차점이다.

 

데이터 엔지니어는 원천 시스템에서 데이터를 가져오는 것부터 시작해 분석 또는 머신러닝과 같은 사용 사례에 데이터를 제공하는 것으로 끝나는 데이터 엔지니어링 수명 주기를 관리한다.

 


데이터 엔지니어링 수명 주기라는 아이디어를 중심보면 데이터는 생성, 저장, 수집, 변환, 서빙 뿐만 아니라 드러나지 않는 요소인 보안, 데이터 관리, 데이터옵스, 데이터 아키텍처, 오케스트레이션, 소프트웨어 엔지니어링 까지 포함을 한다.

 


 

데이터 엔지니어링은 데이터 과학 및 분석과 별개이나, 서로 보완한다. 

데이터 과학자는 보통 데이터 시스템을 엔지니어링 하지 않으며, 이를 데이터 엔지니어가 보완해준다.

데이터 과학 욕구 단계

 


데이터 엔지니어에는 다음과 같이 A형, B형 데이터 엔지니어로 구분이 가능하다.

 

A는 추상화를 의미한다. A형 데이터 엔지니어의 경우 데이터 엔지니어는 차별화되지 않은 과중한 작업을 피하고, 데이터 아키텍처를 가능한 한 추상적이고 단순하게 유지함으로써 시간 낭비를 피한다. 

 

B는 구축을 의미한다. B형 데이터 엔지니어의 경우 기업의 핵심 역략과 경쟁 우위를 확장하고 활용할 데이터 도구와 시스템을 구축한다. B형 데이터 엔지니어는 맞춤형 데이터 도구가 필요한 회사에서 더 많이 찾아볼 수 있다.


 

 

댓글