[2] 데이터 탐색 & 분석
데이터 탐색 탐색 부분은 적재된 데이터를 가공하고 데이터를 이해하는 단계다. 데이터 이해란, 데이터 패턴, 관계등 찾기인데 이를 EDA라 한다. 빅데이터 웨어하우스는 크게 3개로 구성된다. 빅데이터 레이크, 빅데이터 웨어하우스, 빅 데이터 마트이다. 빅데이터 레이크는 수집 부분에서 Flume, Storm등에서 수집한 크고 작은 반정형, 비정형 데이터가 축적되는 곳이다. 빅데이터 레이크에서 데이터가 가공되면, 빅데이터 웨어하우스가 된다. 빅데이터 웨어하우스는 반정규화 Hive 모델이라고 부르기도 하며, EDA가 가능한 부분이며, EDA를 통한 집계, 요약으로 빅데이터 마트를 만든다. 빅데이터 마트는 분석 주제 영역별로 나눌 수 있고, 컬럼지향 Hive 모델이다. 그래서 빅데이터 레이크에서 추출하고, 빅데이..
2023. 12. 4.