Data Sources (데이터 소스)
데이터 소스는 기업의 다양한 시스템에서 발생하는 원천 데이터를 의미한다. 이를테면, 마케팅, 주문, 재고 관리 등 기업이 운영되는 과정에서 발생하는 모든 데이터를 원천 시스템이라고 부르며, 이 데이터가 저장되는 곳을 데이터 소스라고 한다.
데이터 소스는 해당 시스템에서 최초로 생성된 데이터를 보관하는 역할을 한다. 예를 들어, 마케팅 활동의 결과 데이터는 마케팅 DB에, 주문 시스템에서 발생한 주문 데이터는 주문 DB에 저장된다. 이러한 시스템을 원천 시스템 또는 데이터 소스라고 칭하며, 여기서 생성된 원본 데이터를 활용해 다양한 분석 및 비즈니스 활동이 진행된다.
Data Lake (데이터 레이크)
데이터 레이크는 다양한 원천 시스템에서 수집된 대량의 데이터를 저장하는 공간을 의미한다. 이곳에서는 정제되지 않은 원본 데이터가 그대로 저장되며, 마치 하나의 거대한 호수처럼 무분별하게 데이터가 흘러 다닌다고 볼 수 있다.
데이터 레이크의 주요 특징은 구조화된 데이터뿐만 아니라 비구조화된 데이터도 함께 저장된다는 점이다. 다양한 소스에서 수집한 데이터를 데이터 레이크에 적재해두면, 이후 필요에 따라 데이터를 추출해 분석하거나 처리할 수 있다.
대표적인 데이터 레이크 시스템으로는 Hadoop이 많이 사용된다.
데이터 레이크에 직접 접근하여 데이터를 분석하는 것도 가능하지만, 대개 데이터는 목적에 맞게 별도의 저장소로 이동시키거나 정제되어 사용된다.
Data Sources 와 Data Lake 차이점
Data Source (데이터 소스)
- 데이터의 생성 위치: Data Source는 원천 시스템이다. 즉, 데이터를 최초로 생성하는 시스템을 말한다. 예를 들어, 고객의 주문이 발생하면 그 주문 데이터는 바로 주문 시스템에 저장되며, 이 주문 시스템이 바로 Data Source다. 즉, 기업의 다양한 운영 시스템에서 실시간으로 발생하는 데이터를 바로 보관하는 저장소다.
- 원본 데이터: Data Source는 가공되지 않은 원본 데이터를 저장하는 곳이다. 여기서는 데이터가 분석이나 다른 목적을 위해 따로 가공되지 않고, 실시간으로 발생하는 상태 그대로 저장된다.
Data Lake (데이터 레이크)
- 데이터의 집합: Data Lake는 다양한 Data Sources에서 데이터를 수집하여 한 곳에 저장하는 공간이다. 여러 Data Source에서 데이터를 가져와 중앙에 통합된 저장소로 생각할 수 있다. 여기에는 각 시스템에서 발생한 데이터를 그대로 가져오기 때문에, 구조화된 데이터뿐만 아니라 비구조화된 데이터도 포함된다.
- 분석을 위한 저장소: Data Lake는 분석을 위한 목적으로 데이터를 모아두기 위한 공간이다. 데이터가 실시간으로 발생하는 것이 아니라, 분석이나 저장을 목적으로 수집된 데이터가 저장되는 곳이다. 따라서 모든 원천 시스템에서 데이터를 불러와 한 곳에 모아두는 일종의 대규모 저장소다.
- 정제되지 않은 상태: Data Lake는 다양한 형식의 데이터를 받아들이기 때문에, 데이터가 정제되지 않고 비정형적인 상태로 존재하는 경우가 많다. 즉, 분석을 위한 준비 단계로 데이터를 수집해 놓은 것이지, 필요한 대로 가공된 상태는 아니다.
주요 차이점
- 데이터의 위치: Data Source는 데이터를 최초로 생성하는 시스템이고, Data Lake는 그 데이터를 모아두는 저장소다.
- 저장 목적: Data Source는 시스템 운영을 위해 데이터를 실시간으로 저장하는 데 반해, Data Lake는 분석을 위해 데이터를 수집해 놓은 공간이다.
- 데이터의 성격: Data Lake는 여러 출처에서 수집된 데이터로, 정형, 비정형 데이터 모두를 담을 수 있고, Data Source는 특정 시스템에서 발생한 원천 데이터만을 포함한다.
즉, Data Lake는 다양한 Data Source에서 데이터를 가져와 분석을 목적으로 통합 저장하는 반면, Data Source는 개별 시스템의 원천 데이터를 저장하는 곳이라는 점이 가장 큰 차이점이다. Data Lake가 불필요한 데이터를 거른다는 의미는 아니며, 오히려 모든 데이터를 그대로 모아놓기 때문에 더 많은 데이터를 저장하고 있다고 볼 수 있다.
Data Warehouse (데이터 웨어하우스)
데이터 웨어하우스는 특정 목적을 가지고 데이터를 저장하는 창고다. 데이터 레이크에 저장된 원본 데이터를 정제하여 분석에 최적화된 형태로 저장하는 공간이 바로 데이터 웨어하우스다.
데이터 웨어하우스는 다양한 비즈니스 요구에 맞게 데이터를 구조화하고, 분석에 용이하도록 설계된다. 예를 들어, 매출 데이터만을 저장하는 ‘매출 웨어하우스’나 고객 데이터를 위한 ‘고객 웨어하우스’를 따로 구축할 수 있다. 데이터 웨어하우스는 주로 구조화된 데이터를 저장하며, 이를 기반으로 보다 정교한 분석이 가능하다.
오늘날 많은 기업이 Snowflake 같은 클라우드 기반의 데이터 웨어하우스 플랫폼을 통해 데이터 레이크와 데이터 웨어하우스, 그리고 데이터 마트를 쉽게 연결해 활용하고 있다.
Data Mart (데이터 마트)
데이터 마트는 특정 비즈니스 프로젝트에 맞게 데이터를 더 세분화하여 저장하는 공간이다. 데이터 마트는 주로 데이터 웨어하우스에서 필요한 데이터만 추출해 만든다.
예를 들어, 구매 이력을 분석하기 위해 ‘구매 데이터 마트’를 만들 수 있고, 고객 중심의 분석을 위해 ‘고객 데이터 마트’를 만들 수도 있다. 이러한 데이터 마트는 프로젝트의 목표에 맞게 데이터를 간편하게 활용할 수 있도록 설계된다.
또한, 데이터 마트는 기존에 정리된 데이터셋에서 필요한 부분만을 가져와 효율적으로 분석을 수행할 수 있도록 돕는다. 분석가는 데이터 마트를 기반으로 프로젝트에 맞는 데이터셋을 생성하고, 이를 통해 분석 작업을 신속하게 진행할 수 있다.
만약에 구매이력과 고객 데이터를 활용해서 새로운 프로젝트를 시작한다 했을 때 Data Lake에서 긁어와서 만드는 게 아니라 이미 만들어진 데이터 마트에 대한 명세를 보고 필요한 컬럼만 가져간다던지, 두 데이터 마트의 데이터를 merge 해서 초기 데이터셋을 만드는 작업을 할 수 있다.
요약
데이터 소스, 데이터 레이크, 데이터 웨어하우스, 데이터 마트는 모두 데이터를 관리하고 활용하는 중요한 개념들이다. 데이터 소스는 원천 데이터를 저장하고, 데이터 레이크는 다양한 소스에서 수집된 데이터를 정제하지 않고 그대로 저장하며, 데이터 웨어하우스는 분석에 최적화된 형태로 데이터를 저장한다. 마지막으로, 데이터 마트는 특정 분석 목적에 맞게 필요한 데이터만을 추출해 저장하는 공간이다.
'ML' 카테고리의 다른 글
WandB 사용법 (4) | 2024.11.09 |
---|---|
KMeans 추천 시스템 모델 서빙할 때 데이터셋까지 필요한 이유 (4) | 2024.10.29 |
p-value, R²(결정 계수), β(베타 계수) 해석 (3) | 2024.09.25 |
선형회귀분석과 머신러닝의 차이 (0) | 2024.09.20 |
선형 회귀모델과 상관관계 분석 (1) | 2024.09.04 |