Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[7주차] 데이터 레이크를 만들어야 합니다.. 뭘로하면 좋을까요 #41

Open
myeongjae-kim opened this issue Nov 14, 2023 · 3 comments

Comments

@myeongjae-kim
Copy link

저희 회사 DB 여러 개에 있는 내용을 조인해서 봐야할 필요가 생기고 있습니다

@wbluke
Copy link

wbluke commented Nov 14, 2023

역시 팀장님..

@jiwoo-kimm
Copy link

데이터마트와 데이터레이크는 둘 다 데이터를 저장하고 관리하는 방법이지만, 그들의 목적과 사용 방식에는 몇 가지 중요한 차이점이 있습니다.

데이터마트(Data Mart):
데이터마트는 특정 주제나 부서(예: 마케팅, 재무, 판매 등)에 초점을 맞춘 데이터 웨어하우스의 하위 집합입니다. 이는 특정 팀이나 업무 단위가 자신들의 데이터를 쉽게 이해하고 분석할 수 있도록 설계되어 있습니다. 데이터마트는 일반적으로 구조화된 데이터를 저장하며, 데이터의 품질과 일관성을 유지하는 데 중점을 둡니다.

데이터레이크(Data Lake):
데이터레이크는 구조화되지 않은 원시 데이터를 포함한 모든 유형의 데이터를 저장하는 대규모 저장소입니다. 이는 데이터가 생성되는 속도와 다양성을 처리할 수 있도록 설계되어 있습니다. 데이터레이크는 데이터를 원래의 형식으로 저장하며, 필요에 따라 데이터를 추출하고 변환(ETL)하는 데 사용됩니다. 이는 빅데이터 분석, 머신러닝, 인공지능 등과 같은 고급 분석에 이상적입니다.

따라서, 데이터마트는 특정 주제에 대한 깊이 있는 분석을 위해 구조화된 데이터를 저장하는 반면, 데이터레이크는 다양한 유형의 데이터를 저장하고 더 복잡한 분석을 수행하는 데 사용됩니다.

@myeongjae-kim
Copy link
Author

우빈: CDC로 한 곳에 모아보면 어떨까? 카프카 CDC 많이 쓴다 이벤트 소실되지 않도록

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants