데이터 웨어하우스 대 데이터 레이크 대 데이터 레이크하우스

차례[숨다][보여 주다]

데이터 웨어하우스란 무엇입니까?+-
데이터 레이크란?+-
데이터 레이크하우스란?+-
데이터 웨어하우스 대 데이터 레이크 대 데이터 레이크하우스
결론

기업은 중요한 비즈니스 결정을 알리고 제품 제안을 개선하며 더 나은 고객 서비스를 제공하기 위해 데이터에 점점 더 의존함에 따라 그 어느 때보다 더 많은 데이터를 수집하고 있습니다.

기하급수적으로 생성되는 데이터의 양이 증가함에 따라 클라우드는 확장성, 신뢰성 및 가용성을 포함하여 데이터 처리 및 분석에 대한 여러 이점을 제공합니다.

클라우드 생태계에는 데이터 처리 및 분석을 위한 여러 도구와 기술도 있습니다. 가장 자주 활용되는 두 가지 유형의 빅 데이터 저장 구조는 데이터 웨어하우스와 데이터 레이크입니다.

데이터 레이크를 활용하는 것은 여전히 관련성이 있는 동안 모델과 데이터를 쿼리할 수 없기 때문에 덜 매력적이지만 스트리밍 데이터 저장을 위해 데이터 웨어하우스를 사용하는 것은 낭비입니다.

데이터웨어 하우스

W우리는 어떤 유형의 클라우드 아키텍처를 선택합니까?

데이터 레이크하우스에 대한 새로운 개념을 고려해야 합니까, 아니면 웨어하우스의 제약 또는 레이크의 제약에 만족해야 합니까?

"데이터 레이크하우스"라고 하는 새로운 데이터 스토리지 아키텍처는 데이터 레이크의 적응성과 데이터 웨어하우스의 데이터 관리를 결합합니다.

다양한 빅 데이터 저장 방법을 이해하는 것은 비즈니스 인텔리전스(BI), 데이터 분석 및 기계 학습 (ML) 회사의 요구 사항에 따른 워크로드.

이번 포스트에서는 Data Warehouse, Data Lake, Data Lakehouse에 대해 장단점과 장단점을 자세히 살펴보겠습니다. 의 시작하자.

데이터 웨어하우스란 무엇입니까?

데이터 웨어하우스는 조직에서 여러 소스에서 가져온 엄청난 양의 데이터를 보관하는 데 사용하는 중앙 집중식 데이터 리포지토리입니다. 데이터 웨어하우스는 조직의 "데이터 진실"의 단일 소스 역할을 하며 보고 및 비즈니스 분석에 필수적입니다.

일반적으로 데이터 웨어하우스는 애플리케이션, 비즈니스 및 트랜잭션 데이터와 같은 여러 소스의 관계형 데이터 세트를 결합하여 기록 데이터를 저장합니다. 웨어하우징 시스템에 로드되기 전에 데이터는 데이터 웨어하우스에서 변환되고 정리되어 데이터 진실의 단일 소스로 사용할 수 있습니다.

데이터 웨어하우스 순서도

기업의 모든 영역에서 비즈니스 통찰력을 신속하게 제공할 수 있는 능력으로 인해 기업은 데이터 웨어하우스에 투자합니다. BI 도구, SQL 클라이언트 및 기타 덜 정교한(예: 비데이터 과학) 분석 솔루션을 사용하여 비즈니스 분석가, 데이터 엔지니어 및 의사 결정자는 데이터 웨어하우스의 데이터에 액세스할 수 있습니다.

계속해서 증가하는 데이터 볼륨으로 웨어하우스를 유지하는 데 비용이 많이 들고 데이터 웨어하우스는 원시 또는 비정형 데이터를 처리할 수 없습니다. 또한 기계 학습 또는 예측 모델링과 같은 정교한 데이터 분석 기술에는 이상적인 옵션이 아닙니다.

따라서 데이터 웨어하우스는 더 빠른 쿼리 응답과 더 높은 품질의 데이터를 제공합니다. Google Big Query, Amazon Redshift, Azure SQL Data Warehouse 및 Snowflake는 데이터 웨어하우스에 사용할 수 있는 클라우드 서비스입니다.

데이터 웨어하우스의 이점

비즈니스 인텔리전스 및 데이터 분석 워크로드의 효율성과 속도 향상: 데이터 웨어하우스는 데이터 준비 및 분석에 필요한 시간을 단축합니다. 데이터 웨어하우스의 데이터는 안정적이고 일관성이 있으므로 데이터 분석 및 비즈니스 인텔리전스 도구에 쉽게 연결할 수 있습니다. 또한 데이터 웨어하우스는 데이터 수집에 필요한 시간을 절약하고 팀이 보고서, 대시보드 및 기타 분석 요구 사항에 데이터를 사용할 수 있는 기능을 제공합니다.
데이터의 일관성, 품질 및 표준화 향상: 조직은 사용자, 판매 및 거래 데이터를 포함한 다양한 소스에서 데이터를 수집합니다. 데이터 웨어하우징은 데이터 진실의 단일 소스 역할을 할 수 있는 균일하고 표준화된 형식으로 기업 데이터를 컴파일하기 때문에 회사는 비즈니스 요구 사항에 대한 데이터를 신뢰할 수 있습니다.
전반적인 의사 결정 향상: 데이터 웨어하우징은 최근 데이터와 오래된 데이터를 모두 중앙 집중식으로 저장할 수 있어 더 나은 의사 결정을 내릴 수 있도록 도와줍니다. 정확한 통찰력을 얻기 위해 데이터 웨어하우스에서 데이터를 처리함으로써 의사 결정자는 위험을 평가하고 고객의 요구를 이해하며 상품과 서비스를 향상시킬 수 있습니다.
더 나은 비즈니스 인텔리전스 제공: 데이터 웨어하우징은 일상적으로 자주 수집되는 방대한 원시 데이터와 인사이트를 제공하는 선별된 데이터 간의 격차를 해소합니다. 이는 조직의 데이터 저장소의 기초 역할을 하여 데이터에 대한 복잡한 질문에 답하고 응답을 활용하여 방어 가능한 비즈니스 결정을 내릴 수 있도록 합니다.

데이터 웨어하우스의 한계

데이터 유연성 부족: 데이터 웨어하우스는 정형 데이터를 처리하는 데 탁월하지만 로그 분석, 스트리밍 및 소셜 미디어 데이터와 같은 반정형 및 비정형 데이터 형식은 어려울 수 있습니다. 이를 통해 머신 러닝 및 인공 지능 어려운.
설치 및 유지 관리 비용이 많이 듭니다.: 데이터 웨어하우스는 설치 및 유지 관리 비용이 많이 들 수 있습니다. 또한 데이터 웨어하우스는 종종 정적이지 않습니다. 오래되고 유지 보수가 자주 필요하므로 비용이 많이 듭니다.

장점

데이터는 찾고 검색하고 쿼리하기 쉽습니다.
데이터가 이미 정리되어 있는 한 SQL 데이터 준비는 간단합니다.

단점

하나의 분석 공급업체만 사용해야 합니다.
구조화되지 않거나 흐르는 데이터를 분석하고 저장하는 데는 상당한 비용이 듭니다.

데이터 레이크란?

데이터 레이크는 모든 유형의 데이터를 약속하고 가능하게 합니다. 액세스 가능한 방식으로 데이터를 중앙에 배치하고 읽을 수 있도록 하는 것이 좋습니다.

데이터 레이크는 대규모의 조직화 및 비정형 데이터가 처리되지 않고 변경되지 않고 형식이 지정되지 않은 형태로 보관되는 중앙 집중식의 매우 적응력이 뛰어난 저장 공간입니다.

데이터 레이크는 이전에 "정리된" 관계형 데이터를 저장하는 데이터 웨어하우스와 달리 처리되지 않은 상태로 저장된 개체와 플랫 아키텍처를 사용합니다.

이 형식의 데이터를 처리하는 데 어려움이 있는 데이터 웨어하우스와 달리 데이터 레이크는 적응 가능하고 안정적이며 저렴하며 기업이 비정형 데이터에서 향상된 통찰력을 얻을 수 있도록 합니다.

데이터 레이크 순서도

데이터 레이크에서는 데이터 수집 시 스키마나 데이터를 설정하지 않고 분석 목적으로 데이터를 추출, 로드 및 변환(ELT)합니다.

IoT 디바이스에서 다양한 데이터 종류에 대한 기술을 활용하여, 소셜 미디어, 스트리밍 데이터, 데이터 레이크는 기계 학습 및 예측 분석을 가능하게 합니다.

또한 원시 데이터를 처리할 수 있는 데이터 과학자는 데이터 레이크를 사용할 수 있습니다. 반면 데이터 웨어하우스는 기업에서 사용하기 더 쉽습니다. 사용자 프로파일링에 적합하며, 예측 분석, 기계 학습 및 기타 작업.

데이터 레이크는 데이터 웨어하우스와 관련된 여러 문제를 해결하지만 데이터 품질이 낮고 쿼리 속도가 충분하지 않습니다. 또한 비즈니스 사용자가 SQL 쿼리를 수행하려면 추가 도구가 필요합니다. 구조화되지 않은 데이터 레이크는 데이터 정체 문제가 발생할 수 있습니다.

데이터 레이크의 이점

다양한 머신 러닝 및 데이터 과학 애플리케이션 사례 지원 데이터가 공개된 원시 방식으로 유지되므로 데이터 레이크의 데이터를 처리하기 위해 다른 머신 및 딥 러닝 알고리즘을 사용하는 것이 더 간단합니다.
미리 설정된 스키마 없이 모든 형식이나 미디어로 데이터를 저장할 수 있는 Data Lakes의 다용성은 큰 장점입니다. 향후 데이터 사용 사례를 지원할 수 있으며 데이터를 원래 상태로 유지하면 더 많은 데이터를 분석할 수 있습니다.
다양한 컨텍스트에서 두 가지 유형의 데이터를 모두 저장해야 하는 것을 피하기 위해 데이터 레이크에는 구조화된 데이터와 구조화되지 않은 데이터가 모두 포함될 수 있습니다. 다양한 종류의 조직 데이터를 저장하기 위해 단일 위치를 제공합니다.
기존 데이터 웨어하우스와 비교할 때 데이터 레이크는 저장 기가바이트당 더 낮은 비용에 맞춰져 있는 개체 스토리지와 같은 저렴한 상용 하드웨어에 유지되도록 구축되었기 때문에 비용이 저렴합니다.

데이터 레이크의 한계

데이터 분석 및 비즈니스 인텔리전스 사용 사례의 점수가 낮음: 데이터 레이크가 적절하게 유지 관리되지 않으면 조직화되지 않을 수 있으므로 비즈니스 인텔리전스 및 분석 도구에 연결하기 어렵습니다. 또한 보고 및 분석 사용 사례에 필요한 경우 일관된 데이터 구조 및 ACID(원자성, 일관성, 격리 및 내구성) 트랜잭션 지원으로 인해 쿼리 성능이 최적화되지 않을 수 있습니다.
데이터 레이크의 비일관성은 데이터 신뢰성과 보안을 강화하는 것을 불가능하게 하여 결과적으로 둘 다 부족하게 만듭니다. 데이터 레이크는 모든 데이터 형식을 처리할 수 있으므로 민감한 데이터 유형에 맞는 적절한 데이터 보안 및 거버넌스 표준을 개발하기 어려울 수 있습니다.

장점

모든 유형의 데이터에 적합한 솔루션입니다.
조직화된 데이터와 반구조화된 데이터를 모두 처리할 수 있습니다.
복잡한 데이터 처리 및 스트리밍에 이상적입니다.

단점

구축하려면 정교한 파이프라인이 필요합니다.
데이터가 쿼리 가능해질 때까지 시간을 주십시오.
데이터 신뢰성과 품질을 보장하는 데 시간이 걸립니다.

데이터 레이크하우스란?

"데이터 레이크하우스"라고 하는 새로운 빅 데이터 스토리지 아키텍처는 데이터 레이크와 데이터 웨어하우스의 가장 큰 측면을 결합합니다. 데이터 레이크하우스 덕분에 정형, 반정형 또는 비정형에 관계없이 모든 데이터를 최고의 머신 러닝, 비즈니스 인텔리전스 및 스트리밍 기능을 통해 한 위치에 저장할 수 있습니다.

모든 종류의 데이터 레이크는 종종 데이터 레이크하우스의 출발점이 됩니다. 그 후 데이터는 Delta Lake 형식(데이터 레이크에 안정성을 제공하는 오픈 소스 스토리지 계층)으로 변환됩니다.

데이터 레이크하우스 흐름도

델타 레이크가 있는 데이터 레이크는 기존 데이터 웨어하우스에서 ACID 트랜잭션 절차를 가능하게 합니다. 본질적으로, 레이크하우스 시스템은 데이터 레이크와 마찬가지로 대량의 데이터를 원래 형태로 유지하기 위해 저렴한 스토리지를 사용합니다.

스토어 상단에 메타데이터 레이어를 추가하면 데이터 구조를 제공하고 데이터 웨어하우스에서 볼 수 있는 것과 같은 데이터 관리 도구를 강화할 수 있습니다.

이를 통해 많은 팀이 데이터 과학, 기계 학습 및 비즈니스 인텔리전스와 같은 다양한 이니셔티브를 위한 단일 시스템을 통해 모든 회사 데이터에 액세스할 수 있습니다.

데이터 레이크하우스의 이점

광범위한 워크로드 지원: 정교한 분석을 용이하게 하기 위해 데이터 레이크하우스는 사용자가 가장 인기 있는 비즈니스 인텔리전스 도구(Tableau, PowerBI)에 직접 액세스할 수 있도록 합니다. 또한 데이터 레이크하우스는 Python/R과 같은 API 및 기계 학습 프레임워크와 함께 개방형 데이터 형식(Parquet 등)을 사용하기 때문에 데이터 과학자와 기계 학습 엔지니어는 데이터를 쉽게 사용할 수 있습니다.
비용 효율성: 데이터 레이크하우스는 저렴한 개체 스토리지 솔루션을 사용하여 데이터 레이크의 비용 효율적인 스토리지 특성을 구현합니다. 단일 솔루션을 제공함으로써 데이터 레이크하우스는 다양한 데이터 스토리지 시스템 관리와 관련된 비용과 시간도 없앨 수 있습니다.
데이터 레이크하우스 설계는 스키마와 데이터 무결성을 보장하므로 효과적인 데이터 보안 및 거버넌스 시스템을 더 간단하게 구축할 수 있습니다. 편이성 데이터 버전 관리, 거버넌스 및 보안.
데이터 레이크하우스는 회사의 모든 데이터 요구를 수용할 수 있는 단일 다목적 데이터 스토리지 플랫폼을 제공하여 데이터 중복을 줄입니다. 대부분의 기업은 데이터 웨어하우스와 데이터 레이크의 이점 때문에 하이브리드 솔루션을 선택합니다. 한편, 이 전략은 값비싼 데이터 중복을 초래할 수 있습니다.
개방형 형식 지원. 개방형 형식은 많은 소프트웨어 응용 프로그램에서 사용할 수 있고 사양이 공개적으로 사용 가능한 파일 형식입니다. 보고서에 따르면 Lakehouses는 Apache Parquet 및 ORC(Optimized Row Columnar)와 같은 일반적인 파일 형식으로 데이터를 저장할 수 있습니다.

데이터 레이크하우스의 한계

데이터 레이크하우스의 가장 큰 단점은 아직 어리고 개발 중인 기술이라는 것입니다. 그 결과 공약을 이행할지는 미지수다. 데이터 레이크하우스가 기존의 빅 데이터 스토리지 시스템과 경쟁할 수 있으려면 몇 년이 걸릴 수 있습니다.

그러나 현대의 혁신이 일어나고 있는 속도를 고려할 때 다른 데이터 스토리지 시스템이 궁극적으로 이를 대체하지 않을 것이라고 말하기는 어렵습니다.

장점

하나의 플랫폼에 모든 데이터가 있으므로 유지 관리할 호스트 이름이 더 적습니다.
원자성, 일관성, 격리 및 인성은 영향을 받지 않습니다.
훨씬 더 저렴합니다.
하나의 플랫폼에 모든 데이터가 있으므로 유지 관리할 호스트 이름이 더 적습니다.
관리가 간편하고 모든 문제를 신속하게 해결
파이프라인을 더 간단하게 구성

단점

설정하는 데 시간이 걸릴 수 있습니다.
기존 스토리지 시스템으로 인정받기에는 너무 어리고 너무 멀리 떨어져 있습니다.

데이터 웨어하우스 대 데이터 레이크 대 데이터 레이크하우스

데이터 웨어하우스는 기업 인텔리전스, 보고 및 분석 애플리케이션에서 오랜 역사를 가지고 있으며 최초의 빅 데이터 스토리지 기술입니다.

반면에 데이터 웨어하우스는 가격이 비싸고 스트리밍 데이터와 같이 다양하고 비정형 데이터를 처리하는 데 어려움이 있습니다. 기계 학습 및 데이터 과학 워크로드의 경우 데이터 레이크는 저렴한 스토리지에서 다양한 형태의 원시 데이터를 관리하기 위해 개발되었습니다.

데이터 레이크는 비정형 데이터에 효과적이지만 데이터 웨어하우스의 ACID 트랜잭션 기능이 부족하여 데이터 일관성과 신뢰성을 보장하기 어렵습니다.

"데이터 레이크하우스"로 알려진 최신 데이터 스토리지 아키텍처는 데이터 웨어하우스의 신뢰성 및 일관성과 데이터 레이크의 경제성 및 적응성을 결합합니다.

결론

결론적으로 데이터 레이크하우스를 처음부터 구축하는 것은 어려울 수 있습니다. 또한 개방형 데이터 레이크하우스 아키텍처를 지원하도록 설계된 플랫폼을 사용하게 될 것입니다.

따라서 구매하기 전에 각 플랫폼의 많은 기능과 구현을 조사하는 데 신중을 기하십시오. 비즈니스 인텔리전스 및 데이터 분석 사용 사례에 중점을 둔 성숙하고 구조화된 데이터 솔루션을 찾는 회사는 데이터 웨어하우스를 고려할 수 있습니다.

그러나 비정형 데이터에 대한 데이터 과학 및 머신 러닝을 위한 워크로드를 강화하기 위해 확장 가능하고 경제적인 빅 데이터 솔루션을 찾는 기업은 데이터 레이크를 고려해야 합니다.

비즈니스에 데이터 웨어하우스 및 데이터 레이크 기술이 제공할 수 있는 것보다 더 많은 데이터가 필요하거나 데이터에 대한 정교한 분석 및 기계 학습 작업을 통합하는 솔루션을 찾고 있다는 점을 고려하십시오. ㅏ 데이터 레이크 하우스 상황에서 현명한 선택입니다.

데이터 웨어하우스 대 데이터 레이크 대 데이터 레이크하우스