데이터 레이크하우스는 비즈니스를 위한 데이터 웨어하우스와 데이터 레이크 개념을 결합합니다.
이러한 도구를 사용하면 데이터 레이크의 관리 기능과 데이터 웨어하우스의 데이터 아키텍처를 결합하여 비용 효율적인 데이터 스토리지 솔루션을 구축할 수 있습니다.
또한 데이터 마이그레이션 및 중복성이 감소하고 관리에 소요되는 시간이 줄어들며 스키마 및 데이터 거버넌스 절차가 실제로 단축됩니다.
하나의 데이터 레이크하우스는 여러 솔루션이 있는 스토리지 시스템에 비해 많은 이점이 있습니다.
이러한 도구는 데이터 과학자가 비즈니스 인텔리전스 및 기계 학습 절차에 대한 이해를 향상시키기 위해 여전히 사용하고 있습니다.
이 기사에서는 데이터 레이크하우스, 그 기능 및 사용 가능한 도구를 간략하게 살펴봅니다.
데이터 레이크하우스 소개
"라고 불리는 새로운 종류의 데이터 아키텍처데이터 레이크 하우스"는 데이터 레이크와 데이터 웨어하우스를 결합하여 각각의 약점을 독립적으로 해결합니다.
데이터 레이크와 같은 레이크하우스 시스템은 저비용 스토리지를 사용하여 막대한 양의 데이터를 원래 형태로 유지합니다.
스토어 상단에 메타데이터 레이어를 추가하면 데이터 구조를 제공하고 데이터 웨어하우스에서 볼 수 있는 것과 유사한 데이터 관리 도구를 강화할 수 있습니다.
여기에는 기업 전체에서 사용되는 다양한 비즈니스 애플리케이션, 시스템 및 장치에서 얻은 방대한 양의 정형, 반정형 및 비정형 데이터가 포함되어 있습니다.
결과적으로 데이터 레이크와 달리 레이크하우스 시스템은 SQL 성능을 위해 해당 데이터를 관리하고 최적화할 수 있습니다.
또한 데이터 웨어하우스보다 저렴한 비용으로 대용량의 다양한 데이터를 저장하고 처리할 수 있는 기능을 가지고 있습니다.
데이터 레이크하우스는 모든 데이터에 대해 데이터 액세스 또는 분석을 실행해야 하지만 데이터 또는 권장 분석이 확실하지 않은 경우에 유용합니다.
성능이 주요 관심사가 아닌 경우 레이크하우스 아키텍처는 매우 잘 작동합니다.
그렇다고 해서 전체 구조를 레이크하우스에 기초해야 한다는 의미는 아닙니다.
각 사용 사례에 대해 데이터 레이크, 레이크하우스, 데이터 웨어하우스 또는 전문 분석 데이터베이스를 선택하는 방법에 대한 자세한 정보는 여기에서 확인할 수 있습니다. 여기에서 지금 확인해 보세요..
데이터 레이크하우스의 특징
- 동시 데이터 읽기 및 쓰기
- 적응성 및 확장성
- 데이터 거버넌스 도구에 대한 스키마 지원
- 동시 데이터 읽기 및 쓰기
- 합리적인 가격의 스토리지
- 모든 데이터 유형 및 파일 형식이 지원됩니다.
- 최적화된 데이터 과학 및 기계 학습 도구에 대한 액세스
- 데이터 팀은 하나의 시스템에만 액세스하여 워크로드를 더 빠르고 정확하게 전송하는 이점을 누릴 수 있습니다.
- 데이터 과학, 기계 학습 및 분석의 이니셔티브를 위한 실시간 기능
상위 5개 Data Lakehouse 도구
데이터 브릭
Apache Spark를 처음 개발하여 만든 사람이 설립한 Databricks 오픈 소스, 관리형 Apache Spark 서비스를 제공하며 데이터 레이크용 플랫폼으로 포지셔닝됩니다.
Databricks Lakehouse 아키텍처의 데이터 레이크, 델타 레이크 및 델타 엔진 구성 요소는 비즈니스 인텔리전스, 데이터 과학 및 기계 학습 사용 사례를 지원합니다.
데이터 레이크는 공용 클라우드 스토리지 리포지토리입니다.
메타데이터 관리, 다중 구조화된 데이터 세트, 데이터 검색, 안전한 액세스 제어 및 SQL 분석을 위한 일괄 처리 및 스트림 데이터 처리를 지원합니다.
Databricks는 데이터 레이크하우스 플랫폼에서 볼 수 있는 대부분의 데이터 웨어하우징 기능을 제공합니다.
Databricks는 최근 데이터 레이크 스토리지 전략의 필수 구성 요소를 제공하기 위해 ETL 및 데이터 입력을 자동화하고 데이터 샘플링을 활용하여 다양한 데이터 유형에 대한 스키마를 추론하는 Auto Loader를 공개했습니다.
또는 사용자는 델타 라이브 테이블을 사용하여 퍼블릭 클라우드 데이터 레이크와 델타 레이크 간에 ETL 파이프라인을 구축할 수 있습니다.
문서상 Databricks는 모든 장점을 가지고 있는 것처럼 보이지만 솔루션을 설정하고 데이터 파이프라인을 생성하려면 숙련된 개발자의 인력이 많이 필요합니다.
규모에 따라 답도 더 복잡해집니다. 생각보다 복잡합니다.
아 하나
데이터 레이크는 구조화되지 않은 데이터와 구조화된 데이터를 포함하여 선택한 모든 유형의 데이터를 대규모로 저장할 수 있는 단일 중앙 위치입니다. AWS S3, Microsoft Azure 및 Google Cloud Storage는 세 가지 일반적인 데이터 레이크입니다.
데이터 레이크는 매우 저렴하고 사용이 간편하기 때문에 매우 인기가 있습니다. 기본적으로 아주 적은 비용으로 모든 유형의 데이터를 원하는 만큼 저장할 수 있습니다.
그러나 데이터 레이크는 분석, 쿼리 등과 같은 기본 제공 도구를 제공하지 않습니다.
데이터를 쿼리하고 사용하려면 데이터 레이크(Ahana Cloud가 제공되는 위치) 위에 쿼리 엔진과 데이터 카탈로그가 필요합니다.
Data Warehouse와 Data Lake의 장점을 모두 활용하여 새로운 데이터 레이크하우스 설계가 개발되었습니다.
이는 투명하고 적응력이 뛰어나고 가격 대비 성능이 우수하고 데이터 레이크가 트랜잭션을 지원하는 것처럼 확장되며 데이터 웨어하우스에 필적하는 높은 수준의 보안을 가지고 있음을 나타냅니다.
고성능 SQL 쿼리 엔진은 Data Lakehouse 뒤에 있는 두뇌입니다. 이 때문에 데이터 레이크 데이터에 대해 고성능 분석을 실행할 수 있습니다.
Ahana Cloud for Presto는 Presto on AWS를 위한 SaaS로, 클라우드에서 Presto를 사용하기 시작하는 것이 매우 간단합니다.
S3 기반 데이터 레이크의 경우 Ahana에는 이미 내장된 데이터 카탈로그 및 캐싱이 있습니다. Ahana는 내부적으로 수행하기 때문에 오버헤드를 처리할 필요 없이 Presto의 기능을 제공합니다.
AWS Lake Formation, Apache Hudi 및 Delta Lake는 스택의 일부이며 스택과 통합되는 트랜잭션 관리자 중 일부에 불과합니다.
드레 미오
조직은 빠르게 증가하는 방대한 양의 데이터를 빠르고 간단하며 효율적으로 평가하려고 합니다.
Dremio는 개방형 데이터 레이크하우스가 데이터 레이크와 데이터 웨어하우스의 이점을 개방형 기반으로 결합하는 것이 이를 달성하기 위한 최선의 접근 방식이라고 믿습니다.
Dremio의 Lakehouse 플랫폼은 사용자가 짧은 시간 안에 분석을 완료할 수 있는 쉬운 UI를 통해 모든 사람에게 적합한 경험을 제공합니다.
완전 관리형 데이터 레이크하우스 플랫폼인 Dremio Cloud와 레이크하우스 쿼리 엔진인 Dremio Sonar와 Lakehouse에 고유한 Git과 유사한 경험을 제공하는 Apache Iceberg용 지능형 메가스토어인 Dremio Arctic이라는 두 가지 새로운 서비스 출시.
조직의 모든 SQL 워크로드는 마찰이 없고 끝없이 확장 가능한 Dremio Cloud 플랫폼에서 실행할 수 있으며 데이터 관리 작업도 자동화합니다.
SQL용으로 구축되었으며 Git과 유사한 경험을 제공하며 오픈 소스이며 항상 무료입니다.
그들은 데이터 팀이 좋아하는 Lakehouse 플랫폼으로 만들었습니다.
Apache Iceberg 및 Apache Parquet과 같은 오픈 소스 테이블 및 파일 형식을 활용하여 Dremio Cloud를 사용할 때 데이터가 자체 데이터 레이크 스토리지에 영구적으로 보관됩니다.
미래의 혁신을 쉽게 채택할 수 있으며 작업 부하에 따라 적절한 엔진을 선택할 수 있습니다.
눈송이
Snowflake는 데이터 레이크 및 웨어하우스의 요구 사항을 충족할 수 있는 클라우드 데이터 및 분석 플랫폼입니다.
클라우드 인프라에 구축된 데이터 웨어하우스 시스템으로 시작되었습니다.
플랫폼은 AWS, Microsoft Azure 또는 Google Cloud Platform(GCP)의 퍼블릭 클라우드 스토리지 위에 있는 중앙 집중식 스토리지 리포지토리로 구성됩니다.
그 다음은 사용자가 가상 데이터 웨어하우스를 시작하고 데이터 저장소에 대해 SQL 쿼리를 수행할 수 있는 다중 클러스터 계산 계층입니다.
이 아키텍처는 스토리지와 계산 리소스를 분리할 수 있어 조직이 필요에 따라 두 리소스를 독립적으로 확장할 수 있습니다.
마지막으로 Snowflake는 메타데이터 분류, 리소스 관리, 데이터 거버넌스, 트랜잭션 및 기타 기능이 있는 서비스 계층을 제공합니다.
BI 도구 커넥터, 메타데이터 관리, 액세스 제어 및 SQL 쿼리는 플랫폼이 제공하는 탁월한 데이터 웨어하우스 기능 중 일부에 불과합니다.
그러나 Snowflake는 단일 관계형 SQL 기반 쿼리 엔진으로 제한됩니다.
결과적으로 관리가 더 간단해지지만 적응력이 떨어지고 다중 모델 데이터 레이크 비전이 실현되지 않습니다.
또한, 클라우드 스토리지의 데이터를 검색하거나 분석하기 전에 Snowflake는 기업이 이를 중앙 집중식 스토리지 계층에 로드해야 합니다.
수동 데이터 파이프라이닝 절차는 검사하기 전에 사전 ETL, 프로비저닝 및 데이터 형식화를 필요로 합니다. 이러한 수동 프로세스를 확장하면 답답합니다.
서류상으로는 잘 맞는 것처럼 보이지만 실제로는 단순한 데이터 입력이라는 데이터 레이크 원칙에서 벗어나는 또 다른 옵션이 Snowflake의 데이터 레이크하우스입니다.
신탁
"데이터 레이크하우스"로 알려진 현대적인 개방형 아키텍처를 통해 모든 데이터를 저장, 이해 및 분석할 수 있습니다.
가장 인기 있는 오픈 소스 데이터 레이크 솔루션의 폭과 유연성은 데이터 웨어하우스의 강점 및 깊이와 결합됩니다.
최신 AI 프레임워크 및 사전 구축된 AI 서비스는 Oracle Cloud Infrastructure(OCI)의 데이터 레이크하우스와 함께 사용할 수 있습니다.
오픈 소스 데이터 레이크를 사용하면서 추가 유형의 데이터로 작업하는 것이 가능합니다. 그러나 이를 관리하는 데 필요한 시간과 노력은 지속적인 단점이 될 수 있습니다.
OCI는 관리 비용이 적게 드는 완전 관리형 오픈 소스 레이크하우스 서비스를 제공하므로 운영 비용 절감, 확장성 및 보안 향상, 모든 기존 데이터를 한 위치에 통합할 수 있는 용량을 기대할 수 있습니다.
데이터 레이크하우스는 성공적인 기업에 필수적인 데이터 웨어하우스와 마트의 가치를 높일 것입니다.
하나의 SQL 쿼리로 여러 위치에서 Lakehouse를 사용하여 데이터를 검색할 수 있습니다.
기존 프로그램과 도구는 조정이나 새로운 기술 습득 없이 모든 데이터에 투명하게 액세스할 수 있습니다.
결론
데이터 레이크하우스 솔루션의 도입은 통합 데이터 플랫폼에 분석과 데이터 스토리지를 통합하여 데이터에서 비즈니스 가치를 극대화하는 동시에 가치 추출의 시간, 비용 및 복잡성을 낮추는 빅 데이터의 더 큰 추세를 반영합니다.
Databricks, Snowflake, Ahana, Dremio 및 Oracle을 포함한 플랫폼은 모두 "데이터 레이크하우스"라는 아이디어와 연결되어 있지만 각각 고유한 기능 집합과 실제 데이터 레이크보다 데이터 웨어하우스처럼 작동하는 경향이 있습니다. 전체적으로.
솔루션이 "데이터 레이크하우스"로 마케팅될 때 기업은 그것이 실제로 무엇을 의미하는지 주의해야 합니다.
기업은 "데이터 레이크하우스"와 같은 마케팅 용어를 넘어 각 플랫폼의 기능을 살펴보고 향후 비즈니스와 함께 확장할 최고의 데이터 플랫폼을 선택해야 합니다.
댓글을 남겨주세요.