Өгөгдлийн нуурын байшингууд нь бизнесүүдэд зориулсан мэдээллийн агуулах болон дата нуурын үзэл баримтлалыг нэгтгэдэг.
Эдгээр хэрэгслүүд нь өгөгдлийн нууруудын менежментийн чадавхийг өгөгдлийн агуулахад байдаг өгөгдлийн архитектуртай хослуулан хэмнэлттэй мэдээлэл хадгалах шийдлүүдийг бий болгох боломжийг танд олгоно.
Нэмж дурдахад өгөгдлийн шилжилт, илүүдэл багасч, удирдахад бага цаг зарцуулагдаж, схем болон өгөгдлийн засаглалын богино журам бодитой болж байна.
Нэг дата нуурын байшин нь хэд хэдэн шийдэл бүхий хадгалах системтэй харьцуулахад олон давуу талтай.
Бизнесийн оюун ухаан, машин сургалтын журмын талаарх ойлголтоо сайжруулахын тулд эдгээр хэрэгслийг өгөгдөл судлаачид ашигладаг хэвээр байна.
Энэ нийтлэлд data lakehouse, түүний чадавхи, боломжит хэрэгслүүдийг хурдан авч үзэх болно.
Data Lakehouse-ийн танилцуулга
Шинэ төрлийн өгөгдлийн архитектурыг "Data Lakehouse” нь өгөгдлийн нуур болон мэдээллийн агуулахыг нэгтгэж, тус бүрийн сул талыг бие даан шийдвэрлэх боломжийг олгодог.
Нуурын байшингийн систем нь дата нууруудын нэгэн адил асар их хэмжээний өгөгдлийг анхны хэлбэрээр нь хадгалахын тулд бага зардалтай хадгалалт ашигладаг.
Дэлгүүрийн дээд талд мета өгөгдлийн давхаргыг нэмж оруулснаар өгөгдлийн бүтцийг бий болгож, мэдээллийн агуулахад байдагтай адил өгөгдлийн менежментийн хэрэгслүүдийг идэвхжүүлдэг.
Энэ нь аж ахуйн нэгжийн хэмжээнд хэрэглэгдэж буй янз бүрийн бизнесийн программууд, системүүд болон төхөөрөмжүүдээс олж авсан асар их хэмжээний бүтэцтэй, хагас бүтэцтэй, бүтэцгүй өгөгдлийг агуулдаг.
Үүний үр дүнд өгөгдлийн нууруудаас ялгаатай нь lakehouse систем нь тухайн өгөгдлийг SQL гүйцэтгэлд зориулж удирдаж, оновчтой болгож чаддаг.
Мөн өгөгдлийн агуулахаас хямд зардлаар олон төрлийн өгөгдлийг хадгалах, боловсруулах чадвартай.
Дата нуурын байшин нь ямар нэгэн өгөгдөлд хандах эсвэл аливаа өгөгдлийн эсрэг аналитик хийх шаардлагатай боловч өгөгдөл эсвэл санал болгож буй аналитикийн талаар эргэлзэж байвал хэрэг болно.
Гүйцэтгэл нь гол асуудал биш бол нуурын байшингийн архитектур маш сайн ажиллах болно.
Энэ нь та бүхэл бүтэн байгууламжаа нуурын байшинд үндэслэх ёстой гэсэн үг биш юм.
Ашиглалтын тохиолдол бүрт дата нуур, нуурын агуулах, мэдээллийн агуулах эсвэл тусгай аналитик мэдээллийн санг хэрхэн сонгох талаар дэлгэрэнгүй мэдээллийг авах боломжтой. энд.
Data Lakehouse-ийн онцлог
- Мэдээлэл унших, бичих зэрэг
- Дасан зохицох чадвар, өргөтгөх чадвар
- Өгөгдлийн удирдлагын хэрэгслээр схемийн тусламж
- Мэдээлэл унших, бичих зэрэг
- Боломжийн үнэтэй хадгалах газар
- Бүх өгөгдлийн төрөл, файлын форматыг дэмждэг.
- Мэдээллийн шинжлэх ухаан, машин сургалтын оновчтой хэрэгсэлд хандах
- Таны дата багууд ажлын ачааллыг илүү хурдан бөгөөд үнэн зөв дамжуулахын тулд зөвхөн нэг системд хандах нь ашигтай байх болно.
- Өгөгдлийн шинжлэх ухаан, машин сургалт, аналитик чиглэлээр санаачилга гаргах бодит цагийн боломжууд
Data Lakehouse шилдэг 5 хэрэгсэл
Өгөгдлийн сан
Apache Spark-ийг анх хөгжүүлж, бүтээсэн хүний үүсгэн байгуулсан Databricks нээлттэй эх, удирдлагатай Apache Spark үйлчилгээгээр хангадаг бөгөөд өгөгдлийн нууруудын платформ хэлбэрээр байрладаг.
Databricks lakehouse архитектурын дата нуур, дельта нуур, дельта хөдөлгүүрийн бүрэлдэхүүн хэсгүүд нь бизнесийн тагнуул, мэдээллийн шинжлэх ухаан, машин сургалтын хэрэглээг ашиглах боломжийг олгодог.
Өгөгдлийн нуур нь нийтийн үүл хадгалах сан юм.
Мета өгөгдлийн менежмент, олон бүтэцтэй өгөгдлийн багцад зориулсан багц болон урсгал өгөгдөл боловсруулах, өгөгдөл илрүүлэх, аюулгүй хандалтын хяналт, SQL аналитикийн дэмжлэгтэйгээр.
Databricks нь өгөгдлийн нуурын платформ дээр үзэхээр хүлээгдэж буй мэдээллийн агуулахын ихэнх функцуудыг санал болгодог.
Databricks компани саяхан ETL болон өгөгдлийн оролтыг автоматжуулж, өгөгдөл нуурын хадгалалтын стратегийн чухал бүрэлдэхүүн хэсгүүдийг хэрэгжүүлэхийн тулд янз бүрийн өгөгдлийн төрлүүдийн схемийг гаргахын тулд өгөгдлийн түүвэрлэлтийг хөшүүрэг болгодог Автомат Ачаалагчаа танилцууллаа.
Өөрөөр хэлбэл, хэрэглэгчид Delta Live Tables ашиглан нийтийн үүлэн мэдээллийн нуур болон Дельта нуурын хооронд ETL дамжуулах хоолой барьж болно.
Цаасан дээр Databricks нь бүх давуу талтай мэт боловч шийдлийг тохируулах, мэдээллийн шугамыг бий болгох нь чадварлаг хөгжүүлэгчдээс маш их хүний хөдөлмөр шаарддаг.
Масштабтай бол хариулт нь илүү төвөгтэй болдог. Энэ нь санагдахаас илүү төвөгтэй юм.
Ахана
Дата нуур нь бүтэцгүй, бүтэцлэгдсэн өгөгдлийг багтаасан ямар ч төрлийн өгөгдлийг хадгалах боломжтой цорын ганц төв байршил юм. AWS S3, Microsoft Azure, Google Cloud Storage нь гурван нийтлэг мэдээллийн нуур юм.
Дата нуурууд нь маш хямд бөгөөд ашиглахад хялбар байдаг тул маш их таалагддаг; Та маш бага мөнгөөр хүссэн хэмжээгээрээ ямар ч төрлийн өгөгдлийг хадгалах боломжтой.
Гэхдээ өгөгдлийн нуур нь аналитик, асуулга гэх мэт суурилуулсан хэрэгслийг санал болгодоггүй.
Өгөгдлөө асууж, ашиглахын тулд танд мэдээллийн нуурын дээд талд (Ahana Cloud ирдэг) асуулгын систем болон өгөгдлийн каталог хэрэгтэй.
Өгөгдлийн агуулах болон Дата нуурын аль алиных нь хамгийн шилдэг нь дата нуурын шинэ дизайныг боловсруулсан.
Энэ нь ил тод, дасан зохицох чадвартай, үнэ/гүйцэтгэл сайтай, дата нуур нь гүйлгээг дэмждэг шиг масштабтай, мэдээллийн агуулахтай харьцуулахуйц өндөр түвшний хамгаалалттай болохыг харуулж байна.
Таны өндөр гүйцэтгэлтэй SQL хайлтын систем бол Data Lakehouse-ийн ард тархи юм. Үүний ачаар та дата нуурын өгөгдөл дээрээ өндөр гүйцэтгэлтэй аналитик хийх боломжтой.
Presto-д зориулсан Ahana Cloud нь AWS дээрх Presto-д зориулсан SaaS бөгөөд Presto-г үүлэн дээр ашиглаж эхлэхэд маш хялбар болгодог.
Таны S3-д суурилсан дата нуурын хувьд Ahana аль хэдийн суулгасан өгөгдлийн каталог болон кэштэй болсон. Ахана нь Presto-ийн онцлогуудыг дотооддоо хийдэг тул нэмэлт зардлыг даах шаардлагагүйгээр танд өгдөг.
AWS Lake Formation, Apache Hudi, Delta Lake зэрэг нь стекийн нэг хэсэг бөгөөд түүнтэй нэгдсэн гүйлгээний менежерүүдийн хэдхэн юм.
Драмио
Байгууллагууд хурдацтай өсч буй асар их хэмжээний өгөгдлийг хурдан, энгийн бөгөөд үр дүнтэй үнэлэхийг эрэлхийлдэг.
Нээлттэй мэдээллийн нуурын газар нь өгөгдлийн нуурууд болон мэдээллийн агуулахуудын ашиг тусыг нээлттэй үндсэн дээр хослуулсан нь үүнийг хэрэгжүүлэх хамгийн сайн арга гэж Dremio үзэж байна.
Dremio-ийн lakehouse платформ нь хэрэглэгчдэд богино хугацаанд дүн шинжилгээ хийх боломжийг олгодог хялбар UI бүхий хүн бүрт тохирсон туршлагыг өгдөг.
Dremio Cloud нь бүрэн удирдлагатай мэдээллийн нуурын байшингийн платформ бөгөөд нуурын байшингийн асуулгын систем болох Dremio Sonar болон Apache Iceberg-ийн ухаалаг мегастор болох Dremio Arctic хэмээх хоёр шинэ үйлчилгээг нэвтрүүлж, нуурын байшинд Git-тэй төстэй өвөрмөц туршлага өгдөг.
Байгууллагын бүх SQL ажлын ачааллыг үрэлтгүй, хязгааргүй өргөтгөх боломжтой Dremio Cloud платформ дээр ажиллуулах боломжтой бөгөөд энэ нь мэдээллийн удирдлагын ажлыг автоматжуулдаг.
Энэ нь SQL-д зориулагдсан бөгөөд Git-тэй төстэй туршлагыг санал болгодог, нээлттэй эх сурвалжтай, үргэлж үнэ төлбөргүй байдаг.
Тэд үүнийг мэдээллийн багуудын шүтэн биширдэг нуурын байшин платформ байхаар бүтээсэн.
Apache Iceberg, Apache Parquet зэрэг нээлттэй эхийн хүснэгт болон файлын форматыг ашигласнаар таны өгөгдөл Dremio Cloud-г ашиглах үед өөрийн мэдээллийн санд хадгалагдана.
Ирээдүйн инновацийг хялбархан нэвтрүүлэх боломжтой бөгөөд таны ажлын ачаалалд тулгуурлан тохирох хөдөлгүүрийг сонгох боломжтой.
Snowflake
Snowflake нь дата нуурууд болон агуулахуудын хэрэгцээг хангах боломжтой үүлэн өгөгдөл, аналитик платформ юм.
Энэ нь үүлэн дэд бүтцэд суурилсан мэдээллийн агуулахын системээс эхэлсэн.
Энэхүү платформ нь AWS, Microsoft Azure эсвэл Google Cloud Platform (GCP)-ийн нийтийн үүл хадгалах сангийн дээд талд байрлах төвлөрсөн хадгалах сангаас бүрдэнэ.
Үүний дараа хэрэглэгчид виртуал өгөгдлийн агуулах ажиллуулж, өгөгдөл хадгалахдаа SQL асуулга явуулах боломжтой олон кластерт тооцоолох давхарга бий болно.
Архитектур нь хадгалалт, тооцооллын нөөцийг салгах боломжийг олгодог бөгөөд байгууллагуудад шаардлагатай бол эдгээр хоёрыг бие даан өргөжүүлэх боломжийг олгодог.
Эцэст нь, Snowflake нь мета өгөгдлийн ангилал, нөөцийн удирдлага, өгөгдлийн засаглал, гүйлгээ болон бусад функц бүхий үйлчилгээний давхаргыг хангадаг.
BI хэрэгслийн холбогч, мета өгөгдлийн удирдлага, хандалтын хяналт, SQL асуулга нь платформын санал болгож буй өгөгдлийн агуулахын цөөн хэдэн функцууд юм.
Гэхдээ Snowflake нь зөвхөн SQL-д суурилсан хайлтын системээр хязгаарлагддаг.
Үүний үр дүнд үүнийг удирдахад хялбар боловч дасан зохицох чадвар багатай болж, олон загварт дата нуурын алсын хараа хэрэгжихгүй байна.
Нэмж дурдахад, үүлэн хадгалалтын өгөгдлийг хайх, шинжлэхээс өмнө Snowflake нь бизнес эрхлэгчдээс үүнийг төвлөрсөн хадгалах давхаргад ачаалахыг шаарддаг.
Гарын авлагын өгөгдөл дамжуулах процедур нь шалгахын өмнө ETL, нөөц бүрдүүлэх, өгөгдлийг форматлах шаардлагатай байдаг. Эдгээр гарын авлагын процессыг өргөжүүлэх нь тэднийг бухимдуулдаг.
Цаасан дээр тохиромжтой мэт боловч үнэн хэрэгтээ энгийн өгөгдөл оруулах дата нуурын зарчмаас гажсан өөр нэг сонголт бол Snowflake-ийн мэдээллийн нуурын байшин юм.
Oracle-ийн
"Өгөгдлийн нуурын байшин" гэгддэг орчин үеийн, нээлттэй архитектур нь таны бүх өгөгдлийг хадгалах, ойлгох, дүн шинжилгээ хийх боломжийг олгодог.
Хамгийн их таалагдсан нээлттэй эхийн мэдээллийн нуурын шийдлүүдийн өргөн ба уян хатан байдал нь мэдээллийн агуулахын хүч чадал, гүнтэй хослуулсан байдаг.
Хамгийн сүүлийн үеийн AI хүрээ болон урьдчилан бүтээгдсэн хиймэл оюун ухааны үйлчилгээг Oracle Cloud Infrastructure (OCI) дээрх дата нуурын байшинд ашиглах боломжтой.
Нээлттэй эхийн мэдээллийн нуурыг ашиглах үед нэмэлт төрлийн өгөгдөлтэй ажиллах боломжтой. Гэхдээ үүнийг зохицуулахад шаардагдах цаг хугацаа, хүчин чармайлт нь байнгын сул тал байж болно.
OCI нь бүрэн удирдлагатай, нээлттэй эхийн нуурын байшингийн үйлчилгээг бага үнээр, бага менежментээр санал болгодог бөгөөд энэ нь үйл ажиллагааны зардал бага, өргөтгөх чадвар, аюулгүй байдал, одоо байгаа бүх өгөгдлийг нэг байршилд нэгтгэх боломжийг танд олгоно.
Өгөгдлийн нуурын газар нь амжилттай аж ахуйн нэгжүүдэд зайлшгүй шаардлагатай мэдээллийн агуулах болон зах зээлийн үнэ цэнийг нэмэгдүүлэх болно.
Зөвхөн нэг SQL асуулга ашиглан хэд хэдэн байршлаас нуурын байшинг ашиглан өгөгдлийг татаж авах боломжтой.
Одоо байгаа программууд болон хэрэгслүүд нь тохируулга хийх, шинэ ур чадвар эзэмших шаардлагагүйгээр бүх өгөгдөлд ил тод хандалтыг хүлээн авдаг.
Дүгнэлт
Data lakehouse шийдлүүдийг нэвтрүүлсэн нь их өгөгдлийн томоохон чиг хандлагын тусгал бөгөөд энэ нь мэдээллийн бизнесийн үнэ цэнийг нэмэгдүүлэхийн зэрэгцээ үнэ цэнийг гаргах цаг, зардал, нарийн төвөгтэй байдлыг багасгахын тулд нэгдсэн өгөгдлийн платформ дахь аналитик болон өгөгдөл хадгалалтыг нэгтгэх явдал юм.
Databricks, Snowflake, Ahana, Dremio, Oracle зэрэг платформууд нь "өгөгдлийн нуурын байшин" гэсэн санаатай холбоотой боловч тус бүр нь өвөрмөц онцлогтой бөгөөд жинхэнэ мэдээллийн нуураас илүү мэдээллийн агуулах шиг ажиллах хандлагатай байдаг. бүхэлд нь.
Шийдэл нь "өгөгдлийн нуурын байшин" гэж зарагдах үед бизнесүүд энэ нь юу гэсэн үг вэ гэдгээс болгоомжлох хэрэгтэй.
Аж ахуйн нэгжүүд "data lakehouse" гэх мэт маркетингийн хэллэгээс гадна платформ бүрийн онцлог шинж чанаруудыг судалж, ирээдүйд бизнесээ өргөжүүлэх шилдэг мэдээллийн платформыг сонгох хэрэгтэй.
хариу үлдээх