Өгөгдлийн платформуудын талаар бодохдоо боломжтой бүх үйлчилгээ, архитектурын хувилбаруудыг авч үзэх нь бага зэрэг хэцүү байж магадгүй юм.
Байгууллагын өгөгдлийн платформ нь ихэвчлэн өгөгдлийн агуулах, өгөгдлийн загвар, өгөгдлийн нуур, тайлангаас бүрддэг бөгөөд тус бүр нь тодорхой зорилготой, шаардлагатай ур чадварын багцтай байдаг. Үүний эсрэгээр сүүлийн хэдэн жилийн хугацаанд data lakehouse хэмээх шинэ загвар бий болсон.
Өгөгдлийн нууруудын олон талт байдал, мэдээллийн агуулахын мэдээллийн менежментийг "өгөгдлийн нуурын байшин" гэж нэрлэдэг хувьсгалт өгөгдөл хадгалах архитектурт нэгтгэсэн.
Бид энэ нийтлэлд дата нуурын байшинг, түүний бүрэлдэхүүн хэсэг, онцлог, архитектур болон бусад талыг нарийвчлан судлах болно.
Data Lakehouse гэж юу вэ?
Нэрнээс нь харахад дата нуурын байшин нь мэдээллийн нуурыг мэдээллийн агуулахтай хослуулан тус бүрийн дутагдлыг тусад нь шийдвэрлэх шинэ төрлийн өгөгдлийн архитектур юм.
Үндсэндээ lakehouse систем нь дата нуур шиг асар их хэмжээний өгөгдлийг анхны хэлбэрээр нь хадгалахын тулд хямд хадгалалт ашигладаг. Дэлгүүрийн дээд талд мета өгөгдлийн давхаргыг нэмснээр өгөгдлийн бүтцийг бий болгож, өгөгдлийн агуулахад байдаг өгөгдлийн менежментийн хэрэгслүүдийг идэвхжүүлдэг.
Энэ нь байгууллагынхаа хэмжээнд ашигладаг янз бүрийн бизнесийн хэрэглүүр, систем, хэрэглүүрээс олж авсан асар их хэмжээний зохион байгуулалттай, хагас бүтэцтэй, бүтэцгүй өгөгдлийг хадгалдаг.
Ихэнх тохиолдолд дата нуурууд нь нээлттэй, ерөнхий файлын форматаар өгөгдлийг хадгалахын тулд файлын хэрэглээний програмчлалын интерфейс (API) бүхий хямд хадгалах дэд бүтцийг ашигладаг.
Энэ нь олон багуудад мэдээллийн шинжлэх ухаан гэх мэт янз бүрийн санаачлагуудад зориулж нэг системээр дамжуулан компанийн бүх өгөгдөлд хандах боломжтой болгодог. машин суралцах, бизнесийн тагнуул.
онцлог
- Бага зардалтай хадгалах. Data lakehouse нь өгөгдлийг хямд объектын санд хадгалах чадвартай байх ёстой, тухайлбал Google Cloud Хадгалах, Azure Blob Storage, Amazon Simple Storage Service, эсвэл ORC эсвэл Паркетан ашиглах боломжтой.
- Өгөгдлийн оновчтой болгох чадвар: Өгөгдлийн байршлын оновчлол, кэш, индексжүүлэлт нь өгөгдлийн нуурын газар нь өгөгдлийн анхны форматыг хадгалахын зэрэгцээ өгөгдлийг хэрхэн оновчтой болгох чадвартай байх ёстойг харуулсан цөөн хэдэн жишээ юм.
- Гүйлгээний мета өгөгдлийн давхарга: Энэ нь өгөгдлийн агуулахын гүйцэтгэлд чухал ач холбогдолтой өгөгдлийн менежментийн чадамжийг хямд өртөгтэй хадгалах боломжийг олгодог.
- Declarative DataFrame API-ийн дэмжлэг: AI хэрэгслүүдийн ихэнх нь түүхий объектын хадгалалтын өгөгдлийг сэргээхийн тулд DataFrames ашиглаж болно. Declarative DataFrame API-ийн дэмжлэг нь тодорхой өгөгдлийн шинжлэх ухаан эсвэл AI даалгаврын хариуд өгөгдлийн танилцуулга, бүтцийг динамикаар сайжруулах чадварыг нэмэгдүүлдэг.
- ACID гүйлгээний дэмжлэг: Атом чанар, тууштай байдал, тусгаарлалт, бат бөх чанарыг илэрхийлдэг ACID товчлол нь гүйлгээг тодорхойлох, өгөгдлийн тууштай, найдвартай байдлыг хангах чухал бүрэлдэхүүн хэсэг юм. Ийм гүйлгээг өмнө нь зөвхөн мэдээллийн агуулахад хийх боломжтой байсан ч lakehouse нь тэдгээрийг дата нуурын тусламжтайгаар ашиглах сонголтыг санал болгодог түүнээс гадна. Хэд хэдэн өгөгдлийн шугамын тусламжтайгаар өгөгдөл унших, бичих зэрэг нь сүүлийн үеийн өгөгдлийн чанар муутай холбоотой асуудлыг шийддэг.
Data Lakehouse-ийн элементүүд
Дата нуурын байшингийн архитектур нь өндөр түвшинд хоёр үндсэн давхаргад хуваагддаг. Хадгалах давхаргын өгөгдлийн хэрэглээг Lakehouse платформ (өөрөөр хэлбэл өгөгдлийн нуур) удирддаг.
Мэдээллийн агуулах руу өгөгдлийг ачаалах эсвэл өмчийн формат руу хөрвүүлэх шаардлагагүйгээр боловсруулах давхарга нь олон төрлийн хэрэгслийг ашиглан хадгалах давхарга дахь өгөгдлийг шууд асуух боломжтой болно.
Дараа нь BI програмууд, түүнчлэн AI болон ML технологиуд нь өгөгдлийг ашиглах боломжтой. Өгөгдлийн нуурын эдийн засгийг энэ загвараар хангадаг боловч аливаа боловсруулагч энэ өгөгдлийг уншиж чаддаг тул бизнесүүд бэлтгэсэн өгөгдлийг олон төрлийн системээр дүн шинжилгээ хийх боломжтой болгох эрх чөлөөтэй байдаг. Боловсруулалт, дүн шинжилгээ хийхэд энэ аргыг ашигласнаар процессорын гүйцэтгэл болон өртөг хоёулаа сайжирч болно.
Дараах ACID (атом чанар, тууштай байдал, тусгаарлалт, бат бөх чанар) шалгуурыг дагаж мөрддөг мэдээллийн сангийн гүйлгээг дэмждэг тул архитектур нь олон талуудад систем дотор нэгэн зэрэг өгөгдөлд хандах, бичих боломжийг олгодог.
- Атомат байдал Гүйлгээг дуусгах явцад бүтэн гүйлгээ эсвэл аль нь ч амжилттай болохгүйг хэлнэ. Процесс тасалдсан тохиолдолд энэ нь өгөгдлийн алдагдал эсвэл эвдрэлээс зайлсхийхэд тусална.
- Тогтвортой байдал гүйлгээг урьдчилан таамаглах боломжтой, тууштай байдлаар хийх баталгаа болдог. Энэ нь өгөгдөл бүрийг урьдчилан тогтоосон дүрмийн дагуу хууль ёсны болгох замаар мэдээллийн бүрэн бүтэн байдлыг хангадаг.
- тусгаарлагч Энэ нь дуусах хүртэл систем доторх аливаа гүйлгээнд нөлөөлөхгүй гэдгийг баталгаажуулдаг. Энэ нь олон талуудыг нэг системээс нэгэн зэрэг уншиж, бичих боломжийг олгодог.
- тэсвэрлэх Гүйлгээ дууссаны дараа, систем доголдсон ч гэсэн систем дэх өгөгдлийн өөрчлөлтүүд хэвээр байх баталгаа болдог. Гүйлгээнээс үүдэлтэй аливаа өөрчлөлт нь файлд үүрд хадгалагдана.
Data Lakehouse архитектур
Databricks (Тэдний Дельта нуурын концепцийн шинийг санаачлагч, зохион бүтээгч) болон AWS нь дата нуурын байшингийн үзэл баримтлалын хоёр гол дэмжигч юм. Тиймээс бид нуурын байшингийн архитектурын зохион байгуулалтыг дүрслэхдээ тэдний мэдлэг, ойлголтод найдах болно.
Дата нуурын байшингийн систем нь ихэвчлэн таван давхаргатай байдаг:
- Залгих давхарга
- Хадгалах давхарга
- Мета өгөгдлийн давхарга
- API давхарга
- Хэрэглээний давхарга
Залгих давхарга
Системийн эхний давхарга нь янз бүрийн эх сурвалжаас мэдээлэл цуглуулж, хадгалах давхарга руу илгээх үүрэгтэй. Давхарга нь олон тооны дотоод болон гадаад эх сурвалжуудтай холбогдохын тулд хэд хэдэн протоколуудыг ашиглаж болно, тухайлбал багц болон урсгал мэдээлэл боловсруулах чадварыг хослуулах.
- NoSQL мэдээллийн сан,
- файл хуваалцах
- CRM програмууд,
- вэбсайтууд,
- IoT мэдрэгч,
- олон нийтийн сүлжээ,
- Програм хангамжийн үйлчилгээ (SaaS) програмууд болон
- харилцааны мэдээллийн сангийн удирдлагын систем гэх мэт.
Энэ үед өгөгдөл дамжуулахад зориулсан Apache Kafka, RDBMS болон NoSQL мэдээллийн сангаас өгөгдөл импортлох Amazon Data Migration Service (Amazon DMS) зэрэг бүрэлдэхүүн хэсгүүдийг ашиглаж болно.
Хадгалах давхарга
lakehouse архитектур нь AWS S3 гэх мэт хямд объектын дэлгүүрт янз бүрийн төрлийн өгөгдлийг объект хэлбэрээр хадгалах боломжийг олгох зорилготой юм. Нээлттэй файлын форматыг ашигласнаар үйлчлүүлэгчийн хэрэгслүүд эдгээр зүйлсийг дэлгүүрээс шууд унших боломжтой.
Энэ нь олон API болон хэрэглээний түвшний бүрэлдэхүүн хэсгүүдэд ижил өгөгдөлд хандах, ашиглах боломжийг олгодог. Мета өгөгдлийн давхарга нь бүтэцлэгдсэн болон хагас бүтэцтэй өгөгдлийн багцын схемүүдийг хадгалдаг бөгөөд ингэснээр бүрэлдэхүүн хэсгүүд нь тэдгээрийг уншиж байхдаа өгөгдөлд ашиглах боломжтой болно.
Жишээлбэл, Hadoop Distributed File System (HDFS) платформ нь компьютер, хадгалалтыг газар дээр нь хуваах үүл хадгалах үйлчилгээг бий болгоход ашиглаж болно. Lakehouse нь эдгээр үйлчилгээнд хамгийн тохиромжтой.
Мета өгөгдлийн давхарга
Мета өгөгдлийн давхарга нь энэхүү дизайныг ялгах мэдээллийн нуурын байшингийн үндсэн бүрэлдэхүүн хэсэг юм. Энэ нь нууранд хадгалагдаж буй бүх зүйлийн мета өгөгдөл (бусад өгөгдлийн хэсгүүдийн тухай мэдээлэл) санал болгодог нэг каталог бөгөөд хэрэглэгчдэд дараах удирдлагын чадавхийг ашиглах боломжийг олгодог.
- Мэдээллийн сангийн тогтвортой хувилбар нь ACID гүйлгээний ачаар зэрэгцээ гүйлгээгээр харагддаг;
- үүлэн объектын дэлгүүрийн файлуудыг хадгалахын тулд кэш хийх;
- асуулгын боловсруулалтыг хурдасгахын тулд индексжүүлэлтийг ашиглан өгөгдлийн бүтцийн индексүүдийг нэмэх;
- өгөгдлийн объектыг хуулбарлахын тулд тэг хуулбар клон ашиглах; болон
- өгөгдлийн тодорхой хувилбаруудыг хадгалахын тулд өгөгдлийн хувилбарчлалыг ашиглана.
Нэмж дурдахад мета өгөгдлийн давхарга нь схемийн менежментийг хэрэгжүүлэх, од/цасан ширхгийн схем гэх мэт DW схемийн топологи ашиглах, мэдээллийн нуур дээр шууд өгөгдлийн засаглал, аудит хийх боломжийг олгож, мэдээллийн дамжуулах хоолойн бүрэн бүтэн байдлыг сайжруулдаг.
Схемийн хувьсал болон хэрэгжилтийн онцлогуудыг схемийн удирдлагад оруулсан болно. Хүснэгтийн схемд тохирохгүй аливаа бичвэрээс татгалзсанаар схемийн хэрэгжилт нь хэрэглэгчдэд өгөгдлийн бүрэн бүтэн байдал, чанарыг хадгалах боломжийг олгодог.
Схемийн хувьсал нь хүснэгтийн одоогийн схемийг өөрчлөгдөж буй өгөгдөлд нийцүүлэн өөрчлөх боломжийг олгодог. Мэдээллийн нуурын дээд талд байрлах нэг удирдлагын интерфейстэй тул хандалтыг хянах, аудит хийх боломжууд бас бий.
API давхарга
Архитектурын өөр нэг чухал давхарга нь одоо байгаа бөгөөд бүх эцсийн хэрэглэгчид ажлыг илүү хурдан гүйцэтгэж, илүү боловсронгуй статистик мэдээлэл авахын тулд ашиглах боломжтой хэд хэдэн API-г агуулсан.
Мета өгөгдлийн API-г ашиглах нь тухайн аппликешнд шаардлагатай өгөгдлийн зүйлсийг таних, хандахад хялбар болгодог.
Машин сургалтын номын сангийн хувьд TensorFlow, Spark MLlib зэрэг зарим нь Паркет гэх мэт нээлттэй файлын форматыг уншиж, мета өгөгдлийн давхаргад шууд хандах боломжтой.
Үүний зэрэгцээ DataFrame API нь программистуудад тархсан өгөгдлийг зохион байгуулах, өөрчлөх боломжийг олгодог.
Хэрэглээний давхарга
Power BI, Tableau болон бусад хэрэгсэл, програмууд нь хэрэглээний давхаргад байрладаг. Нуурын байшингийн дизайны тусламжтайгаар нууранд хадгалагдаж буй бүх мета өгөгдөл болон бүх өгөгдөлд үйлчлүүлэгчийн програмууд хандах боломжтой.
Нуурын байшинг бүх төрлийн компаний бүх хэрэглэгчид ашиглах боломжтой аналитик үйлдлүүд, үүнд бизнесийн тагнуулын самбар үүсгэх, SQL асуулга болон машин сургалтын даалгавруудыг ажиллуулах зэрэг орно.
Data Lakehouse-ийн давуу тал
Байгууллагууд одоогийн өгөгдлийн платформоо нэгтгэх, мэдээллийн удирдлагын бүх үйл явцыг оновчтой болгохын тулд мэдээллийн нуурын байшинг бий болгож чадна. Төрөл бүрийн эх үүсвэрийг холбосон силосын саадыг буулгаснаар дата нуурын байшин нь тодорхой шийдлүүдийн хэрэгцээг орлож чадна.
Сонгосон өгөгдлийн эх сурвалжтай харьцуулахад энэхүү интеграци нь төгсгөлөөс төгсгөл хүртэл илүү үр дүнтэй процедурыг бий болгодог. Энэ нь хэд хэдэн давуу талтай:
- Удирдлага багатай: Өгөгдлийн нуурын сан нь түүхий өгөгдлөөс өгөгдлийг гаргаж авч, мэдээллийн агуулахад ашиглахын оронд түүнтэй холбогдсон аливаа эх сурвалжийг ашиглахад бэлэн байлгах боломжийг олгодог.
- Зардлын үр ашгийг нэмэгдүүлсэн: Дата нуурын байшингуудыг орчин үеийн дэд бүтцийг ашиглан барьсан бөгөөд энэ нь тооцоолол болон хадгалалтыг хуваах бөгөөд энэ нь тооцоолох хүчин чадлыг нэмэгдүүлэхгүйгээр хадгалах санг өргөжүүлэхэд хялбар болгодог. Хямдхан өгөгдөл хадгалах хэрэгслийг ашигласнаар зардал багатай, өргөтгөх боломжтой болно.
- Өгөгдлийн засаглалыг сайжруулах: Дата нуурын байшингууд нь стандартчилагдсан нээлттэй архитектураар баригдсан бөгөөд аюулгүй байдал, хэмжүүр, үүрэгт суурилсан хандалт болон бусад чухал удирдлагын бүрэлдэхүүн хэсгүүдийг илүү хянах боломжийг олгодог. Нөөц ба мэдээллийн эх сурвалжийг нэгтгэснээр тэд засаглалыг хялбаршуулж, сайжруулдаг.
- Хялбаршуулсан стандартууд: 1980-аад онд өгөгдлийн агуулахыг анх хөгжүүлж байх үед холболт маш хязгаарлагдмал байсан тул орон нутгийн схемийн стандартуудыг бизнесүүд, тэр байтугай хэлтэсүүд хүртэл байнга боловсруулж байсан. Дата нуурын байшингууд нь олон төрлийн өгөгдөл нь схемийн хувьд нээлттэй стандарттай болсныг ашигладаг бөгөөд олон тооны мэдээллийн эх сурвалжийг давхцаж буй нэг төрлийн схемтэй хамт авч, процедурыг оновчтой болгодог.
Data Lakehouse-ийн сул тал
Дата нуурын байшинг тойрсон бүх цагирагуудыг үл харгалзан энэ санаа нь маш шинэ хэвээр байгааг санах нь чухал юм. Энэхүү шинэ загварт бүрэн нийцэхээсээ өмнө сул талуудыг жинлэхээ мартуузай.
- Цул бүтэц: Нуурын байшингийн бүх зүйлийг багтаасан загвар нь хэд хэдэн давуу талтай боловч зарим нэг асуудал үүсгэдэг. Монолит архитектур нь ихэвчлэн бүх хэрэглэгчдэд муу үйлчилгээ үзүүлэхэд хүргэдэг бөгөөд хатуу бөгөөд засвар үйлчилгээ хийхэд хэцүү байдаг. Ер нь архитекторууд болон дизайнерууд янз бүрийн хэрэглээний тохиолдолд тохируулж болох илүү модульчлагдсан архитектурт дуртай байдаг.
- Технологи нь хараахан болоогүй байна: эцсийн зорилго нь маш их хэмжээний машин сурах, хиймэл оюун ухаан шаарддаг. Нуурын байшингууд төлөвлөсний дагуу ажиллахаас өмнө эдгээр технологийг цаашид хөгжүүлэх ёстой.
- Одоо байгаа бүтэцтэй харьцуулахад мэдэгдэхүйц ахиц дэвшил гарахгүй: Нуурын байшингууд бодитоор хэр их үнэ цэнийг авчрах вэ гэдэгт эргэлзсэн хэвээр байна. Тохиромжтой автомат төхөөрөмжтэй хослуулсан нуурын агуулахын загварыг харьцуулж болохуйц үр ашигтай гэж зарим үгүйсгэгчид үзэж байна.
Data Lakehouse-ийн сорилтууд
Дата нуурын хаусын техникийг нэвтрүүлэхэд хэцүү байж болно. Бүрэлдэхүүн хэсгүүдийн нарийн төвөгтэй байдлаас шалтгаалан дата нуурын байшинг бүхэлд нь хамарсан хамгийн тохиромжтой бүтэц эсвэл "бүх зүйлд зориулсан нэг платформ" гэж үзэх нь буруу юм.
Нэмж дурдахад, дата нууруудын хэрэглээ нэмэгдэж байгаатай холбоотойгоор бизнесүүд эдийн засгийн үр өгөөжгүй, амжилтанд хүрэх амлалтад л найдаж, одоогийн мэдээллийн агуулахаа тэдгээрт шилжүүлэх шаардлагатай болно.
Шилжүүлгийн явцад ямар нэгэн саатал, саатал гарвал энэ нь үнэтэй, цаг хугацаа шаардсан, магадгүй аюултай байж болзошгүй.
Бизнесийн хэрэглэгчид өгөгдлийн нуурын байшин хэлбэрээр шийдлийг ил эсвэл далд зах зээлд гаргадаг тодорхой үйлдвэрлэгчдийн үзэж байгаагаар өндөр мэргэшсэн технологийг ашиглах ёстой. Эдгээр нь системийн төв хэсэгт байрлах дата нууртай холбоотой бусад хэрэгслүүдтэй үргэлж ажиллахгүй байж болох бөгөөд энэ нь асуудалд хүргэдэг.
Нэмж дурдахад, бизнесийн чухал ачааллыг гүйцэтгэх үед 24/7 аналитикийг хангахад хэцүү байж болох бөгөөд энэ нь өртөг хэмнэлттэй өргөтгөх боломжтой дэд бүтцийг шаарддаг.
Дүгнэлт
Сүүлийн жилүүдэд хамгийн шинэ төрлийн дата төвүүд бол дата нуурын хаус юм. Энэ нь мэдээллийн технологи, нээлттэй эхийн програм хангамж, үүл тооцоолох, түгээсэн хадгалах протоколууд.
Энэ нь бизнесүүдэд бүх төрлийн өгөгдлийг ямар ч байршлаас төвлөрүүлэн хадгалах боломжийг олгож, удирдлага, дүн шинжилгээг хялбаршуулдаг. Data Lakehouse бол нэлээд сонирхолтой ойлголт юм.
Аливаа пүүс өгөгдлийн агуулах шиг хурдан бөгөөд үр ашигтай, мөн мэдээллийн нуур шиг уян хатан, нэгдмэл мэдээллийн платформд нэвтрэх боломжтой байсан бол өрсөлдөхүйц давуу талтай байх болно.
Энэ санаа нь хөгжиж байгаа бөгөөд харьцангуй шинэ хэвээр байна. Үүний үр дүнд ямар нэг зүйл өргөн тархсан эсэхийг тодорхойлоход хэсэг хугацаа шаардагдана.
Бид бүгд Лейкхаус архитектурын чиглэлийг сонирхож байх ёстой.
хариу үлдээх