Տվյալների լճային տները համատեղում են տվյալների պահեստը և տվյալների լճի հասկացությունները բիզնեսի համար:
Այս գործիքները թույլ են տալիս ստեղծել տվյալների պահպանման ծախսարդյունավետ լուծումներ՝ համատեղելով տվյալների լճերի կառավարման հնարավորությունները տվյալների պահեստներում հայտնաբերված տվյալների ճարտարապետության հետ:
Բացի այդ, կա տվյալների արտագաղթի և ավելորդության կրճատում, ավելի քիչ ժամանակ է ծախսվում վարչարարության վրա, և սխեմաների և տվյալների կառավարման ավելի կարճ ընթացակարգերն իրականում դառնում են իրականություն:
Տվյալների մեկ լճատունը շատ առավելություններ ունի՝ համեմատած մի քանի լուծումներով պահեստավորման համակարգի հետ:
Այս գործիքները դեռևս օգտագործվում են տվյալների գիտնականների կողմից՝ բարելավելու բիզնես ինտելեկտի և մեքենայական ուսուցման ընթացակարգերի իրենց պատկերացումը:
Այս հոդվածը արագ կանդրադառնա տվյալների լճահաուսին, նրա հնարավորություններին և առկա գործիքներին:
Ներածություն Data Lakehouse
Տվյալների ճարտարապետության նոր տեսակ, որը կոչվում է «տվյալների լճահաուս” միավորում է տվյալների լիճը և տվյալների պահեստը՝ յուրաքանչյուրի թույլ կողմերը ինքնուրույն լուծելու համար:
Lakehouse համակարգը, ինչպես տվյալների լճերը, օգտագործում է էժան պահեստավորում՝ հսկայական քանակությամբ տվյալներ իր սկզբնական տեսքով պահելու համար:
Խանութի վերևում մետատվյալների շերտի ավելացումը նաև ապահովում է տվյալների կառուցվածքը և հզորացնում տվյալների կառավարման գործիքները, որոնք նման են տվյալների պահեստներում հայտնաբերվածներին:
Այն պարունակում է հսկայական քանակությամբ կառուցվածքային, կիսակառույց և չկառուցված տվյալներ, որոնք ստացվել են ձեռնարկությունում օգտագործվող տարբեր բիզնես հավելվածներից, համակարգերից և սարքերից:
Արդյունքում, ի տարբերություն տվյալների լճերի, lakehouse համակարգը կարող է կառավարել և օպտիմալացնել այդ տվյալները SQL-ի կատարման համար:
Այն նաև հնարավորություն ունի պահելու և մշակելու մեծ քանակությամբ բազմազան տվյալներ ավելի էժան գնով, քան տվյալների պահեստները:
Տվյալների լճի տունը հարմար է, երբ դուք պետք է կատարեք ցանկացած տվյալների հասանելիություն կամ վերլուծություն ցանկացած տվյալների դեմ, բայց վստահ չեք տվյալների կամ առաջարկվող վերլուծությունների վրա:
Լճային տան ճարտարապետությունը բավականին լավ կգործի, եթե կատարումը առաջնային խնդիր չէ:
Դա չի նշանակում, որ դուք պետք է ձեր ամբողջ կառույցը հիմնեք լճատան վրա:
Լրացուցիչ տեղեկություններ այն մասին, թե ինչպես ընտրել տվյալների լիճ, լճարան, տվյալների պահեստ կամ մասնագիտացված վերլուծական տվյալների բազա յուրաքանչյուր օգտագործման դեպքի համար: այստեղ.
Data Lakehouse-ի առանձնահատկությունները
- Տվյալների միաժամանակյա ընթերցում և գրում
- Հարմարվողականություն և մասշտաբայնություն
- Սխեմայի աջակցություն տվյալների կառավարման գործիքներով
- Տվյալների միաժամանակյա ընթերցում և գրում
- Պահեստավորում, որը մատչելի է
- Տվյալների բոլոր տեսակները և ֆայլի ձևաչափերը ապահովված են:
- Տվյալների գիտության և մեքենայական ուսուցման գործիքների հասանելիություն, որոնք օպտիմիզացված են
- Ձեր տվյալների թիմերը կշահեն միայն մեկ համակարգից օգտվելու հնարավորությունից՝ դրա միջոցով ավելի արագ և ճշգրիտ ծանրաբեռնվածություն փոխանցելու համար:
- Իրական ժամանակի հնարավորություններ տվյալների գիտության, մեքենայական ուսուցման և վերլուծության ոլորտում նախաձեռնությունների համար
Data Lakehouse-ի լավագույն 5 գործիքները
Տվյալների շտեմարաններ
Databricks-ը, որը հիմնադրվել է այն անձի կողմից, ով առաջինն է մշակել Apache Spark-ը և պատրաստել այն բաց աղբյուր, ապահովում է կառավարվող Apache Spark ծառայություն և դիրքավորվում է որպես տվյալների լճերի հարթակ:
Databricks lakehouse ճարտարապետության տվյալների լիճը, դելտա լիճը և դելտա շարժիչի բաղադրիչները հնարավորություն են տալիս բիզնեսի հետախուզության, տվյալների գիտության և մեքենայական ուսուցման օգտագործման դեպքեր:
Տվյալների լիճը հանրային ամպային պահեստ է:
Մետատվյալների կառավարման, խմբաքանակի և հոսքային տվյալների մշակման աջակցությամբ բազմակողմանի կառուցվածքային տվյալների հավաքածուների, տվյալների հայտնաբերման, անվտանգ մուտքի վերահսկման և SQL վերլուծության համար:
Databricks-ն առաջարկում է տվյալների պահեստավորման գործառույթների մեծ մասը, որոնք կարելի է ակնկալել տեսնել տվյալների լճահաուս հարթակում:
Databricks-ը վերջերս ներկայացրել է իր Auto Loader-ը, որն ավտոմատացնում է ETL-ը և տվյալների մուտքագրումը և օգտագործում տվյալների նմուշառումը տվյալների տարբեր տեսակների սխեման եզրակացնելու համար, որպեսզի ապահովի տվյալների լճի պահպանման ռազմավարության հիմնական բաղադրիչները:
Այլապես, օգտվողները կարող են կառուցել ETL խողովակաշարեր իրենց հանրային ամպային տվյալների լճի և Դելտա լճի միջև՝ օգտագործելով Delta Live Tables:
Թղթի վրա, թվում է, թե Databricks-ն ունի բոլոր առավելությունները, սակայն լուծումը ստեղծելը և դրա տվյալների խողովակաշարերի ստեղծումը պահանջում է մեծ մարդկային աշխատանք հմուտ մշակողներից:
Սանդղակի դեպքում պատասխանը նույնպես ավելի բարդ է դառնում: Դա ավելի բարդ է, քան թվում է:
Ահանա
Տվյալների լիճը միասնական, կենտրոնական վայր է, որտեղ դուք կարող եք պահել ձեր ընտրած ցանկացած տեսակի տվյալներ՝ ներառյալ չկառուցված և կառուցվածքային տվյալներ: AWS S3-ը, Microsoft Azure-ը և Google Cloud Storage-ը տվյալների երեք ընդհանուր լճեր են:
Տվյալների լճերը աներևակայելիորեն սիրված են, քանի որ դրանք շատ մատչելի են և օգտագործման համար պարզ. Դուք կարող եք ըստ էության պահպանել ցանկացած տեսակի տվյալներ այնքան, որքան ցանկանում եք, շատ քիչ գումարով:
Բայց տվյալների լիճը չի առաջարկում ներկառուցված գործիքներ, ինչպիսիք են վերլուծությունը, հարցումը և այլն:
Ձեզ անհրաժեշտ է հարցումների շարժիչ և տվյալների կատալոգ տվյալների լճի վերևում (որտեղ մտնում է Ahana Cloud-ը)՝ ձեր տվյալները հարցումներ անելու և դրանք օգտագործելու համար:
Ինչպես Data Warehouse-ի, այնպես էլ Data Lake-ի լավագույններով, մշակվել է տվյալների լճային տան նոր դիզայն:
Սա ցույց է տալիս, որ այն թափանցիկ է, հարմարվող, ունի լավ գին/արդյունավետություն, տվյալների լճի նման մասշտաբները աջակցում են գործարքներին և ունի անվտանգության բարձր մակարդակ, որը համեմատելի է տվյալների պահեստի հետ:
Ձեր բարձր արդյունավետությամբ SQL հարցումների շարժիչը Data Lakehouse-ի ուղեղն է: Դրա պատճառով դուք կարող եք կատարել բարձր արդյունավետության վերլուծություն ձեր տվյալների լճի տվյալների վրա:
Ahana Cloud-ը Presto-ի համար SaaS է Presto-ի համար AWS-ի համար, ինչը աներևակայելի պարզ է դարձնում Presto-ի օգտագործումը ամպում:
Ձեր S3-ի վրա հիմնված տվյալների լճի համար Ahana-ն արդեն ունի ներկառուցված տվյալների կատալոգ և քեշավորում: Ahana-ն ձեզ տալիս է Presto-ի առանձնահատկությունները՝ չպահանջելով, որ դուք զբաղվեք գլխավերեւում, քանի որ դա անում է ներսից:
AWS Lake Formation-ը, Apache Hudi-ն և Delta Lake-ը գործարքների կառավարիչներից ընդամենը մի քանիսն են, որոնք մաս են կազմում և ինտեգրվում դրա հետ:
Դրեմիո
Կազմակերպությունները ձգտում են արագ, պարզ և արդյունավետ գնահատել արագ աճող տվյալների հսկայական քանակությունը:
Dremio-ն կարծում է, որ բաց տվյալների լճերի տունը համատեղում է տվյալների լճերի առավելությունները, և տվյալների պահեստները բաց հիմունքներով դա իրագործելու լավագույն մոտեցումն է:
Dremio's lakehouse հարթակը ապահովում է փորձ, որն աշխատում է բոլորի համար՝ հեշտ միջերեսով, որը թույլ է տալիս օգտվողներին վերլուծություններ կատարել որոշ ժամանակում:
Dremio Cloud՝ տվյալների լճային տան լիարժեք կառավարվող հարթակ և երկու նոր ծառայությունների գործարկում՝ Dremio Sonar՝ լճային տան հարցումների շարժիչ, և Dremio Arctic՝ Apache Iceberg-ի խելացի մեգախանութ, որը տրամադրում է Git-ի նման եզակի փորձ լճային տան համար:
Կազմակերպության SQL-ի բոլոր ծանրաբեռնվածությունները կարող են գործարկվել անկաշկանդ, անվերջ մասշտաբային Dremio Cloud հարթակի վրա, որը նաև ավտոմատացնում է տվյալների կառավարման խնդիրները:
Այն կառուցված է SQL-ի համար, առաջարկում է Git-ի նման փորձ, բաց կոդով է և միշտ անվճար է:
Նրանք ստեղծել են այն, որպեսզի լինի լճային տան հարթակ, որը պաշտում են տվյալների թիմերը:
Օգտագործելով բաց կոդով աղյուսակը և ֆայլերի ձևաչափերը, ինչպիսիք են Apache Iceberg-ը և Apache Parquet-ը, ձեր տվյալները պահպանվում են ձեր սեփական տվյալների լճի պահեստում Dremio Cloud-ի օգտագործման ժամանակ:
Ապագա նորամուծությունները կարելի է հեշտությամբ ընդունել, և համապատասխան շարժիչը կարելի է ընտրել՝ ելնելով ձեր ծանրաբեռնվածությունից:
Ձյան փաթիլ
Snowflake-ը ամպային տվյալների և վերլուծական հարթակ է, որը կարող է բավարարել տվյալների լճերի և պահեստների կարիքները:
Այն սկսվեց որպես տվյալների պահեստային համակարգ՝ կառուցված ամպային ենթակառուցվածքի վրա:
Պլատֆորմը բաղկացած է կենտրոնացված պահեստից, որը տեղադրված է հանրային ամպային պահեստի վերևում AWS-ից, Microsoft Azure-ից կամ Google Cloud Platform-ից (GCP):
Դրան հաջորդում է բազմակլաստերային հաշվարկային շերտ, որտեղ օգտվողները կարող են գործարկել տվյալների վիրտուալ պահեստ և կատարել SQL հարցումներ իրենց տվյալների պահպանման դեմ:
Ճարտարապետությունը թույլ է տալիս տարանջատել պահեստային և հաշվողական ռեսուրսները՝ թույլ տալով կազմակերպություններին ըստ անհրաժեշտության չափել այդ երկուսը անկախ:
Վերջապես, Snowflake-ն ապահովում է ծառայության շերտ՝ մետատվյալների դասակարգման, ռեսուրսների կառավարման, տվյալների կառավարման, գործարքների և այլ հատկանիշներով:
BI գործիքների միակցիչները, մետատվյալների կառավարումը, մուտքի վերահսկումը և SQL հարցումները տվյալների պահեստի գործառույթներից ընդամենը մի քանիսն են, որոնք հարթակը գերազանցում է առաջարկին:
Snowflake-ը, այնուամենայնիվ, սահմանափակված է մեկ հարաբերական SQL-ի վրա հիմնված հարցումների շարժիչով:
Արդյունքում, այն դառնում է ավելի պարզ, բայց ավելի քիչ հարմարվող, և բազմամոդելի տվյալների լճի տեսլականը չի իրականացվում:
Բացի այդ, նախքան ամպային պահեստի տվյալները որոնելը կամ վերլուծելը, Snowflake-ը բիզնեսներից պահանջում է դրանք բեռնել կենտրոնացված պահեստային շերտում:
Տվյալների ձեռքով մատակարարման ընթացակարգը պահանջում է նախնական ETL, տրամադրում և տվյալների ձևաչափում, նախքան դրանք կարող են ուսումնասիրվել: Ձեռնարկի այս գործընթացների ընդլայնումը նրանց հիասթափեցնում է:
Մեկ այլ տարբերակ, որը, ըստ երևույթին, լավ տեղավորվում է թղթի վրա, բայց իրականում շեղվում է տվյալների պարզ մուտքագրման տվյալների լճի սկզբունքից, Snowflake's data lakehouse-ն է:
Oracle
Ժամանակակից, բաց ճարտարապետությունը, որը հայտնի է որպես «տվյալների լճի տուն», հնարավորություն է տալիս պահպանել, ընկալել և վերլուծել ձեր բոլոր տվյալները:
Առավել սիրված բաց կոդով տվյալների լճի լուծումների լայնությունն ու ճկունությունը համակցված են տվյալների պահեստների հզորության և խորության հետ:
AI-ի նորագույն շրջանակները և նախապես կառուցված AI ծառայությունները կարող են օգտագործվել Oracle Cloud Infrastructure-ի (OCI) տվյալների լեյքհաուսի հետ:
Հնարավոր է աշխատել լրացուցիչ տեսակի տվյալների հետ՝ օգտագործելով բաց կոդով տվյալների լճը: Սակայն այն կառավարելու համար պահանջվող ժամանակն ու ջանքը կարող են մշտական թերություն լինել:
OCI-ն առաջարկում է լիովին կառավարվող բաց կոդով լճային տան ծառայություններ ավելի ցածր սակագներով և ավելի քիչ կառավարմամբ, ինչը թույլ է տալիս կանխատեսել ավելի ցածր գործառնական ծախսեր, ավելի լայնածավալություն և անվտանգություն, ինչպես նաև ձեր բոլոր առկա տվյալները մեկ վայրում համախմբելու կարողություն:
Տվյալների լճի տունը կբարձրացնի տվյալների պահեստների և շուկաների արժեքը, որոնք էական նշանակություն ունեն հաջողակ ձեռնարկությունների համար:
Տվյալները կարելի է առբերել՝ օգտագործելով lakehouse մի քանի վայրերից՝ ընդամենը մեկ SQL հարցումով:
Առկա ծրագրերն ու գործիքները ստանում են թափանցիկ հասանելիություն բոլոր տվյալներին՝ առանց ճշգրտումների կամ նոր հմտություններ ձեռք բերելու:
Եզրափակում
Data lakehouse լուծումների ներդրումը մեծ տվյալների մեջ ավելի մեծ միտումի արտացոլումն է, որը վերլուծական տվյալների և տվյալների պահպանման ինտեգրումն է տվյալների միասնական հարթակներում՝ առավելագույնի հասցնելու բիզնեսի արժեքը տվյալներից՝ միաժամանակ նվազեցնելով արժեքի արդյունահանման ժամանակը, արժեքը և բարդությունը:
Պլատֆորմները, ներառյալ Databricks-ը, Snowflake-ը, Ahana-ն, Dremio-ն և Oracle-ը, բոլորն էլ կապված են «տվյալների լճի տան» գաղափարի հետ, սակայն դրանք յուրաքանչյուրն ունի յուրահատուկ առանձնահատկություններ և հակվածություն՝ ավելի շատ տվյալների պահեստի, քան իրական տվյալների լճի գործելու: որպես ամբողջություն։
Երբ լուծումը շուկայահանվում է որպես «տվյալների լճի տուն», ձեռնարկությունները պետք է զգուշանան, թե դա իրականում ինչ է նշանակում:
Ձեռնարկությունները պետք է նայեն շուկայավարման ժարգոնից այն կողմ, ինչպիսին է «data lakehouse»-ը և փոխարենը ուսումնասիրեն յուրաքանչյուր հարթակի առանձնահատկությունները՝ ընտրելու լավագույն տվյալների հարթակը, որը հետագայում կընդլայնվի իրենց բիզնեսներով:
Թողնել գրառում