Բառը[Թաքցնել][Ցուցադրում]
Ընկերությունները ավելի շատ տվյալներ են հավաքում, քան երբևէ, քանի որ դրանք ավելի ու ավելի են ապավինում դրանց՝ կարևոր բիզնես որոշումներ կայացնելու, ապրանքների առաջարկները բարելավելու և հաճախորդներին ավելի լավ սպասարկում ապահովելու համար:
Տվյալների քանակով, որը ստեղծվում է էքսպոնենցիալ արագությամբ, ամպը մի շարք առավելություններ է տալիս տվյալների մշակման և վերլուծության համար, ներառյալ մասշտաբայնությունը, հուսալիությունը և մատչելիությունը:
Ամպային էկոհամակարգում կան նաև տվյալների մշակման և վերլուծության մի քանի գործիքներ և տեխնոլոգիաներ: Մեծ տվյալների պահպանման կառույցների երկու տեսակները, որոնք առավել հաճախ օգտագործվում են, տվյալների պահեստներն են և տվյալների լճերը:
Թեև տվյալների լճի օգտագործումն ավելի քիչ գրավիչ է, քանի որ դուք չեք կարող հարցումներ կատարել մոդելի և տվյալների վրա, քանի դեռ դրանք տեղին են, տվյալների պահեստի օգտագործումը տվյալների հոսքային տվյալների պահպանման համար վատնում է:
Wամպային ճարտարապետության ո՞ր տեսակն ենք մենք ընտրում:
Արդյո՞ք մենք պետք է հաշվի առնենք տվյալների լճի տան համար ավելի նոր հայեցակարգեր, թե՞ պետք է բավարարվենք պահեստի սահմանափակումներով կամ լճի սահմանափակումներով:
Տվյալների պահպանման նոր ճարտարապետությունը, որը կոչվում է «տվյալների լճանոց», համատեղում է տվյալների լճերի հարմարվողականությունը տվյալների պահեստների տվյալների կառավարման հետ:
Մեծ տվյալների պահպանման տարբեր մեթոդների ըմբռնումը կարևոր է բիզնես հետախուզության (BI), տվյալների վերլուծության և տվյալների պահպանման հուսալի խողովակաշար կառուցելու համար: Machine Learning (ML) ծանրաբեռնվածությունը՝ կախված ձեր ընկերության պահանջներից:
Այս գրառման մեջ մենք ուշադիր կանդրադառնանք Data Warehouse-ին, Data Lake-ին և Data Lakehouse-ին՝ դրանց առավելություններով, սահմանափակումներով, ինչպես նաև դրանց դրական և բացասական կողմերով: Եկեք սկսենք.
Ի՞նչ է տվյալների պահեստը:
Տվյալների պահեստը կենտրոնացված տվյալների շտեմարան է, որն օգտագործվում է կազմակերպության կողմից՝ բազմաթիվ աղբյուրներից հսկայական քանակությամբ տվյալների պահելու համար: Տվյալների պահեստը գործում է որպես կազմակերպության «տվյալների ճշմարտության» միակ աղբյուրը և կարևոր է հաշվետվության և բիզնեսի վերլուծության համար:
Որպես կանոն, տվյալների պահեստները միավորում են հարաբերական տվյալների հավաքածուները մի քանի աղբյուրներից, ինչպիսիք են կիրառական, բիզնես և գործարքային տվյալները՝ պատմական տվյալներ պահելու համար: Նախքան պահեստավորման համակարգ բեռնելը, տվյալները փոխակերպվում և մաքրվում են տվյալների պահեստներում, որպեսզի դրանք կարողանան օգտագործվել որպես տվյալների ճշմարտության մեկ աղբյուր:
Ընկերության բոլոր ոլորտներից արագորեն բիզնես պատկերացումներ առաջարկելու իրենց կարողության շնորհիվ ձեռնարկությունները ներդրումներ են կատարում տվյալների պահեստներում: BI գործիքների, SQL հաճախորդների և այլ ոչ այնքան բարդ (այսինքն՝ ոչ տվյալների գիտության) վերլուծական լուծումների օգտագործմամբ, բիզնեսի վերլուծաբաններ, տվյալների ինժեներները և որոշում կայացնողները կարող են մուտք գործել տվյալներ տվյալների պահեստներից:
Տվյալների անընդհատ աճող ծավալով պահեստ պահելը թանկ է, և տվյալների պահեստը չի կարող մշակել չմշակված կամ չկառուցված տվյալներ: Բացի այդ, դա իդեալական տարբերակ չէ տվյալների վերլուծության բարդ տեխնիկայի համար, ինչպիսիք են մեքենայական ուսուցումը կամ կանխատեսող մոդելավորումը:
Հետևաբար, տվյալների պահեստը ապահովում է հարցումների ավելի արագ պատասխաններ և ավելի բարձր որակի տվյալներ: Google Big Query-ը, Amazon Redshift-ը, Azure SQL Data warehouse-ը և Snowflake-ը ամպային ծառայություններ են, որոնք հասանելի են տվյալների պահեստների համար:
Տվյալների պահեստի առավելությունները
- Բիզնես հետախուզության և տվյալների վերլուծության աշխատանքային ծանրաբեռնվածության արդյունավետության և արագության բարձրացումՏվյալների պահեստները կրճատում են տվյալների պատրաստման և վերլուծության համար անհրաժեշտ ժամանակը: Նրանք կարող են հեշտությամբ կապվել տվյալների վերլուծության և բիզնեսի հետախուզության գործիքների հետ, քանի որ տվյալների պահեստից ստացված տվյալները հուսալի և հետևողական են: Բացի այդ, տվյալների պահեստները խնայում են տվյալների հավաքագրման համար անհրաժեշտ ժամանակը և թիմերին հնարավորություն են տալիս օգտագործել տվյալները հաշվետվությունների, վահանակների և վերլուծական այլ պահանջների համար:
- Տվյալների հետևողականության, որակի և ստանդարտացման բարձրացումԿազմակերպությունները հավաքում են տվյալներ տարբեր աղբյուրներից, ներառյալ օգտատերերի, վաճառքի և գործարքների տվյալները: Ընկերությունը կարող է վստահել տվյալներին բիզնեսի պահանջների համար, քանի որ տվյալների պահեստավորումը կազմում է կորպորատիվ տվյալները միասնական, ստանդարտացված ձևաչափով, որը կարող է գործել որպես տվյալների ճշմարտության մեկ աղբյուր:
- Ընդհանրապես որոշումների կայացման ուժեղացումՏվյալների պահեստավորումը հեշտացնում է ավելի լավ որոշումների կայացումը՝ առաջարկելով կենտրոնացված խանութ ինչպես վերջին, այնպես էլ հին տվյալների համար: Հստակ պատկերացումների համար տվյալների պահեստներում մշակելով տվյալները՝ որոշում կայացնողները կարող են գնահատել ռիսկերը, հասկանալ հաճախորդների ցանկությունները և բարելավել ապրանքներն ու ծառայությունները:
- Ավելի լավ բիզնես ինտելեկտի ապահովումՏվյալների պահեստավորումը կամրջում է հսկայական հում տվյալների միջև եղած բացը, որոնք հաճախ սովորաբար հավաքվում են որպես բնականոն գործ, և մշակված տվյալների միջև, որոնք պատկերացումներ են տալիս: Նրանք հանդես են գալիս որպես կազմակերպության տվյալների պահպանման հիմք՝ հնարավորություն տալով նրան պատասխանել իր տվյալների վերաբերյալ բարդ հարցերին և օգտագործել պատասխանները՝ պաշտպանելի բիզնես որոշումներ կայացնելու համար:
Տվյալների պահեստի սահմանափակումները
- Տվյալների ճկունության բացակայությունԹեև տվյալների պահեստները գերազանցում են կառուցվածքային տվյալների մշակման հարցում, կիսակառույց և չկառուցված տվյալների ձևաչափերը, ինչպիսիք են տեղեկամատյանների վերլուծությունը, հոսքը և սոցիալական մեդիայի տվյալները, կարող են դժվար լինել նրանց համար: Սա ստիպում է առաջարկել տվյալների պահեստներ օգտագործման դեպքերի համար, որոնք ներառում են մեքենայական ուսուցում և Արհեստական բանականություն դժվար
- Տեղադրման և պահպանման ծախսատարՏվյալների պահեստների տեղադրումը և պահպանումը կարող է թանկ լինել: Ավելին, տվյալների պահեստը հաճախ ստատիկ չէ. այն ծերանում է և հաճախակի պահպանման կարիք ունի, ինչը թանկ արժե:
Կոալիցիայում
- Տվյալները հեշտ է գտնել, առբերել և հարցումներ կատարել:
- Քանի դեռ տվյալներն արդեն մաքուր են, SQL տվյալների պատրաստումը պարզ է:
Դեմ
- Դուք ստիպված եք օգտագործել միայն մեկ վերլուծական վաճառող:
- Չկառուցված կամ հոսող տվյալների վերլուծությունը և պահպանումը բավականին ծախսատար է:
Ի՞նչ է Data Lake-ը:
Յուրաքանչյուր տեսակի տվյալ խոստանում և հնարավոր է դառնում տվյալների լճերի շնորհիվ: Շահավետ է, որ տվյալները մատչելի կերպով տեղակայված լինեն կենտրոնում և հասանելի՝ ընթերցման համար:
Տվյալների լիճը կենտրոնացված, չափազանց հարմարվող պահեստային տարածք է, որտեղ կազմակերպված և չկառուցված տվյալների զանգվածային ծավալները պահվում են իրենց չմշակված, անփոփոխ և չֆորմատավորված ձևերով:
Տվյալների լիճը օգտագործում է հարթ ճարտարապետություն և իր չմշակված վիճակում պահվող առարկաները՝ տվյալների պահպանման համար, ի տարբերություն տվյալների պահեստների, որոնք պահպանում են նախկինում «մաքրված» հարաբերական տվյալները:
Տվյալների լճերը, ի տարբերություն տվյալների պահեստների, որոնք դժվարությամբ են մշակում տվյալ ձևաչափով տվյալները, հարմարվողական են, հուսալի և մատչելի և թույլ են տալիս ձեռնարկություններին ավելի լավ պատկերացում կազմել չկառուցված տվյալներից:
Տվյալների լճերում տվյալները արդյունահանվում, բեռնվում և փոխակերպվում են (ELT) վերլուծական նպատակներով, այլ ոչ թե տվյալների հավաքագրման պահին հաստատված սխեման կամ տվյալները:
Օգտագործելով տեխնոլոգիաներ բազմաթիվ տվյալների տեսակների համար IoT սարքերից, սոցիալական լրատվամիջոցներիև հոսքային տվյալները, տվյալների լճերը հնարավորություն են տալիս մեքենայական ուսուցման և կանխատեսող վերլուծությունների:
Բացի այդ, տվյալների գիտնականը, ով կարող է մշակել չմշակված տվյալները, կարող է օգտագործել տվյալների լիճը: Տվյալների պահեստը, մյուս կողմից, բիզնեսի համար ավելի հեշտ է օգտագործել: Այն կատարյալ է օգտատերերի պրոֆիլավորման համար, կանխատեսելի վերլուծություն, մեքենայական ուսուցում և այլ առաջադրանքներ։
Չնայած տվյալների լճերը լուծում են տվյալների պահեստների հետ կապված մի շարք խնդիրներ, դրանց տվյալների որակը վատ է, իսկ հարցումների արագությունը՝ անբավարար: Բացի այդ, բիզնես օգտագործողներին անհրաժեշտ է լրացուցիչ գործիքներ SQL հարցումներ իրականացնելու համար: Վատ կառուցվածք ունեցող տվյալների լիճը կարող է խնդիրներ ունենալ տվյալների լճացման հետ:
Data Lake-ի առավելությունները
- Աջակցություն մեքենայական ուսուցման և տվյալների գիտության կիրառման դեպքերի լայն շրջանակի համար Ավելի պարզ է օգտագործել այլ մեքենա և խորը ուսուցման ալգորիթմներ տվյալների լճերում տվյալների մշակման համար, քանի որ տվյալները պահվում են բաց, չմշակված ձևով:
- Տվյալների լճերի բազմակողմանիությունը, որը թույլ է տալիս պահել տվյալները ցանկացած ձևաչափով կամ կրիչով առանց նախադրված սխեմայի պահանջի, մեծ առավելություն է: Ապագա տվյալների օգտագործման դեպքերը կարող են աջակցվել, և ավելի շատ տվյալներ կարող են վերլուծվել, եթե տվյալները մնան սկզբնական վիճակում:
- Երկու տեսակի տվյալների տարբեր համատեքստերում պահելու անհրաժեշտությունից խուսափելու համար տվյալների լճերը կարող են պարունակել ինչպես կառուցվածքային, այնպես էլ ոչ կառուցվածքային տվյալներ: Տարբեր տեսակի կազմակերպչական տվյալների պահպանման համար նրանք առաջարկում են մեկ տեղակայում:
- Տվյալների ավանդական պահեստների համեմատ տվյալների լճերն ավելի քիչ թանկ են, քանի որ դրանք կառուցված են էժան ապրանքային սարքավորումների վրա պահելու համար, ինչպիսին է օբյեկտների պահեստավորումը, որը հաճախ նախատեսված է մեկ գիգաբայթի համար ավելի ցածր գնով:
Data Lake-ի սահմանափակումները
- Տվյալների վերլուծության և բիզնես ինտելեկտի օգտագործման դեպքերը վատ են գնահատվում. Տվյալների լճերը կարող են անկազմակերպ դառնալ, եթե դրանք պատշաճ կերպով չպահպանվեն, ինչը դժվարացնում է դրանք բիզնես հետախուզության և վերլուծական գործիքների հետ կապելը: Բացի այդ, երբ անհրաժեշտ է հաշվետվությունների և վերլուծությունների օգտագործման դեպքեր, հետևողականության բացակայություն տվյալների կառուցվածքները և ACID (ատոմականություն, հետևողականություն, մեկուսացում և ամրություն) գործարքային աջակցությունը կարող է հանգեցնել հարցումների ոչ օպտիմալ կատարման:
- Տվյալների լճերի անհամապատասխանությունը անհնարին է դարձնում տվյալների հուսալիությունը և անվտանգությունը, ինչը հանգեցնում է երկուսի բացակայությանը: Հնարավոր է, որ դժվար լինի մշակել տվյալների անվտանգության և կառավարման համապատասխան չափորոշիչներ՝ տվյալների զգայուն տեսակներին սպասարկելու համար, քանի որ տվյալների լճերը կարող են մշակել տվյալների ցանկացած ձև:
Կոալիցիայում
- Լուծումներ, որոնք մատչելի են բոլոր տեսակի տվյալների համար:
- Կարողանում է կարգավորել տվյալներ, որոնք և՛ կազմակերպված են, և՛ կիսակառույց:
- Իդեալական է բարդ տվյալների մշակման և հոսքի համար:
Դեմ
- Կառուցելու համար անհրաժեշտ է բարդ խողովակաշար:
- Տվյալներին որոշ ժամանակ տրամադրեք՝ հարցման ենթակա դառնալու համար:
- Տվյալների հուսալիությունն ու որակը երաշխավորելու համար ժամանակ է պահանջվում:
Ի՞նչ է Data Lakehouse-ը:
Մեծ տվյալների պահպանման նորագույն ճարտարապետությունը, որը կոչվում է «տվյալների լճարան», միավորում է տվյալների լճերի և տվյալների պահեստների մեծագույն ասպեկտները: Ձեր բոլոր տվյալները՝ լինեն կառուցվածքային, կիսակառույց կամ չկառուցված, կարող են պահվել մեկ վայրում՝ լավագույն մեքենայական ուսուցման, բիզնես ինտելեկտի և հոսքային հնարավորությունների շնորհիվ՝ տվյալների լճի տան շնորհիվ:
Բոլոր տեսակի տվյալների լճերը հաճախ հանդիսանում են տվյալների լճային տների մեկնարկային կետը. դրանից հետո տվյալները վերածվում են Delta Lake ձևաչափի (բաց կոդով պահեստավորման շերտ, որը հուսալիություն է հաղորդում տվյալների լճերին):
Տվյալների լճերը դելտա լճերով հնարավորություն են տալիս ACID գործարքների ընթացակարգերը սովորական տվյալների պահեստներից: Ըստ էության, Lakehouse համակարգը օգտագործում է էժան պահեստավորում, որպեսզի պահպանի հսկայական քանակությամբ տվյալներ իրենց սկզբնական ձևերով, ինչպես տվյալների լճերը:
Խանութի վերևում մետատվյալների շերտ ավելացնելը նաև տալիս է տվյալների կառուցվածքը և հզորացնում տվյալների կառավարման գործիքները, ինչպիսիք են տվյալների պահեստներում հայտնաբերվածները:
Սա հնարավորություն է տալիս շատ թիմերի մուտք գործել ընկերության բոլոր տվյալները մեկ համակարգի միջոցով տարբեր նախաձեռնությունների համար, ինչպիսիք են տվյալների գիտությունը, մեքենայական ուսուցումը և բիզնեսի հետախուզությունը:
Data Lakehouse-ի առավելությունները
- Աջակցություն աշխատանքային բեռների ավելի մեծ շրջանակի համար. բարդ վերլուծությունները հեշտացնելու համար տվյալների լճահաուսներն օգտատերերին ուղղակիորեն հասանելի են դարձնում բիզնես հետախուզության ամենահայտնի գործիքներից մի քանիսը (Tableau, PowerBI): Բացի այդ, տվյալների գիտնականները և մեքենայական ուսուցման ինժեներները կարող են հեշտությամբ օգտագործել տվյալները, քանի որ տվյալների լճային տները օգտագործում են բաց տվյալների ձևաչափեր (օրինակ՝ Parquet) API-ների և մեքենայական ուսուցման շրջանակների հետ միասին, ինչպիսիք են Python/R-ը:
- Ծախսերի արդյունավետություն. Տվյալների լճային տները օգտագործում են օբյեկտների պահպանման էժան լուծումներ՝ տվյալների լճերի պահպանման ծախսարդյունավետ բնութագրերն իրականացնելու համար: Մեկ լուծում առաջարկելով՝ տվյալների լճային տները նաև վերացնում են տարբեր տվյալների պահպանման համակարգերի կառավարման հետ կապված ծախսերն ու ժամանակը:
- Data Lakehouse-ի դիզայնը ապահովում է սխեմայի և տվյալների ամբողջականությունը՝ հեշտացնելով տվյալների անվտանգության և կառավարման արդյունավետ համակարգերի կառուցումը: Հեշտություն տվյալների տարբերակավորում, կառավարում և անվտանգություն։
- Տվյալների լճային տներն առաջարկում են տվյալների պահպանման մեկ, բազմաֆունկցիոնալ հարթակ, որը կարող է բավարարել ընկերության տվյալների բոլոր պահանջները, ինչը նվազեցնում է տվյալների կրկնօրինակումը: Բիզնեսների մեծամասնությունը ընտրում է հիբրիդային լուծում՝ հաշվի առնելով ինչպես տվյալների պահեստի, այնպես էլ տվյալների լճի առավելությունները: Այս ռազմավարությունը, մինչդեռ, կարող է հանգեցնել ծախսատար տվյալների կրկնօրինակման:
- Բաց ձևաչափերի աջակցություն: Բաց ձևաչափերը ֆայլերի տեսակներ են, որոնք կարող են օգտագործվել բազմաթիվ ծրագրային հավելվածների կողմից և որոնց բնութագրերը հասանելի են հանրությանը: Ըստ զեկույցների, Lakehouses-ը կարող է տվյալներ պահել սովորական ֆայլերի ձևաչափերով, ինչպիսիք են Apache Parquet-ը և ORC-ը (Optimized Row Columnar):
Data Lakehouse-ի սահմանափակումները
Data Lakehouse-ի ամենամեծ թերությունն այն է, որ այն դեռ երիտասարդ և զարգացող տեխնոլոգիա է: Անորոշ է` արդյունքում նա կկատարի ստանձնած պարտավորությունները: Նախքան տվյալների լճային տները կարող են մրցակցել մեծ տվյալների պահպանման համակարգերի հետ, դա կարող է տևել տարիներ:
Այնուամենայնիվ, հաշվի առնելով այն արագությունը, որով ժամանակակից նորարարությունը տեղի է ունենում, դժվար է ասել, թե արդյոք տվյալների պահպանման այլ համակարգ, ի վերջո, չի փոխարինի դրան:
Կոալիցիայում
- Մեկ հարթակ ունի բոլոր տվյալները, ինչը նշանակում է, որ ավելի քիչ հյուրընկալող անուններ կան պահպանելու համար:
- Ատոմականությունը, հետևողականությունը, մեկուսացումը և ամրությունը չեն ազդում:
- Այն զգալիորեն ավելի մատչելի է։
- Մեկ հարթակ ունի բոլոր տվյալները, ինչը նշանակում է, որ ավելի քիչ հյուրընկալող անուններ կան պահպանելու համար:
- Հեշտ է կառավարել և արագ լուծել ցանկացած խնդիր
- Դյուրին դարձրեք խողովակաշարի կառուցումը
Դեմ
- Կարգավորումը կարող է որոշ ժամանակ տևել:
- Այն չափազանց երիտասարդ է և շատ հեռու՝ որպես հաստատված պահեստավորման համակարգ որակվելու համար:
Տվյալների պահեստ Vs Data Lake Vs Data Lakehouse
Տվյալների պահեստը երկար պատմություն ունի կորպորատիվ հետախուզության, հաշվետվության և վերլուծական հավելվածների մեջ և հանդիսանում է մեծ տվյալների պահպանման առաջին տեխնոլոգիան:
Տվյալների պահեստները, մյուս կողմից, թանկ են և խնդիրներ ունեն տարբեր և չկառուցված տվյալների հետ աշխատելու հետ, ինչպիսիք են հոսքային տվյալները: Մեքենայական ուսուցման և տվյալների գիտության աշխատանքային ծանրաբեռնվածության համար տվյալների լճերը մշակվել են՝ մատչելի պահեստավորման դեպքում տարբեր ձևերով չմշակված տվյալները կառավարելու համար:
Չնայած տվյալների լճերը արդյունավետ են չկառուցված տվյալների դեպքում, դրանք չունեն տվյալների պահեստների ACID գործարքային հնարավորությունները, ինչը դժվար է դարձնում տվյալների հետևողականության և հուսալիության երաշխավորումը:
Տվյալների պահպանման նորագույն ճարտարապետությունը, որը հայտնի է որպես «տվյալների լճարան», համատեղում է տվյալների պահեստների հուսալիությունն ու հետևողականությունը տվյալների լճերի մատչելիության և հարմարվողականության հետ:
Եզրափակում
Եզրափակելով՝ զրոյից տվյալների լճանոց կառուցելը կարող է դժվար լինել: Ավելին, դուք գրեթե անկասկած կօգտագործեք հարթակ, որը նախատեսված է բաց տվյալների լճային տան ճարտարապետությունը հնարավորություն տալու համար:
Հետևաբար, զգույշ եղեք՝ նախքան գնում կատարելը, ուսումնասիրեք յուրաքանչյուր հարթակի բազմաթիվ առանձնահատկություններն ու իրականացումները: Ընկերությունները, որոնք փնտրում են հասուն, կառուցվածքային տվյալների լուծում՝ կենտրոնանալով բիզնեսի հետախուզության և տվյալների վերլուծության օգտագործման դեպքերի վրա, կարող են դիտարկել տվյալների պահեստ:
Այնուամենայնիվ, ձեռնարկությունները, որոնք փնտրում են լայնածավալ, մատչելի մեծ տվյալների լուծում՝ տվյալների գիտության և չկառուցված տվյալների վրա մեքենայական ուսուցման համար աշխատանքային ծանրաբեռնվածության համար, պետք է հաշվի առնեն տվյալների լճերը:
Հաշվի առեք, որ ձեր բիզնեսին ավելի շատ տվյալներ են պետք, քան կարող են տրամադրել տվյալների պահեստը և տվյալների լճի տեխնոլոգիաները, կամ որ դուք լուծում եք փնտրում՝ ձեր տվյալների վրա բարդ վերլուծական և մեքենայական ուսուցման գործողությունները ինտեգրելու համար: Ա տվյալների լճահաուս իրավիճակում խելամիտ տարբերակ է:
Թողնել գրառում