შესაძლოა ცოტა რთული იყოს ყველა არსებული სერვისისა და არქიტექტურული ვარიანტის გათვალისწინება მონაცემთა პლატფორმებზე ფიქრისას.
საწარმოს მონაცემთა პლატფორმა ხშირად შედგება მონაცემთა საწყობებისგან, მონაცემთა მოდელებისგან, მონაცემთა ტბებისგან და ანგარიშებისგან, თითოეულს აქვს კონკრეტული მიზანი და საჭირო უნარების ნაკრები. ამის საპირისპიროდ, ბოლო რამდენიმე წლის განმავლობაში გაჩნდა ახალი დიზაინი სახელწოდებით data lakehouse.
მონაცემთა ტბების მრავალფეროვნება და მონაცემთა საწყობის მონაცემთა მენეჯმენტი გაერთიანებულია მონაცემთა შენახვის რევოლუციურ არქიტექტურაში, რომელსაც ეწოდება "მონაცემთა ტბის სახლი".
ამ პოსტში სიღრმისეულად განვიხილავთ ტბაჰაუსს, მის კომპონენტებს, მახასიათებლებს, არქიტექტურას და სხვა ასპექტებს.
რა არის Data Lakehouse?
როგორც სახელი გულისხმობს, მონაცემთა ტბის სახლი არის მონაცემთა არქიტექტურის ახალი ტიპი, რომელიც აერთიანებს მონაცემთა ტბას მონაცემთა საწყობთან, რათა გადაჭრას თითოეულის ხარვეზები ცალკე.
არსებითად, Lakehouse სისტემა იყენებს იაფ საცავს, რათა შეინარჩუნოს მასიური რაოდენობის მონაცემები თავდაპირველ ფორმებში, ისევე როგორც მონაცემთა ტბებს. მეტამონაცემების ფენის დამატება მაღაზიის თავზე ასევე იძლევა მონაცემთა სტრუქტურას და აძლიერებს მონაცემთა მართვის ინსტრუმენტებს, როგორიცაა მონაცემთა საწყობებში ნაპოვნი.
ის ინახავს ორგანიზებული, ნახევრად სტრუქტურირებული და არასტრუქტურირებული მონაცემების უზარმაზარ რაოდენობას, რომელსაც ისინი იღებენ სხვადასხვა ბიზნეს აპლიკაციებიდან, სისტემებიდან და გაჯეტებიდან, რომლებიც გამოიყენება მთელ მათ ორგანიზაციაში.
უმეტეს შემთხვევაში, მონაცემთა ტბები იყენებენ იაფფასიან შენახვის ინფრასტრუქტურას ფაილის აპლიკაციის პროგრამირების ინტერფეისით (API), რათა შეინახონ მონაცემები ღია, ზოგადი ფაილის ფორმატებში.
ეს საშუალებას აძლევს ბევრ გუნდს წვდომა ჰქონდეს კომპანიის ყველა მონაცემზე ერთი სისტემის მეშვეობით სხვადასხვა ინიციატივისთვის, როგორიცაა მონაცემთა მეცნიერება, მანქანა სწავლისდა ბიზნეს ინტელექტი.
მისი მახასიათებლებია;
- იაფი შენახვა. მონაცემთა lakehouse-ს უნდა შეეძლოს მონაცემთა შენახვა ობიექტების იაფ საცავში, როგორიცაა Google Cloud შენახვა, Azure Blob Storage, Amazon Simple Storage Service, ან მშობლიური ORC ან პარკეტის გამოყენებით.
- მონაცემთა ოპტიმიზაციის შესაძლებლობა: მონაცემთა განლაგების ოპტიმიზაცია, ქეშირება და ინდექსირება არის რამდენიმე მაგალითი იმისა, თუ როგორ უნდა შეძლოს მონაცემთა ტბას მონაცემთა ოპტიმიზაცია მონაცემთა ორიგინალური ფორმატის შენარჩუნებისას.
- ტრანზაქციების მეტამონაცემების ფენა: არსებითი დაბალფასიანი შენახვის გარდა, ეს იძლევა მონაცემთა მართვის შესაძლებლობებს, რომლებიც გადამწყვეტია მონაცემთა საწყობის მუშაობისთვის.
- დეკლარაციული DataFrame API-ს მხარდაჭერა: AI ინსტრუმენტების უმრავლესობას შეუძლია გამოიყენოს DataFrames ნედლეული ობიექტების მაღაზიის მონაცემების მისაღებად. დეკლარაციული DataFrame API-ის მხარდაჭერა ზრდის მონაცემთა პრეზენტაციისა და სტრუქტურის დინამიურად გაუმჯობესების უნარს მონაცემთა კონკრეტული მეცნიერების ან AI ამოცანის საპასუხოდ.
- ACID ტრანზაქციების მხარდაჭერა: ACID აკრონიმი, რომელიც ნიშნავს ატომურობას, თანმიმდევრულობას, იზოლაციას და გამძლეობას, არის კრიტიკული კომპონენტი ტრანზაქციის განსაზღვრაში და მონაცემთა თანმიმდევრულობისა და საიმედოობის უზრუნველსაყოფად. ასეთი ტრანზაქციები ადრე მხოლოდ მონაცემთა საწყობებში იყო შესაძლებელი, მაგრამ lakehouse გთავაზობთ მათი გამოყენების შესაძლებლობას მონაცემთა ტბებით როგორც. რამდენიმე მონაცემთა მილსადენით, მათ შორის მონაცემთა წაკითხვისა და ჩაწერის პარალელურად, ეს წყვეტს ამ უკანასკნელის მონაცემთა დაბალი ხარისხის პრობლემას.
Data Lakehouse-ის ელემენტები
მონაცემთა ტბის არქიტექტურა მაღალ დონეზე იყოფა ორ მთავარ იარუსად. შენახვის ფენის მონაცემების მიღებას აკონტროლებს Lakehouse პლატფორმა (ანუ მონაცემთა ტბა).
მონაცემთა საწყობში მონაცემების ჩატვირთვის ან საკუთრების ფორმატში გადაყვანის საჭიროების გარეშე, დამუშავების ფენას შეუძლია მოიძიოს მონაცემები საცავის ფენაში უშუალოდ სხვადასხვა ხელსაწყოების გამოყენებით.
შემდეგ, BI აპებს, ისევე როგორც AI და ML ტექნოლოგიებს, შეუძლიათ გამოიყენონ მონაცემები. მონაცემთა ტბის ეკონომიკა მოცემულია ამ დიზაინით, მაგრამ იმის გამო, რომ ნებისმიერ გადამამუშავებელ ძრავას შეუძლია წაიკითხოს ეს მონაცემები, ბიზნესს აქვს თავისუფლება, გახადოს მომზადებული მონაცემები ხელმისაწვდომი ანალიზისთვის სხვადასხვა სისტემების მიერ. პროცესორის მუშაობა და ღირებულება შეიძლება გაუმჯობესდეს ამ მეთოდის გამოყენებით დამუშავებისა და ანალიზისთვის.
მონაცემთა ბაზის ტრანზაქციების მხარდაჭერის გამო, რომლებიც იცავენ შემდეგ ACID (ატომურობა, თანმიმდევრულობა, იზოლაცია და გამძლეობა) კრიტერიუმებს, არქიტექტურა ასევე საშუალებას აძლევს ბევრ მხარეს წვდომა და დაწეროს მონაცემები ერთდროულად სისტემაში:
- ატომურობა ეხება იმ ფაქტს, რომ ან სრული ტრანზაქცია ან არც ერთი, წარმატებულია ტრანზაქციის დასრულებისას. პროცესის შეწყვეტის შემთხვევაში, ეს დაგეხმარებათ თავიდან აიცილოთ მონაცემების დაკარგვა ან კორუფცია.
- მდგრადობა გარანტიას, რომ ტრანზაქციები ხდება პროგნოზირებადი, თანმიმდევრული გზით. იგი ინარჩუნებს მონაცემთა მთლიანობას იმის უზრუნველსაყოფად, რომ ყველა მონაცემი არის ლეგიტიმური წინასწარ განსაზღვრული წესების შესაბამისად.
- იზოლაცია უზრუნველყოფს, რომ მის დასრულებამდე არცერთ ტრანზაქციას არ შეუძლია გავლენა მოახდინოს სისტემის შიგნით არსებულ სხვა ტრანზაქციაზე. ეს საშუალებას აძლევს მრავალ მხარეს წაიკითხონ და დაწერონ ერთი და იგივე სისტემიდან ერთდროულად, ერთმანეთთან ჩარევის გარეშე.
- გამძლეობა გარანტიას იძლევა, რომ სისტემაში არსებული მონაცემების ცვლილებები გაგრძელდება ტრანზაქციის დასრულების შემდეგ, სისტემის უკმარისობის შემთხვევაშიც კი. ტრანზაქციის შედეგად გამოწვეული ნებისმიერი ცვლილება სამუდამოდ ინახება ფაილში.
Data Lakehouse Architecture
Databricks (მათი Delta Lake კონცეფციის ინოვატორი და დიზაინერი) და AWS არის მონაცემთა ტბის სახლის კონცეფციის ორი მთავარი დამცველი. ამგვარად, ჩვენ დავეყრდნობით მათ ცოდნას და გამჭრიახობას ტბის სახლების არქიტექტურული განლაგების აღსაწერად.
მონაცემთა ტბის სისტემას, როგორც წესი, ექნება ხუთი ფენა:
- გადაყლაპვის ფენა
- შენახვის ფენა
- მეტამონაცემების ფენა
- API ფენა
- მოხმარების ფენა
გადაყლაპვის ფენა
სისტემის პირველი ფენა პასუხისმგებელია სხვადასხვა წყაროდან მონაცემების შეგროვებასა და შენახვის ფენაში გაგზავნაზე. ფენას შეუძლია გამოიყენოს რამდენიმე პროტოკოლი მრავალ შიდა და გარე წყაროსთან დასაკავშირებლად, მათ შორის მონაცემთა დამუშავების სერიული და სტრიმინგის შესაძლებლობების გაერთიანება, როგორიცაა
- NoSQL მონაცემთა ბაზები,
- ფაილის გაზიარება
- CRM აპლიკაციები,
- საიტებზე,
- IoT სენსორები,
- სოციალური მედია,
- პროგრამული უზრუნველყოფა როგორც სერვისი (SaaS) აპლიკაციები და
- მონაცემთა ბაზის რელაციური მართვის სისტემები და ა.შ.
ამ ეტაპზე შეიძლება გამოყენებულ იქნას ისეთი კომპონენტები, როგორიცაა Apache Kafka მონაცემთა ნაკადისთვის და Amazon Data Migration Service (Amazon DMS) RDBMS და NoSQL მონაცემთა ბაზებიდან მონაცემების იმპორტისთვის.
შენახვის ფენა
Lakehouse არქიტექტურა გამიზნულია სხვადასხვა ტიპის მონაცემების, როგორც ობიექტების შესანახად იაფფასიან ობიექტების მაღაზიებში, როგორიცაა AWS S3. ღია ფაილის ფორმატების გამოყენებით, კლიენტის ხელსაწყოებს შეუძლიათ წაიკითხონ ეს ელემენტები პირდაპირ მაღაზიიდან.
ეს შესაძლებელს ხდის ბევრ API-ს და მოხმარების ფენის კომპონენტს წვდომა და გამოიყენოს იგივე მონაცემები. მეტამონაცემების ფენა ინახავს სქემებს სტრუქტურირებული და ნახევრად სტრუქტურირებული მონაცემთა ნაკრებისთვის, რათა კომპონენტებმა შეძლონ მათი გამოყენება მონაცემებზე წაკითხვისას.
მაგალითად, Hadoop Distributed File System (HDFS) პლატფორმა შეიძლება გამოყენებულ იქნას ღრუბლოვანი საცავის სერვისების ასაგებად, რომლებიც ანაწილებენ გამოთვლით და შენახვას შენობებში. Lakehouse იდეალურად შეეფერება ამ სერვისებს.
მეტამონაცემების ფენა
მეტამონაცემების ფენა არის მონაცემთა ტბის ფუნდამენტური კომპონენტი, რომელიც განასხვავებს ამ დიზაინს. ეს არის ერთი კატალოგი, რომელიც გთავაზობთ მეტამონაცემებს (ინფორმაციას სხვა მონაცემთა ნაწილების შესახებ) ტბაში შენახული ყველა ელემენტისთვის და საშუალებას აძლევს მომხმარებლებს გამოიყენონ ადმინისტრაციის შესაძლებლობები, როგორიცაა:
- მონაცემთა ბაზის თანმიმდევრული ვერსია ჩანს თანმხლები ტრანზაქციებით ACID ტრანზაქციების წყალობით;
- ქეშირება ღრუბლოვანი ობიექტების შენახვის ფაილების შესანახად;
- მონაცემთა სტრუქტურის ინდექსების დამატება ინდექსირების გამოყენებით შეკითხვის დამუშავების დასაჩქარებლად;
- ნულოვანი ასლის კლონირების გამოყენება მონაცემთა ობიექტების დუბლირებისთვის; და
- მონაცემთა გარკვეული ვერსიების შესანახად და ა.შ. გამოიყენეთ მონაცემთა ვერსიები.
გარდა ამისა, მეტამონაცემების ფენა იძლევა სქემის მენეჯმენტის განხორციელებას, DW სქემის ტოპოლოგიების გამოყენებას, როგორიცაა ვარსკვლავი/ფიფქი სქემები, და მონაცემთა მართვისა და აუდიტის შესაძლებლობების უზრუნველყოფა პირდაპირ მონაცემთა ტბაზე, რაც აძლიერებს მონაცემთა მთლიანობის მთლიანობას.
სქემის ევოლუციისა და აღსრულების ფუნქციები შედის სქემის მართვაში. ნებისმიერი ჩაწერის უარყოფით, რომელიც არ შეესაბამება ცხრილის სქემას, სქემის აღსრულება საშუალებას აძლევს მომხმარებლებს შეინარჩუნონ მონაცემთა მთლიანობა და ხარისხი.
სქემის ევოლუცია იძლევა ცხრილის ამჟამინდელი სქემის მოდიფიკაციის საშუალებას ცვალებად მონაცემებთან შესაბამისობაში. მონაცემთა ტბის თავზე ერთი ადმინისტრაციული ინტერფეისის გამო, ასევე არსებობს წვდომის კონტროლისა და აუდიტის შესაძლებლობები.
API ფენა
ახლა არის არქიტექტურის კიდევ ერთი მნიშვნელოვანი ფენა, რომელიც მასპინძლობს უამრავ API-ს, რომელიც ყველა საბოლოო მომხმარებელს შეუძლია გამოიყენოს სამუშაოების უფრო სწრაფად შესასრულებლად და უფრო დახვეწილი სტატისტიკის მისაღებად.
მეტამონაცემების API-ების გამოყენება აადვილებს მოცემული აპლიკაციისთვის საჭირო მონაცემთა ელემენტების იდენტიფიცირებას და წვდომას.
მანქანათმცოდნეობის ბიბლიოთეკების თვალსაზრისით, ზოგიერთ მათგანს, როგორიცაა TensorFlow და Spark MLlib, შეუძლია წაიკითხოს ღია ფაილის ფორმატები, როგორიცაა Parquet და პირდაპირ წვდომა მეტამონაცემების ფენაზე.
ამავდროულად, DataFrame API-ები გვთავაზობენ ოპტიმიზაციის უფრო დიდ შანსებს, რაც საშუალებას აძლევს პროგრამისტებს მოაწყონ და შეცვალონ დისპერსიული მონაცემები.
მოხმარების ფენა
Power BI, Tableau და სხვა ხელსაწყოები და აპები განთავსებულია მოხმარების ფენის ქვეშ. Lakehouse-ის დიზაინით, ყველა მეტამონაცემები და ყველა მონაცემი, რომელიც ინახება ტბაში, ხელმისაწვდომია კლიენტის აპებისთვის.
Lakehouse შეიძლება გამოიყენოს ყველა მომხმარებლის მიერ კომპანიის შიგნით ყველა სახის შესასრულებლად ანალიტიკური ოპერაციები, მათ შორის ბიზნეს დაზვერვის დაფების შექმნა და SQL მოთხოვნების და მანქანური სწავლების ამოცანების გაშვება.
Data Lakehouse-ის უპირატესობები
ორგანიზაციებს შეუძლიათ შექმნან მონაცემთა ტბის სახლი, რათა გააერთიანონ თავიანთი მონაცემთა ამჟამინდელი პლატფორმა და გააუმჯობესონ მონაცემთა მართვის მთელი პროცესი. სხვადასხვა წყაროს დამაკავშირებელი სილოს ბარიერების დემონტაჟით, მონაცემთა ტბას შეუძლია შეცვალოს განსხვავებული გადაწყვეტილებების საჭიროება.
კურირებულ მონაცემთა წყაროებთან შედარებით, ეს ინტეგრაცია აწარმოებს მნიშვნელოვნად უფრო ეფექტურ პროცედურებს ბოლომდე. ამას რამდენიმე უპირატესობა აქვს:
- ნაკლები ადმინისტრირება: იმის ნაცვლად, რომ ამოიღონ მონაცემები ნედლი მონაცემებიდან და მოამზადონ ისინი მონაცემთა საწყობში გამოსაყენებლად, მონაცემთა ტბაჰაუსი საშუალებას აძლევს მასთან დაკავშირებულ ნებისმიერ წყაროს ჰქონდეს მათი მონაცემები ხელმისაწვდომი და ორგანიზებული გამოსაყენებლად.
- გაზრდილი ხარჯ-ეფექტურობა: მონაცემთა ტბის სახლები აშენებულია თანამედროვე ინფრასტრუქტურის გამოყენებით, რომელიც ყოფს გამოთვლებსა და საცავებს, რაც აადვილებს შენახვის გაფართოებას გამოთვლითი სიმძლავრის გაზრდის გარეშე. მხოლოდ იაფფასიანი მონაცემთა შენახვის გამოყენება იწვევს მასშტაბურობას, რაც ეფექტურია.
- მონაცემთა უკეთესი მართვა: მონაცემთა ტბის სახლები აგებულია სტანდარტიზებული ღია არქიტექტურით, რაც უფრო მეტ კონტროლს იძლევა უსაფრთხოების, მეტრიკის, როლებზე დაფუძნებული წვდომისა და მართვის სხვა მნიშვნელოვან კომპონენტებზე. რესურსებისა და მონაცემთა წყაროების გაერთიანებით, ისინი ამარტივებს და აძლიერებს მმართველობას.
- გამარტივებული სტანდარტები: მას შემდეგ, რაც კავშირი ძალზე შეზღუდული იყო 1980-იან წლებში, როდესაც პირველად შეიქმნა მონაცემთა საწყობები, ლოკალიზებული სქემის სტანდარტები ხშირად მუშავდებოდა ბიზნესში, თუნდაც დეპარტამენტებში. მონაცემთა ტბების სახლი იყენებს იმ ფაქტს, რომ მრავალი ტიპის მონაცემს ახლა აქვს ღია სტანდარტები სქემისთვის, მრავალი მონაცემთა წყაროს გადაფარვით ერთიანი სქემით, პროცედურების გამარტივებისთვის.
Data Lakehouse-ის ნაკლოვანებები
მონაცემთა ტბების გარშემო არსებული ყველა აურზაურის მიუხედავად, მნიშვნელოვანია გვახსოვდეს, რომ იდეა ჯერ კიდევ ძალიან ახალია. დარწმუნდით, რომ აწონ-დაწონეთ უარყოფითი მხარეები ამ ახალი დიზაინის სრულად შესრულებამდე.
- მონოლითური სტრუქტურა: ტბის ყოვლისმომცველი დიზაინი გთავაზობთ რამდენიმე უპირატესობას, მაგრამ ის ასევე იწვევს გარკვეულ პრობლემებს. მონოლითური არქიტექტურა ხშირად იწვევს ცუდ მომსახურებას ყველა მომხმარებლისთვის და შეიძლება იყოს ხისტი და რთული შესანარჩუნებლად. როგორც წესი, არქიტექტორებს და დიზაინერებს მოსწონთ უფრო მოდულური არქიტექტურა, რომელიც მათ შეუძლიათ დააკონფიგურირონ სხვადასხვა გამოყენების შემთხვევაში.
- ტექნოლოგია ჯერ კიდევ არ არის: საბოლოო მიზანი გულისხმობს მანქანური სწავლისა და ხელოვნური ინტელექტის მნიშვნელოვან რაოდენობას. სანამ ტბის სახლები შეძლებენ ისე იმოქმედონ, როგორც ეს იყო დაგეგმილი, ეს ტექნოლოგიები შემდგომ უნდა განვითარდეს.
- არ არის მნიშვნელოვანი წინსვლა არსებულ სტრუქტურებთან შედარებით: ჯერ კიდევ არსებობს მნიშვნელოვანი სკეპტიციზმი იმის თაობაზე, თუ რამდენად მეტი ღირებულების ტბის სახლები შეაქვთ რეალურად. ზოგიერთი მოწინააღმდეგე ამტკიცებს, რომ ტბის საწყობის დიზაინმა შესაბამის ავტომატიზირებულ აღჭურვილობასთან ერთად შეიძლება მიაღწიოს შესადარებელ ეფექტურობას.
Data Lakehouse-ის გამოწვევები
შესაძლოა რთული იყოს მონაცემთა ტბის ტექნიკის გამოყენება. მისი შემადგენელი ნაწილების სირთულის გამო, არასწორია მონაცემთა ტბის სახლი, როგორც ყოვლისმომცველი იდეალური სტრუქტურა ან „ერთი პლატფორმა ყველაფრისთვის“, ერთისთვის.
გარდა ამისა, მონაცემთა ტბების მზარდი ათვისების გამო, ბიზნესს მოუწევს მონაცემთა ამჟამინდელი საწყობების გადატანა მათზე, მხოლოდ წარმატების დაპირებაზე დაყრდნობით, არანაირ ეკონომიკურ სარგებელს.
თუ გადატანის პროცესში რაიმე შეყოვნების პრობლემა ან შეფერხებაა, ეს შეიძლება იყოს ძვირი, შრომატევადი და შესაძლოა სახიფათო.
ბიზნეს მომხმარებლებმა უნდა აითვისონ უაღრესად სპეციალიზებული ტექნოლოგიები, გარკვეული მოვაჭრეების აზრით, რომლებიც პირდაპირ ან ირიბად ყიდიან გადაწყვეტილებებს, როგორც მონაცემთა ტბის სახლებს. ეს შეიძლება ყოველთვის არ იმუშაოს სისტემის ცენტრში არსებულ მონაცემთა ტბასთან დაკავშირებულ სხვა ინსტრუმენტებთან, რაც ამატებს საკითხებს.
გარდა ამისა, შეიძლება ძნელი იყოს 24/7 ანალიტიკის მიწოდება ბიზნესისთვის კრიტიკული დატვირთვების გაშვებისას, რაც მოითხოვს ინფრასტრუქტურას ხარჯთეფექტური მასშტაბურობით.
დასკვნა
ბოლო წლების მონაცემების ცენტრების უახლესი მრავალფეროვნება არის მონაცემთა ტბაჰაუსი. იგი აერთიანებს სხვადასხვა სფეროს, როგორიცაა საინფორმაციო ტექნოლოგიები, ღია პროგრამული უზრუნველყოფა, Cloud Computingდა განაწილებული შენახვის პროტოკოლები.
ეს საშუალებას აძლევს ბიზნესს ცენტრალიზებულად შეინახოს ყველა სახის მონაცემი ნებისმიერი ადგილიდან, ამარტივებს მართვასა და ანალიზს. Data Lakehouse საკმაოდ დამაინტრიგებელი კონცეფციაა.
ნებისმიერ ფირმას ექნებოდა მნიშვნელოვანი კონკურენტული უპირატესობა, თუ მას ექნება წვდომა მონაცემთა ერთ-ერთ პლატფორმაზე, რომელიც იქნება ისეთივე სწრაფი და ეფექტური, როგორც მონაცემთა საწყობი და ასევე მოქნილი, როგორც მონაცემთა ტბა.
იდეა ჯერ კიდევ ვითარდება და რჩება შედარებით ახალი. შედეგად, შეიძლება გარკვეული დრო დასჭირდეს იმის დადგენას, შეიძლება თუ არა რაიმე ფართოდ გავრცელდეს.
ჩვენ ყველას უნდა გვაინტერესებდეს, თუ რა მიმართულებით მიდის Lakehouse არქიტექტურა.
დატოვე პასუხი