Data Lakehouse - អ្វីគ្រប់យ៉ាងដែលអ្នកត្រូវដឹង

មាតិកា[លាក់][បង្ហាញ]

តើ Data Lakehouse ជាអ្វី?
លក្ខណៈពិសេស
ធាតុនៃ Data Lakehouse
ស្ថាបត្យកម្ម Data Lakehouse+-
អត្ថប្រយោជន៍នៃ Data Lakehouse
គុណវិបត្តិនៃ Data Lakehouse
បញ្ហាប្រឈមនៃ Data Lakehouse
សន្និដ្ឋាន

វាប្រហែលជាពិបាកបន្តិចក្នុងការពិចារណាសេវាកម្មដែលមាន និងជម្រើសស្ថាបត្យកម្មទាំងអស់នៅពេលគិតអំពីវេទិកាទិន្នន័យ។

វេទិកាទិន្នន័យសហគ្រាសជារឿយៗមានឃ្លាំងទិន្នន័យ គំរូទិន្នន័យ ឃ្លាំងទិន្នន័យ និងរបាយការណ៍ ដែលនីមួយៗមានគោលបំណងជាក់លាក់ និងសំណុំជំនាញដែលត្រូវការ។ ផ្ទុយទៅវិញ ការរចនាថ្មីមួយដែលមានឈ្មោះថា Data lakehouse បានលេចឡើងក្នុងអំឡុងពេលប៉ុន្មានឆ្នាំចុងក្រោយនេះ។

ភាពបត់បែននៃទិន្នន័យទិន្នន័យ និងការគ្រប់គ្រងទិន្នន័យឃ្លាំងទិន្នន័យត្រូវបានរួមបញ្ចូលគ្នានៅក្នុងស្ថាបត្យកម្មការផ្ទុកទិន្នន័យបដិវត្តន៍មួយដែលមានឈ្មោះថា "ឃ្លាំងទិន្នន័យ" ។

យើងនឹងពិនិត្យមើលទិន្នន័យបឹងជ្រៅក្នុងការប្រកាសនេះ រួមទាំងធាតុផ្សំ លក្ខណៈពិសេស ស្ថាបត្យកម្ម និងទិដ្ឋភាពផ្សេងទៀត។

តើ Data Lakehouse ជាអ្វី?

ដូចដែលឈ្មោះបង្កប់ន័យ ឃ្លាំងទិន្នន័យគឺជាប្រភេទថ្មីនៃស្ថាបត្យកម្មទិន្នន័យដែលរួមបញ្ចូលគ្នានូវទិន្នន័យបឹងជាមួយឃ្លាំងទិន្នន័យដើម្បីដោះស្រាយចំណុចខ្វះខាតនីមួយៗដោយឡែកពីគ្នា។

សរុបមក ប្រព័ន្ធ lakehouse ប្រើកន្លែងផ្ទុកតម្លៃថោក ដើម្បីរក្សាទិន្នន័យយ៉ាងច្រើនក្នុងទម្រង់ដើមរបស់វា ដូចជាទិន្នន័យបឹងជាដើម។ ការបន្ថែមស្រទាប់ទិន្នន័យមេតានៅផ្នែកខាងលើនៃហាងក៏ផ្តល់នូវរចនាសម្ព័ន្ធទិន្នន័យ និងផ្តល់សិទ្ធិអំណាចដល់ឧបករណ៍គ្រប់គ្រងទិន្នន័យដូចជាអ្នកដែលបានរកឃើញនៅក្នុងឃ្លាំងទិន្នន័យ។

Data Lakehouse

វារក្សាទុកបរិមាណដ៏ធំនៃទិន្នន័យដែលបានរៀបចំ ពាក់កណ្តាលរចនាសម្ព័ន្ធ និងមិនមានរចនាសម្ព័ន្ធ ដែលពួកគេទទួលបានពីកម្មវិធីអាជីវកម្មផ្សេងៗ ប្រព័ន្ធ និងឧបករណ៍ប្រើប្រាស់ក្នុងស្ថាប័នរបស់ពួកគេ។

ភាគច្រើននៃពេលវេលា បឹងទិន្នន័យប្រើប្រាស់ហេដ្ឋារចនាសម្ព័ន្ធផ្ទុកតម្លៃទាបជាមួយនឹងចំណុចប្រទាក់កម្មវិធីកម្មវិធីឯកសារ (API) ដើម្បីរក្សាទុកទិន្នន័យក្នុងទម្រង់ឯកសារទូទៅបើកចំហ។

នេះធ្វើឱ្យវាអាចទៅរួចសម្រាប់ក្រុមជាច្រើនក្នុងការចូលប្រើទិន្នន័យរបស់ក្រុមហ៊ុនទាំងអស់តាមរយៈប្រព័ន្ធតែមួយសម្រាប់ការផ្តួចផ្តើមគំនិតជាច្រើនដូចជាវិទ្យាសាស្ត្រទិន្នន័យ។ ការរៀនម៉ាស៊ីននិងភាពវៃឆ្លាតអាជីវកម្ម។

លក្ខណៈពិសេស

ការផ្ទុកតម្លៃទាប។ ឃ្លាំងទិន្នន័យត្រូវតែអាចរក្សាទុកទិន្នន័យនៅក្នុងកន្លែងផ្ទុកវត្ថុដែលមានតំលៃថោក ដូចជា Google Cloud ការផ្ទុក, Azure Blob Storage, Amazon Simple Storage Service, ឬដើមកំណើតដោយប្រើ ORC ឬ Parquet ។
សមត្ថភាពសម្រាប់ការបង្កើនប្រសិទ្ធភាពទិន្នន័យ៖ ការបង្កើនប្រសិទ្ធភាពប្លង់ទិន្នន័យ ឃ្លាំងសម្ងាត់ និងការធ្វើលិបិក្រមគឺជាឧទាហរណ៍មួយចំនួននៃរបៀបដែលឃ្លាំងទិន្នន័យត្រូវតែអាចបង្កើនប្រសិទ្ធភាពទិន្នន័យ ខណៈពេលដែលរក្សាបាននូវទម្រង់ដើមរបស់ទិន្នន័យ។
ស្រទាប់នៃទិន្នន័យមេតាប្រតិបត្តិការ៖ នៅលើកំពូលនៃទំហំផ្ទុកតម្លៃទាបដ៏សំខាន់ នេះអនុញ្ញាតឱ្យសមត្ថភាពគ្រប់គ្រងទិន្នន័យមានសារៈសំខាន់សម្រាប់ដំណើរការឃ្លាំងទិន្នន័យ។
ការគាំទ្រសម្រាប់ Declarative DataFrame API៖ ឧបករណ៍ AI ភាគច្រើនអាចប្រើ DataFrames ដើម្បីទាញយកទិន្នន័យរក្សាទុកវត្ថុឆៅ។ ការគាំទ្រសម្រាប់ Declarative DataFrame API បង្កើនសមត្ថភាពក្នុងការធ្វើអោយប្រសើរឡើងនូវការបង្ហាញ និងរចនាសម្ព័ន្ធរបស់ទិន្នន័យក្នុងការឆ្លើយតបទៅនឹងវិទ្យាសាស្ត្រទិន្នន័យជាក់លាក់ ឬកិច្ចការ AI ។
ការគាំទ្រសម្រាប់ប្រតិបត្តិការ ACID៖ អក្សរកាត់ ACID ដែលតំណាងឱ្យអាតូមិក ភាពស៊ីសង្វាក់ ភាពឯកោ និងភាពធន់ គឺជាធាតុផ្សំដ៏សំខាន់ក្នុងការកំណត់ប្រតិបត្តិការ និងធានានូវភាពស៊ីសង្វាក់គ្នា និងភាពអាស្រ័យនៃទិន្នន័យ។ ប្រតិបត្តិការបែបនេះពីមុនគឺអាចធ្វើទៅបានតែនៅក្នុងឃ្លាំងទិន្នន័យប៉ុណ្ណោះ ប៉ុន្តែ lakehouse ផ្តល់ជម្រើសដើម្បីប្រើប្រាស់ពួកវាជាមួយទិន្នន័យបឹង ដូចគ្នា។ ជាមួយនឹងបំពង់បញ្ជូនទិន្នន័យជាច្រើន រួមទាំងការអាន និងសរសេរទិន្នន័យដំណាលគ្នា វាជួយដោះស្រាយបញ្ហាគុណភាពទិន្នន័យទាប។

ធាតុនៃ Data Lakehouse

ស្ថាបត្យកម្មនៃ Data lakehouse ចែកចេញជាពីរថ្នាក់ធំៗនៅកម្រិតខ្ពស់។ ការទទួលយកទិន្នន័យរបស់ស្រទាប់ផ្ទុកត្រូវបានគ្រប់គ្រងដោយវេទិកា Lakehouse (ឧទាហរណ៍បឹងទិន្នន័យ)។

ដោយមិនចាំបាច់ផ្ទុកទិន្នន័យទៅក្នុងឃ្លាំងទិន្នន័យ ឬបំប្លែងវាទៅជាទម្រង់កម្មសិទ្ធិ នោះស្រទាប់ដំណើរការអាចសួរទិន្នន័យក្នុងស្រទាប់ផ្ទុកដោយផ្ទាល់ដោយប្រើឧបករណ៍ជាច្រើន។

បន្ទាប់មក កម្មវិធី BI ក៏ដូចជាបច្ចេកវិទ្យា AI និង ML អាចប្រើប្រាស់ទិន្នន័យបាន។ សេដ្ឋកិច្ចនៃបឹងទិន្នន័យត្រូវបានផ្តល់ដោយការរចនានេះ ប៉ុន្តែដោយសារតែម៉ាស៊ីនដំណើរការណាមួយអាចអានទិន្នន័យនេះ អាជីវកម្មមានសេរីភាពក្នុងការធ្វើឱ្យទិន្នន័យដែលបានរៀបចំអាចចូលដំណើរការបានសម្រាប់ការវិភាគដោយប្រព័ន្ធជាច្រើន។ ដំណើរការ និងការចំណាយរបស់ឧបករណ៍ដំណើរការអាចត្រូវបានកែលម្អដោយប្រើវិធីសាស្ត្រនេះសម្រាប់ដំណើរការ និងការវិភាគ។

ដោយសារតែការគាំទ្ររបស់វាសម្រាប់ប្រតិបត្តិការមូលដ្ឋានទិន្នន័យដែលប្រកាន់ខ្ជាប់នូវលក្ខណៈវិនិច្ឆ័យ ACID ខាងក្រោម (អាតូមិច ភាពស៊ីសង្វាក់ ភាពឯកោ និងភាពធន់) ស្ថាបត្យកម្មក៏អនុញ្ញាតឱ្យភាគីជាច្រើនចូលប្រើ និងសរសេរទិន្នន័យក្នុងពេលដំណាលគ្នានៅក្នុងប្រព័ន្ធ៖

អាតូមិក សំដៅទៅលើការពិតដែលថា ប្រតិបត្តិការពេញលេញ ឬគ្មានវា ជោគជ័យនៅពេលបញ្ចប់ប្រតិបត្តិការ។ នៅក្នុងព្រឹត្តិការណ៍ដែលដំណើរការត្រូវបានរំខាន វាជួយជៀសវាងការបាត់បង់ទិន្នន័យ ឬអំពើពុករលួយ។
ភាពស្របគ្នា ការធានាប្រតិបត្តិការកើតឡើងក្នុងលក្ខណៈដែលអាចព្យាករណ៍បាន និងជាប់លាប់។ វារក្សាភាពសុចរិតនៃទិន្នន័យដោយធានាថារាល់ទិន្នន័យគឺស្របច្បាប់ស្របតាមច្បាប់ដែលបានកំណត់ទុកជាមុន។
ឯកោ ធានាថា រហូតទាល់តែវាត្រូវបានបញ្ចប់ ប្រតិបត្តិការណាមួយអាចរងផលប៉ះពាល់ដោយប្រតិបត្តិការផ្សេងទៀតនៅក្នុងប្រព័ន្ធ។ នេះអនុញ្ញាតឱ្យភាគីជាច្រើនអាចអាន និងសរសេរពីប្រព័ន្ធតែមួយក្នុងពេលដំណាលគ្នាដោយមិនរំខានដល់គ្នាទៅវិញទៅមក។
ប្រើប្រាស់បានយូរ ធានាថាការផ្លាស់ប្តូរទិន្នន័យនៅក្នុងប្រព័ន្ធនៅតែបន្តកើតមានបន្ទាប់ពីប្រតិបត្តិការត្រូវបានបញ្ចប់ ទោះបីជាក្នុងករណីប្រព័ន្ធបរាជ័យក៏ដោយ។ រាល់ការផ្លាស់ប្តូរដែលកើតឡើងដោយប្រតិបត្តិការមួយត្រូវបានរក្សាទុកក្នុងឯកសារជារៀងរហូត។

ស្ថាបត្យកម្ម Data Lakehouse

Databricks (អ្នកច្នៃប្រឌិត និងអ្នករចនាគំនិត Delta Lake របស់ពួកគេ) និង AWS គឺជាអ្នកតស៊ូមតិសំខាន់ពីរសម្រាប់គំនិតនៃ data lakehouse ។ ដូច្នេះ យើងនឹងពឹងផ្អែកលើចំណេះដឹង និងការយល់ដឹងរបស់ពួកគេ ដើម្បីពិពណ៌នាអំពីប្លង់ស្ថាបត្យកម្មនៃផ្ទះបឹង។

ប្រព័ន្ធ បឹងទិន្នន័យ ជាធម្មតានឹងមានប្រាំស្រទាប់៖

ស្រទាប់ស្រូបយក
ស្រទាប់ផ្ទុក
ស្រទាប់ទិន្នន័យមេតា
ស្រទាប់ API
ស្រទាប់ប្រើប្រាស់

ស្ថាបត្យកម្ម Data Lakehouse

ស្រទាប់ស្រូបយក

ស្រទាប់ទីមួយរបស់ប្រព័ន្ធគឺទទួលខុសត្រូវក្នុងការប្រមូលទិន្នន័យពីប្រភពផ្សេងៗ ហើយបញ្ជូនវាទៅស្រទាប់ផ្ទុក។ ស្រទាប់អាចប្រើប្រាស់ពិធីការជាច្រើនដើម្បីភ្ជាប់ទៅប្រភពខាងក្នុង និងខាងក្រៅជាច្រើន រួមទាំងការបញ្ចូលគ្នានូវបណ្តុំ និងការស្ទ្រីមសមត្ថភាពដំណើរការទិន្នន័យ ដូចជា

មូលដ្ឋានទិន្នន័យ NoSQL,
ការចែករំលែកឯកសារ
កម្មវិធី CRM,
គេហទំព័រ,
ឧបករណ៍ចាប់សញ្ញា IoT,
ប្រព័ន្ធផ្សព្វផ្សាយសង្គម,
កម្មវិធីជាសេវាកម្ម (SaaS) និង
ប្រព័ន្ធគ្រប់គ្រងមូលដ្ឋានទិន្នន័យទំនាក់ទំនង។ល។

នៅចំណុចនេះ សមាសធាតុដូចជា Apache Kafka សម្រាប់ការផ្សាយទិន្នន័យ និង Amazon Data Migration Service (Amazon DMS) សម្រាប់ការនាំចូលទិន្នន័យពី RDBMSs និង NoSQL databases អាចត្រូវបានប្រើប្រាស់។

ស្រទាប់ផ្ទុក

ស្ថាបត្យកម្ម lakehouse មានបំណងបើកការផ្ទុកទិន្នន័យប្រភេទផ្សេងៗជាវត្ថុនៅក្នុងហាងលក់វត្ថុដែលមានតំលៃថោក ដូចជា AWS S3 ជាដើម។ ដោយប្រើទម្រង់ឯកសារបើកចំហ ឧបករណ៍អតិថិជនអាចអានធាតុទាំងនេះដោយផ្ទាល់ពីហាង។

នេះធ្វើឱ្យវាអាចទៅរួចសម្រាប់ APIs និងសមាសធាតុស្រទាប់ប្រើប្រាស់ជាច្រើនដើម្បីចូលប្រើ និងប្រើប្រាស់ទិន្នន័យដូចគ្នា។ ស្រទាប់ទិន្នន័យមេតារក្សាទុកគ្រោងការណ៍សម្រាប់សំណុំទិន្នន័យដែលមានរចនាសម្ព័ន្ធ និងពាក់កណ្តាលរចនាសម្ព័ន្ធ ដូច្នេះសមាសធាតុអាចអនុវត្តពួកវាទៅទិន្នន័យនៅពេលពួកគេអានវា។

ឧទាហរណ៍ វេទិកា Hadoop Distributed File System (HDFS) អាចត្រូវបានប្រើដើម្បីបង្កើតសេវាឃ្លាំងពពកដែលបំបែកកុំព្យូទ័រ និងកន្លែងផ្ទុកនៅក្នុងបរិវេណ។ Lakehouse គឺសមតាមឧត្ដមគតិសម្រាប់សេវាកម្មទាំងនេះ។

ស្រទាប់ទិន្នន័យមេតា

ស្រទាប់ទិន្នន័យមេតាគឺជាធាតុផ្សំជាមូលដ្ឋាននៃឃ្លាំងទិន្នន័យដែលបែងចែកការរចនានេះ។ វាជាកាតាឡុកតែមួយដែលផ្តល់ទិន្នន័យមេតា (ព័ត៌មានអំពីបំណែកទិន្នន័យផ្សេងទៀត) សម្រាប់ធាតុទាំងអស់ដែលបានរក្សាទុកនៅក្នុងបឹង និងអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់ប្រើប្រាស់សមត្ថភាពគ្រប់គ្រងដូចជា៖

កំណែស្របគ្នានៃមូលដ្ឋានទិន្នន័យត្រូវបានមើលឃើញដោយប្រតិបត្តិការស្របគ្នាដោយអរគុណចំពោះប្រតិបត្តិការ ACID ។
ឃ្លាំងសម្ងាត់ដើម្បីរក្សាទុកឯកសាររក្សាទុកវត្ថុពពក;
ការបន្ថែមលិបិក្រមរចនាសម្ព័ន្ធទិន្នន័យដោយប្រើលិបិក្រមដើម្បីបង្កើនល្បឿនដំណើរការសំណួរ។
ដោយប្រើការក្លូនសូន្យចម្លងដើម្បីចម្លងវត្ថុទិន្នន័យ; និង
ដើម្បីរក្សាទុកកំណែជាក់លាក់នៃទិន្នន័យ។ល។ ប្រើកំណែទិន្នន័យ។

លើសពីនេះ ស្រទាប់ទិន្នន័យមេតាអាចឱ្យការអនុវត្តការគ្រប់គ្រងគ្រោងការណ៍ ការប្រើប្រាស់គ្រោងការណ៍ DW ដូចជាគ្រោងការណ៍ផ្កាយ/ព្រិលទឹកកក និងការផ្តល់ការគ្រប់គ្រងទិន្នន័យ និងសមត្ថភាពសវនកម្មដោយផ្ទាល់នៅលើបឹងទិន្នន័យ បង្កើនភាពសុចរិតនៃបំពង់បង្ហូរទិន្នន័យទាំងមូល។

លក្ខណៈពិសេសសម្រាប់ការវិវត្តន៍គ្រោងការណ៍ និងការអនុវត្តត្រូវបានរួមបញ្ចូលក្នុងការគ្រប់គ្រងគ្រោងការណ៍។ តាមរយៈការបដិសេធការសរសេរណាមួយដែលមិនស្របតាមគ្រោងការណ៍នៃតារាង ការអនុវត្តគ្រោងការណ៍អនុញ្ញាតឱ្យអ្នកប្រើប្រាស់រក្សាបាននូវភាពត្រឹមត្រូវ និងគុណភាពទិន្នន័យ។

ការវិវត្តនៃគ្រោងការណ៍អនុញ្ញាតឱ្យគ្រោងការណ៍បច្ចុប្បន្នរបស់តារាងត្រូវបានកែប្រែដើម្បីសម្របទៅនឹងការផ្លាស់ប្តូរទិន្នន័យ។ ដោយសារតែចំណុចប្រទាក់រដ្ឋបាលតែមួយនៅលើកំពូលនៃទិន្នន័យបឹង វាក៏មានលទ្ធភាពនៃការគ្រប់គ្រង និងសវនកម្មផងដែរ។

ស្រទាប់ API

ស្រទាប់សំខាន់មួយទៀតនៃស្ថាបត្យកម្មឥឡូវនេះមានវត្តមាន ដែលបង្ហោះ APIs មួយចំនួនដែលអ្នកប្រើប្រាស់ចុងក្រោយទាំងអស់អាចប្រើប្រាស់ដើម្បីបំពេញការងារបានលឿន និងទទួលបានស្ថិតិស្មុគ្រស្មាញជាងមុន។

ការប្រើប្រាស់ APIs ទិន្នន័យមេតាធ្វើឱ្យវាកាន់តែងាយស្រួលក្នុងការកំណត់អត្តសញ្ញាណ និងចូលប្រើធាតុទិន្នន័យដែលត្រូវការសម្រាប់កម្មវិធីដែលបានផ្តល់ឱ្យ។

នៅក្នុងលក្ខខណ្ឌនៃបណ្ណាល័យសិក្សាម៉ាស៊ីន ពួកវាមួយចំនួនដូចជា TensorFlow និង Spark MLlib អាចអានទម្រង់ឯកសារបើកចំហដូចជា Parquet និងចូលប្រើស្រទាប់ទិន្នន័យមេតាដោយផ្ទាល់។

ក្នុងពេលជាមួយគ្នានោះ DataFrame APIs ផ្តល់ឱកាសកាន់តែច្រើនសម្រាប់ការបង្កើនប្រសិទ្ធភាព ដែលអនុញ្ញាតឱ្យអ្នកសរសេរកម្មវិធីរៀបចំ និងផ្លាស់ប្តូរទិន្នន័យដែលបែកខ្ញែក។

ស្រទាប់ប្រើប្រាស់

Power BI, Tableau និងឧបករណ៍ និងកម្មវិធីផ្សេងទៀតត្រូវបានបង្ហោះនៅក្រោមស្រទាប់ប្រើប្រាស់។ ជាមួយនឹងការរចនា lakehouse ទាំងអស់នៃ metadata និងទិន្នន័យទាំងអស់ដែលត្រូវបានរក្សាទុកនៅក្នុងបឹងមួយគឺអាចចូលដំណើរការបានទៅកម្មវិធីអតិថិជន។

ផ្ទះបឹងអាចត្រូវបានប្រើប្រាស់ដោយអ្នកប្រើប្រាស់ទាំងអស់នៅក្នុងក្រុមហ៊ុនដើម្បីអនុវត្តគ្រប់ប្រភេទ ប្រតិបត្តិការវិភាគរួមទាំងការបង្កើតផ្ទាំងគ្រប់គ្រងពាណិជ្ជកម្ម និងការដំណើរការសំណួរ SQL និងកិច្ចការរៀនម៉ាស៊ីន។

អត្ថប្រយោជន៍នៃ Data Lakehouse

អង្គការអាចបង្កើតឃ្លាំងទិន្នន័យ ដើម្បីបង្រួបបង្រួមវេទិកាទិន្នន័យបច្ចុប្បន្នរបស់ពួកគេ និងធ្វើឱ្យដំណើរការគ្រប់គ្រងទិន្នន័យទាំងមូលរបស់ពួកគេប្រសើរឡើង។ តាមរយៈការរុះរើរបាំងស៊ីឡូដែលភ្ជាប់ប្រភពផ្សេងៗ ឃ្លាំងទិន្នន័យអាចជំនួសតម្រូវការសម្រាប់ដំណោះស្រាយផ្សេងៗគ្នា។

បើប្រៀបធៀបទៅនឹងប្រភពទិន្នន័យដែលបានរៀបចំ ការធ្វើសមាហរណកម្មនេះបង្កើតនូវដំណើរការពីចុងដល់ចប់ដែលមានប្រសិទ្ធភាពជាង។ វាមានអត្ថប្រយោជន៍ជាច្រើន៖

ការគ្រប់គ្រងតិច៖ ជាជាងទាញយកទិន្នន័យពីទិន្នន័យឆៅ និងរៀបចំវាសម្រាប់ប្រើប្រាស់ក្នុងឃ្លាំងទិន្នន័យ ឃ្លាំងទិន្នន័យអនុញ្ញាតឱ្យប្រភពណាមួយដែលភ្ជាប់ទៅវាដើម្បីឱ្យទិន្នន័យរបស់ពួកគេមាន និងរៀបចំសម្រាប់ប្រើប្រាស់។
បង្កើនប្រសិទ្ធភាពចំណាយ៖ ឃ្លាំងទិន្នន័យត្រូវបានសាងសង់ដោយប្រើហេដ្ឋារចនាសម្ព័ន្ធសហសម័យដែលបែងចែកការគណនា និងការផ្ទុក ដែលធ្វើឱ្យវាសាមញ្ញក្នុងការពង្រីកទំហំផ្ទុកដោយមិនបង្កើនថាមពលកុំព្យូទ័រ។ គ្រាន់តែការប្រើប្រាស់នៃការផ្ទុកទិន្នន័យដែលមានតំលៃថោក នាំអោយមានលទ្ធភាពធ្វើមាត្រដ្ឋានដែលមានប្រសិទ្ធភាព។
ការគ្រប់គ្រងទិន្នន័យកាន់តែប្រសើរ៖ ផ្ទះបឹងទិន្នន័យត្រូវបានសាងសង់ជាមួយនឹងស្ថាបត្យកម្មបើកចំហស្តង់ដារ ដែលអនុញ្ញាតឱ្យមានការគ្រប់គ្រងបន្ថែមទៀតលើសុវត្ថិភាព មាត្រដ្ឋាន ការចូលប្រើប្រាស់ដោយផ្អែកលើតួនាទី និងធាតុផ្សំនៃការគ្រប់គ្រងសំខាន់ៗផ្សេងទៀត។ តាមរយៈការបង្រួបបង្រួមធនធាន និងប្រភពទិន្នន័យ ពួកវាធ្វើឱ្យងាយស្រួល និងលើកកម្ពស់អភិបាលកិច្ច។
ស្តង់ដារសាមញ្ញ៖ ចាប់តាំងពីការតភ្ជាប់ត្រូវបានដាក់កម្រិតយ៉ាងខ្លាំងនៅក្នុងទសវត្សរ៍ឆ្នាំ 1980 នៅពេលដែលឃ្លាំងទិន្នន័យត្រូវបានបង្កើតឡើងដំបូង ស្តង់ដារគ្រោងការណ៍ដែលបានធ្វើមូលដ្ឋានីយកម្មត្រូវបានបង្កើតឡើងជាញឹកញាប់នៅក្នុងអាជីវកម្ម សូម្បីតែនាយកដ្ឋានក៏ដោយ។ Data lakehouses ប្រើប្រាស់ការពិតដែលថាប្រភេទទិន្នន័យជាច្រើនឥឡូវនេះមានស្តង់ដារបើកចំហសម្រាប់គ្រោងការណ៍ដោយការបញ្ចូលប្រភពទិន្នន័យជាច្រើនជាមួយនឹងគ្រោងការណ៍ឯកសណ្ឋានត្រួតស៊ីគ្នាដើម្បីសម្រួលនីតិវិធី។

គុណវិបត្តិនៃ Data Lakehouse

ទោះបីជាមាន hoopla ទាំងអស់ជុំវិញបឹងទិន្នន័យក៏ដោយ វាជាការសំខាន់ដែលត្រូវចងចាំថាគំនិតនេះនៅតែថ្មីខ្លាំងណាស់។ ត្រូវប្រាកដថាថ្លឹងថ្លែងពីគុណវិបត្តិមុននឹងអនុវត្តយ៉ាងពេញលេញចំពោះការរចនាថ្មីនេះ។

រចនាសម្ព័ន្ធ monolithic៖ ការរចនារួមបញ្ចូលទាំងអស់របស់ lakehouse ផ្តល់នូវអត្ថប្រយោជន៍ជាច្រើន ប៉ុន្តែវាក៏លើកបញ្ហាមួយចំនួនផងដែរ។ ស្ថាបត្យកម្ម Monolithic ជារឿយៗនាំទៅរកសេវាកម្មមិនល្អសម្រាប់អ្នកប្រើប្រាស់ទាំងអស់ ហើយអាចមានភាពតឹងរ៉ឹង និងពិបាកក្នុងការថែទាំ។ ជាធម្មតា ស្ថាបត្យករ និងអ្នករចនាចូលចិត្តស្ថាបត្យកម្មម៉ូឌុលបន្ថែមទៀត ដែលពួកគេអាចប្ដូរតាមបំណងសម្រាប់ករណីប្រើប្រាស់ផ្សេងៗ។
បច្ចេកវិទ្យាមិនទាន់មាននៅឡើយទេ៖ គោលដៅចុងក្រោយមានបរិមាណដ៏សំខាន់នៃការរៀនម៉ាស៊ីន និងបញ្ញាសិប្បនិម្មិត។ មុនពេលដែលផ្ទះបឹងអាចដំណើរការដូចការរំពឹងទុក បច្ចេកវិទ្យាទាំងនេះត្រូវតែអភិវឌ្ឍបន្ថែមទៀត។
មិនមែនជាការរីកចម្រើនគួរឱ្យកត់សម្គាល់លើរចនាសម្ព័ន្ធដែលមានស្រាប់នោះទេ។៖ នៅមានការមន្ទិលសង្ស័យជាខ្លាំងអំពីចំនួនផ្ទះបឹងដែលមានតម្លៃច្រើនជាងនេះពិតជានឹងរួមចំណែក។ អ្នកបង្រ្កាបខ្លះអះអាងថា ការរចនាឃ្លាំងបឹងដែលផ្គូផ្គងជាមួយឧបករណ៍ស្វ័យប្រវត្តិដែលសមស្របអាចសម្រេចបានប្រសិទ្ធភាពប្រៀបធៀប។

បញ្ហាប្រឈមនៃ Data Lakehouse

វាអាចជាការលំបាកក្នុងការទទួលយកបច្ចេកទេស lakehouse ទិន្នន័យ។ ដោយសារតែភាពស្មុគ្រស្មាញនៃបំណែកសមាសធាតុរបស់វា វាមិនត្រឹមត្រូវទេក្នុងការមើលបឹងទិន្នន័យជារចនាសម្ព័ន្ធដ៏ល្អដែលគ្របដណ្តប់ទាំងអស់ ឬ "វេទិកាមួយសម្រាប់អ្វីគ្រប់យ៉ាង" សម្រាប់មួយ។

លើសពីនេះទៀត ដោយសារការកើនឡើងនៃការទទួលយកទិន្នន័យបឹង អាជីវកម្មនឹងត្រូវផ្លាស់ប្តូរឃ្លាំងទិន្នន័យបច្ចុប្បន្នរបស់ពួកគេទៅពួកគេ ដោយពឹងផ្អែកតែលើការសន្យានៃភាពជោគជ័យដោយគ្មានអត្ថប្រយោជន៍សេដ្ឋកិច្ចដែលអាចបង្ហាញឱ្យឃើញ។

ប្រសិនបើមានបញ្ហាក្នុងការពន្យាពេល ឬការដាច់ភ្លើងពេញមួយដំណើរការផ្ទេរ វាអាចនឹងធ្វើឱ្យថ្លៃ ចំណាយពេលវេលា និងប្រហែលជាមិនមានសុវត្ថិភាព។

អ្នកប្រើប្រាស់អាជីវកម្មត្រូវតែទទួលយកបច្ចេកវិទ្យាឯកទេសខ្ពស់ យោងទៅតាមអ្នកលក់ជាក់លាក់ដែលបង្ហាញដំណោះស្រាយទីផ្សារយ៉ាងច្បាស់ ឬដោយប្រយោលជាឃ្លាំងទិន្នន័យ។ ទាំងនេះប្រហែលជាមិនតែងតែដំណើរការជាមួយឧបករណ៍ផ្សេងទៀតដែលភ្ជាប់ទៅបឹងទិន្នន័យនៅកណ្តាលនៃប្រព័ន្ធនោះទេ ដោយបន្ថែមបញ្ហា។

លើសពីនេះ វាប្រហែលជាពិបាកក្នុងការផ្គត់ផ្គង់ការវិភាគ 24/7 ខណៈពេលដែលដំណើរការបន្ទុកការងារដ៏សំខាន់សម្រាប់អាជីវកម្ម ដែលទាមទារឱ្យមានហេដ្ឋារចនាសម្ព័ន្ធជាមួយនឹងលទ្ធភាពធ្វើមាត្រដ្ឋានប្រកបដោយប្រសិទ្ធភាព។

សន្និដ្ឋាន

មជ្ឈមណ្ឌលទិន្នន័យប្រភេទថ្មីបំផុតក្នុងប៉ុន្មានឆ្នាំចុងក្រោយនេះ គឺជាឃ្លាំងទិន្នន័យ. វារួមបញ្ចូលនូវវិស័យជាច្រើនដូចជា បច្ចេកវិទ្យាព័ត៌មាន កម្មវិធីប្រភពបើកចំហ។ cloud computingនិងពិធីការការផ្ទុកចែកចាយ។

វាអនុញ្ញាតឱ្យអាជីវកម្មរក្សាទុកជាកណ្តាលនូវប្រភេទទិន្នន័យទាំងអស់ពីទីតាំងណាមួយ សម្រួលដល់ការគ្រប់គ្រង និងការវិភាគ។ Data Lakehouse គឺជាគំនិតគួរឱ្យចាប់អារម្មណ៍ណាស់។

ក្រុមហ៊ុនណាមួយនឹងមានការប្រកួតប្រជែងយ៉ាងសំខាន់ប្រសិនបើវាមានលទ្ធភាពចូលទៅកាន់វេទិកាទិន្នន័យទាំងអស់ដែលលឿន និងមានប្រសិទ្ធភាពដូចឃ្លាំងទិន្នន័យ ខណៈពេលដែលមានភាពបត់បែនដូចបឹងទិន្នន័យផងដែរ។

គំនិតនេះនៅតែអភិវឌ្ឍ ហើយនៅតែថ្មី ជាលទ្ធផល វាអាចចំណាយពេលខ្លះដើម្បីកំណត់ថាតើអ្វីមួយអាចរីករាលដាលឬអត់។

យើងទាំងអស់គ្នាគួរតែចង់ដឹងអំពីទិសដៅដែលស្ថាបត្យកម្ម Lakehouse កំពុងធ្វើដំណើរ។

Data Lakehouse អ្វីគ្រប់យ៉ាងដែលអ្នកត្រូវដឹង

Data Lakehouse - អ្វីគ្រប់យ៉ាងដែលអ្នកត្រូវដឹង

តើ Data Lakehouse ជាអ្វី?

លក្ខណៈពិសេស

ធាតុនៃ Data Lakehouse