វាប្រហែលជាពិបាកបន្តិចក្នុងការពិចារណាសេវាកម្មដែលមាន និងជម្រើសស្ថាបត្យកម្មទាំងអស់នៅពេលគិតអំពីវេទិកាទិន្នន័យ។
វេទិកាទិន្នន័យសហគ្រាសជារឿយៗមានឃ្លាំងទិន្នន័យ គំរូទិន្នន័យ ឃ្លាំងទិន្នន័យ និងរបាយការណ៍ ដែលនីមួយៗមានគោលបំណងជាក់លាក់ និងសំណុំជំនាញដែលត្រូវការ។ ផ្ទុយទៅវិញ ការរចនាថ្មីមួយដែលមានឈ្មោះថា Data lakehouse បានលេចឡើងក្នុងអំឡុងពេលប៉ុន្មានឆ្នាំចុងក្រោយនេះ។
ភាពបត់បែននៃទិន្នន័យទិន្នន័យ និងការគ្រប់គ្រងទិន្នន័យឃ្លាំងទិន្នន័យត្រូវបានរួមបញ្ចូលគ្នានៅក្នុងស្ថាបត្យកម្មការផ្ទុកទិន្នន័យបដិវត្តន៍មួយដែលមានឈ្មោះថា "ឃ្លាំងទិន្នន័យ" ។
យើងនឹងពិនិត្យមើលទិន្នន័យបឹងជ្រៅក្នុងការប្រកាសនេះ រួមទាំងធាតុផ្សំ លក្ខណៈពិសេស ស្ថាបត្យកម្ម និងទិដ្ឋភាពផ្សេងទៀត។
តើ Data Lakehouse ជាអ្វី?
ដូចដែលឈ្មោះបង្កប់ន័យ ឃ្លាំងទិន្នន័យគឺជាប្រភេទថ្មីនៃស្ថាបត្យកម្មទិន្នន័យដែលរួមបញ្ចូលគ្នានូវទិន្នន័យបឹងជាមួយឃ្លាំងទិន្នន័យដើម្បីដោះស្រាយចំណុចខ្វះខាតនីមួយៗដោយឡែកពីគ្នា។
សរុបមក ប្រព័ន្ធ lakehouse ប្រើកន្លែងផ្ទុកតម្លៃថោក ដើម្បីរក្សាទិន្នន័យយ៉ាងច្រើនក្នុងទម្រង់ដើមរបស់វា ដូចជាទិន្នន័យបឹងជាដើម។ ការបន្ថែមស្រទាប់ទិន្នន័យមេតានៅផ្នែកខាងលើនៃហាងក៏ផ្តល់នូវរចនាសម្ព័ន្ធទិន្នន័យ និងផ្តល់សិទ្ធិអំណាចដល់ឧបករណ៍គ្រប់គ្រងទិន្នន័យដូចជាអ្នកដែលបានរកឃើញនៅក្នុងឃ្លាំងទិន្នន័យ។
វារក្សាទុកបរិមាណដ៏ធំនៃទិន្នន័យដែលបានរៀបចំ ពាក់កណ្តាលរចនាសម្ព័ន្ធ និងមិនមានរចនាសម្ព័ន្ធ ដែលពួកគេទទួលបានពីកម្មវិធីអាជីវកម្មផ្សេងៗ ប្រព័ន្ធ និងឧបករណ៍ប្រើប្រាស់ក្នុងស្ថាប័នរបស់ពួកគេ។
ភាគច្រើននៃពេលវេលា បឹងទិន្នន័យប្រើប្រាស់ហេដ្ឋារចនាសម្ព័ន្ធផ្ទុកតម្លៃទាបជាមួយនឹងចំណុចប្រទាក់កម្មវិធីកម្មវិធីឯកសារ (API) ដើម្បីរក្សាទុកទិន្នន័យក្នុងទម្រង់ឯកសារទូទៅបើកចំហ។
នេះធ្វើឱ្យវាអាចទៅរួចសម្រាប់ក្រុមជាច្រើនក្នុងការចូលប្រើទិន្នន័យរបស់ក្រុមហ៊ុនទាំងអស់តាមរយៈប្រព័ន្ធតែមួយសម្រាប់ការផ្តួចផ្តើមគំនិតជាច្រើនដូចជាវិទ្យាសាស្ត្រទិន្នន័យ។ ការរៀនម៉ាស៊ីននិងភាពវៃឆ្លាតអាជីវកម្ម។
លក្ខណៈពិសេស
- ការផ្ទុកតម្លៃទាប។ ឃ្លាំងទិន្នន័យត្រូវតែអាចរក្សាទុកទិន្នន័យនៅក្នុងកន្លែងផ្ទុកវត្ថុដែលមានតំលៃថោក ដូចជា Google Cloud ការផ្ទុក, Azure Blob Storage, Amazon Simple Storage Service, ឬដើមកំណើតដោយប្រើ ORC ឬ Parquet ។
- សមត្ថភាពសម្រាប់ការបង្កើនប្រសិទ្ធភាពទិន្នន័យ៖ ការបង្កើនប្រសិទ្ធភាពប្លង់ទិន្នន័យ ឃ្លាំងសម្ងាត់ និងការធ្វើលិបិក្រមគឺជាឧទាហរណ៍មួយចំនួននៃរបៀបដែលឃ្លាំងទិន្នន័យត្រូវតែអាចបង្កើនប្រសិទ្ធភាពទិន្នន័យ ខណៈពេលដែលរក្សាបាននូវទម្រង់ដើមរបស់ទិន្នន័យ។
- ស្រទាប់នៃទិន្នន័យមេតាប្រតិបត្តិការ៖ នៅលើកំពូលនៃទំហំផ្ទុកតម្លៃទាបដ៏សំខាន់ នេះអនុញ្ញាតឱ្យសមត្ថភាពគ្រប់គ្រងទិន្នន័យមានសារៈសំខាន់សម្រាប់ដំណើរការឃ្លាំងទិន្នន័យ។
- ការគាំទ្រសម្រាប់ Declarative DataFrame API៖ ឧបករណ៍ AI ភាគច្រើនអាចប្រើ DataFrames ដើម្បីទាញយកទិន្នន័យរក្សាទុកវត្ថុឆៅ។ ការគាំទ្រសម្រាប់ Declarative DataFrame API បង្កើនសមត្ថភាពក្នុងការធ្វើអោយប្រសើរឡើងនូវការបង្ហាញ និងរចនាសម្ព័ន្ធរបស់ទិន្នន័យក្នុងការឆ្លើយតបទៅនឹងវិទ្យាសាស្ត្រទិន្នន័យជាក់លាក់ ឬកិច្ចការ AI ។
- ការគាំទ្រសម្រាប់ប្រតិបត្តិការ ACID៖ អក្សរកាត់ ACID ដែលតំណាងឱ្យអាតូមិក ភាពស៊ីសង្វាក់ ភាពឯកោ និងភាពធន់ គឺជាធាតុផ្សំដ៏សំខាន់ក្នុងការកំណត់ប្រតិបត្តិការ និងធានានូវភាពស៊ីសង្វាក់គ្នា និងភាពអាស្រ័យនៃទិន្នន័យ។ ប្រតិបត្តិការបែបនេះពីមុនគឺអាចធ្វើទៅបានតែនៅក្នុងឃ្លាំងទិន្នន័យប៉ុណ្ណោះ ប៉ុន្តែ lakehouse ផ្តល់ជម្រើសដើម្បីប្រើប្រាស់ពួកវាជាមួយទិន្នន័យបឹង ដូចគ្នា។ ជាមួយនឹងបំពង់បញ្ជូនទិន្នន័យជាច្រើន រួមទាំងការអាន និងសរសេរទិន្នន័យដំណាលគ្នា វាជួយដោះស្រាយបញ្ហាគុណភាពទិន្នន័យទាប។
ធាតុនៃ Data Lakehouse
ស្ថាបត្យកម្មនៃ Data lakehouse ចែកចេញជាពីរថ្នាក់ធំៗនៅកម្រិតខ្ពស់។ ការទទួលយកទិន្នន័យរបស់ស្រទាប់ផ្ទុកត្រូវបានគ្រប់គ្រងដោយវេទិកា Lakehouse (ឧទាហរណ៍បឹងទិន្នន័យ)។
ដោយមិនចាំបាច់ផ្ទុកទិន្នន័យទៅក្នុងឃ្លាំងទិន្នន័យ ឬបំប្លែងវាទៅជាទម្រង់កម្មសិទ្ធិ នោះស្រទាប់ដំណើរការអាចសួរទិន្នន័យក្នុងស្រទាប់ផ្ទុកដោយផ្ទាល់ដោយប្រើឧបករណ៍ជាច្រើន។
បន្ទាប់មក កម្មវិធី BI ក៏ដូចជាបច្ចេកវិទ្យា AI និង ML អាចប្រើប្រាស់ទិន្នន័យបាន។ សេដ្ឋកិច្ចនៃបឹងទិន្នន័យត្រូវបានផ្តល់ដោយការរចនានេះ ប៉ុន្តែដោយសារតែម៉ាស៊ីនដំណើរការណាមួយអាចអានទិន្នន័យនេះ អាជីវកម្មមានសេរីភាពក្នុងការធ្វើឱ្យទិន្នន័យដែលបានរៀបចំអាចចូលដំណើរការបានសម្រាប់ការវិភាគដោយប្រព័ន្ធជាច្រើន។ ដំណើរការ និងការចំណាយរបស់ឧបករណ៍ដំណើរការអាចត្រូវបានកែលម្អដោយប្រើវិធីសាស្ត្រនេះសម្រាប់ដំណើរការ និងការវិភាគ។
ដោយសារតែការគាំទ្ររបស់វាសម្រាប់ប្រតិបត្តិការមូលដ្ឋានទិន្នន័យដែលប្រកាន់ខ្ជាប់នូវលក្ខណៈវិនិច្ឆ័យ ACID ខាងក្រោម (អាតូមិច ភាពស៊ីសង្វាក់ ភាពឯកោ និងភាពធន់) ស្ថាបត្យកម្មក៏អនុញ្ញាតឱ្យភាគីជាច្រើនចូលប្រើ និងសរសេរទិន្នន័យក្នុងពេលដំណាលគ្នានៅក្នុងប្រព័ន្ធ៖
- អាតូមិក សំដៅទៅលើការពិតដែលថា ប្រតិបត្តិការពេញលេញ ឬគ្មានវា ជោគជ័យនៅពេលបញ្ចប់ប្រតិបត្តិការ។ នៅក្នុងព្រឹត្តិការណ៍ដែលដំណើរការត្រូវបានរំខាន វាជួយជៀសវាងការបាត់បង់ទិន្នន័យ ឬអំពើពុករលួយ។
- ភាពស្របគ្នា ការធានាប្រតិបត្តិការកើតឡើងក្នុងលក្ខណៈដែលអាចព្យាករណ៍បាន និងជាប់លាប់។ វារក្សាភាពសុចរិតនៃទិន្នន័យដោយធានាថារាល់ទិន្នន័យគឺស្របច្បាប់ស្របតាមច្បាប់ដែលបានកំណត់ទុកជាមុន។
- ឯកោ ធានាថា រហូតទាល់តែវាត្រូវបានបញ្ចប់ ប្រតិបត្តិការណាមួយអាចរងផលប៉ះពាល់ដោយប្រតិបត្តិការផ្សេងទៀតនៅក្នុងប្រព័ន្ធ។ នេះអនុញ្ញាតឱ្យភាគីជាច្រើនអាចអាន និងសរសេរពីប្រព័ន្ធតែមួយក្នុងពេលដំណាលគ្នាដោយមិនរំខានដល់គ្នាទៅវិញទៅមក។
- ប្រើប្រាស់បានយូរ ធានាថាការផ្លាស់ប្តូរទិន្នន័យនៅក្នុងប្រព័ន្ធនៅតែបន្តកើតមានបន្ទាប់ពីប្រតិបត្តិការត្រូវបានបញ្ចប់ ទោះបីជាក្នុងករណីប្រព័ន្ធបរាជ័យក៏ដោយ។ រាល់ការផ្លាស់ប្តូរដែលកើតឡើងដោយប្រតិបត្តិការមួយត្រូវបានរក្សាទុកក្នុងឯកសារជារៀងរហូត។
ស្ថាបត្យកម្ម Data Lakehouse
Databricks (អ្នកច្នៃប្រឌិត និងអ្នករចនាគំនិត Delta Lake របស់ពួកគេ) និង AWS គឺជាអ្នកតស៊ូមតិសំខាន់ពីរសម្រាប់គំនិតនៃ data lakehouse ។ ដូច្នេះ យើងនឹងពឹងផ្អែកលើចំណេះដឹង និងការយល់ដឹងរបស់ពួកគេ ដើម្បីពិពណ៌នាអំពីប្លង់ស្ថាបត្យកម្មនៃផ្ទះបឹង។
ប្រព័ន្ធ បឹងទិន្នន័យ ជាធម្មតានឹងមានប្រាំស្រទាប់៖
- ស្រទាប់ស្រូបយក
- ស្រទាប់ផ្ទុក
- ស្រទាប់ទិន្នន័យមេតា
- ស្រទាប់ API
- ស្រទាប់ប្រើប្រាស់
ស្រទាប់ស្រូបយក
ស្រទាប់ទីមួយរបស់ប្រព័ន្ធគឺទទួលខុសត្រូវក្នុងការប្រមូលទិន្នន័យពីប្រភពផ្សេងៗ ហើយបញ្ជូនវាទៅស្រទាប់ផ្ទុក។ ស្រទាប់អាចប្រើប្រាស់ពិធីការជាច្រើនដើម្បីភ្ជាប់ទៅប្រភពខាងក្នុង និងខាងក្រៅជាច្រើន រួមទាំងការបញ្ចូលគ្នានូវបណ្តុំ និងការស្ទ្រីមសមត្ថភាពដំណើរការទិន្នន័យ ដូចជា
- មូលដ្ឋានទិន្នន័យ NoSQL,
- ការចែករំលែកឯកសារ
- កម្មវិធី CRM,
- គេហទំព័រ,
- ឧបករណ៍ចាប់សញ្ញា IoT,
- ប្រព័ន្ធផ្សព្វផ្សាយសង្គម,
- កម្មវិធីជាសេវាកម្ម (SaaS) និង
- ប្រព័ន្ធគ្រប់គ្រងមូលដ្ឋានទិន្នន័យទំនាក់ទំនង។ល។
នៅចំណុចនេះ សមាសធាតុដូចជា Apache Kafka សម្រាប់ការផ្សាយទិន្នន័យ និង Amazon Data Migration Service (Amazon DMS) សម្រាប់ការនាំចូលទិន្នន័យពី RDBMSs និង NoSQL databases អាចត្រូវបានប្រើប្រាស់។
ស្រទាប់ផ្ទុក
ស្ថាបត្យកម្ម lakehouse មានបំណងបើកការផ្ទុកទិន្នន័យប្រភេទផ្សេងៗជាវត្ថុនៅក្នុងហាងលក់វត្ថុដែលមានតំលៃថោក ដូចជា AWS S3 ជាដើម។ ដោយប្រើទម្រង់ឯកសារបើកចំហ ឧបករណ៍អតិថិជនអាចអានធាតុទាំងនេះដោយផ្ទាល់ពីហាង។
នេះធ្វើឱ្យវាអាចទៅរួចសម្រាប់ APIs និងសមាសធាតុស្រទាប់ប្រើប្រាស់ជាច្រើនដើម្បីចូលប្រើ និងប្រើប្រាស់ទិន្នន័យដូចគ្នា។ ស្រទាប់ទិន្នន័យមេតារក្សាទុកគ្រោងការណ៍សម្រាប់សំណុំទិន្នន័យដែលមានរចនាសម្ព័ន្ធ និងពាក់កណ្តាលរចនាសម្ព័ន្ធ ដូច្នេះសមាសធាតុអាចអនុវត្តពួកវាទៅទិន្នន័យនៅពេលពួកគេអានវា។
ឧទាហរណ៍ វេទិកា Hadoop Distributed File System (HDFS) អាចត្រូវបានប្រើដើម្បីបង្កើតសេវាឃ្លាំងពពកដែលបំបែកកុំព្យូទ័រ និងកន្លែងផ្ទុកនៅក្នុងបរិវេណ។ Lakehouse គឺសមតាមឧត្ដមគតិសម្រាប់សេវាកម្មទាំងនេះ។
ស្រទាប់ទិន្នន័យមេតា
ស្រទាប់ទិន្នន័យមេតាគឺជាធាតុផ្សំជាមូលដ្ឋាននៃឃ្លាំងទិន្នន័យដែលបែងចែកការរចនានេះ។ វាជាកាតាឡុកតែមួយដែលផ្តល់ទិន្នន័យមេតា (ព័ត៌មានអំពីបំណែកទិន្នន័យផ្សេងទៀត) សម្រាប់ធាតុទាំងអស់ដែលបានរក្សាទុកនៅក្នុងបឹង និងអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់ប្រើប្រាស់សមត្ថភាពគ្រប់គ្រងដូចជា៖
- កំណែស្របគ្នានៃមូលដ្ឋានទិន្នន័យត្រូវបានមើលឃើញដោយប្រតិបត្តិការស្របគ្នាដោយអរគុណចំពោះប្រតិបត្តិការ ACID ។
- ឃ្លាំងសម្ងាត់ដើម្បីរក្សាទុកឯកសាររក្សាទុកវត្ថុពពក;
- ការបន្ថែមលិបិក្រមរចនាសម្ព័ន្ធទិន្នន័យដោយប្រើលិបិក្រមដើម្បីបង្កើនល្បឿនដំណើរការសំណួរ។
- ដោយប្រើការក្លូនសូន្យចម្លងដើម្បីចម្លងវត្ថុទិន្នន័យ; និង
- ដើម្បីរក្សាទុកកំណែជាក់លាក់នៃទិន្នន័យ។ល។ ប្រើកំណែទិន្នន័យ។
លើសពីនេះ ស្រទាប់ទិន្នន័យមេតាអាចឱ្យការអនុវត្តការគ្រប់គ្រងគ្រោងការណ៍ ការប្រើប្រាស់គ្រោងការណ៍ DW ដូចជាគ្រោងការណ៍ផ្កាយ/ព្រិលទឹកកក និងការផ្តល់ការគ្រប់គ្រងទិន្នន័យ និងសមត្ថភាពសវនកម្មដោយផ្ទាល់នៅលើបឹងទិន្នន័យ បង្កើនភាពសុចរិតនៃបំពង់បង្ហូរទិន្នន័យទាំងមូល។
លក្ខណៈពិសេសសម្រាប់ការវិវត្តន៍គ្រោងការណ៍ និងការអនុវត្តត្រូវបានរួមបញ្ចូលក្នុងការគ្រប់គ្រងគ្រោងការណ៍។ តាមរយៈការបដិសេធការសរសេរណាមួយដែលមិនស្របតាមគ្រោងការណ៍នៃតារាង ការអនុវត្តគ្រោងការណ៍អនុញ្ញាតឱ្យអ្នកប្រើប្រាស់រក្សាបាននូវភាពត្រឹមត្រូវ និងគុណភាពទិន្នន័យ។
ការវិវត្តនៃគ្រោងការណ៍អនុញ្ញាតឱ្យគ្រោងការណ៍បច្ចុប្បន្នរបស់តារាងត្រូវបានកែប្រែដើម្បីសម្របទៅនឹងការផ្លាស់ប្តូរទិន្នន័យ។ ដោយសារតែចំណុចប្រទាក់រដ្ឋបាលតែមួយនៅលើកំពូលនៃទិន្នន័យបឹង វាក៏មានលទ្ធភាពនៃការគ្រប់គ្រង និងសវនកម្មផងដែរ។
ស្រទាប់ API
ស្រទាប់សំខាន់មួយទៀតនៃស្ថាបត្យកម្មឥឡូវនេះមានវត្តមាន ដែលបង្ហោះ APIs មួយចំនួនដែលអ្នកប្រើប្រាស់ចុងក្រោយទាំងអស់អាចប្រើប្រាស់ដើម្បីបំពេញការងារបានលឿន និងទទួលបានស្ថិតិស្មុគ្រស្មាញជាងមុន។
ការប្រើប្រាស់ APIs ទិន្នន័យមេតាធ្វើឱ្យវាកាន់តែងាយស្រួលក្នុងការកំណត់អត្តសញ្ញាណ និងចូលប្រើធាតុទិន្នន័យដែលត្រូវការសម្រាប់កម្មវិធីដែលបានផ្តល់ឱ្យ។
នៅក្នុងលក្ខខណ្ឌនៃបណ្ណាល័យសិក្សាម៉ាស៊ីន ពួកវាមួយចំនួនដូចជា TensorFlow និង Spark MLlib អាចអានទម្រង់ឯកសារបើកចំហដូចជា Parquet និងចូលប្រើស្រទាប់ទិន្នន័យមេតាដោយផ្ទាល់។
ក្នុងពេលជាមួយគ្នានោះ DataFrame APIs ផ្តល់ឱកាសកាន់តែច្រើនសម្រាប់ការបង្កើនប្រសិទ្ធភាព ដែលអនុញ្ញាតឱ្យអ្នកសរសេរកម្មវិធីរៀបចំ និងផ្លាស់ប្តូរទិន្នន័យដែលបែកខ្ញែក។
ស្រទាប់ប្រើប្រាស់
Power BI, Tableau និងឧបករណ៍ និងកម្មវិធីផ្សេងទៀតត្រូវបានបង្ហោះនៅក្រោមស្រទាប់ប្រើប្រាស់។ ជាមួយនឹងការរចនា lakehouse ទាំងអស់នៃ metadata និងទិន្នន័យទាំងអស់ដែលត្រូវបានរក្សាទុកនៅក្នុងបឹងមួយគឺអាចចូលដំណើរការបានទៅកម្មវិធីអតិថិជន។
ផ្ទះបឹងអាចត្រូវបានប្រើប្រាស់ដោយអ្នកប្រើប្រាស់ទាំងអស់នៅក្នុងក្រុមហ៊ុនដើម្បីអនុវត្តគ្រប់ប្រភេទ ប្រតិបត្តិការវិភាគរួមទាំងការបង្កើតផ្ទាំងគ្រប់គ្រងពាណិជ្ជកម្ម និងការដំណើរការសំណួរ SQL និងកិច្ចការរៀនម៉ាស៊ីន។
អត្ថប្រយោជន៍នៃ Data Lakehouse
អង្គការអាចបង្កើតឃ្លាំងទិន្នន័យ ដើម្បីបង្រួបបង្រួមវេទិកាទិន្នន័យបច្ចុប្បន្នរបស់ពួកគេ និងធ្វើឱ្យដំណើរការគ្រប់គ្រងទិន្នន័យទាំងមូលរបស់ពួកគេប្រសើរឡើង។ តាមរយៈការរុះរើរបាំងស៊ីឡូដែលភ្ជាប់ប្រភពផ្សេងៗ ឃ្លាំងទិន្នន័យអាចជំនួសតម្រូវការសម្រាប់ដំណោះស្រាយផ្សេងៗគ្នា។
បើប្រៀបធៀបទៅនឹងប្រភពទិន្នន័យដែលបានរៀបចំ ការធ្វើសមាហរណកម្មនេះបង្កើតនូវដំណើរការពីចុងដល់ចប់ដែលមានប្រសិទ្ធភាពជាង។ វាមានអត្ថប្រយោជន៍ជាច្រើន៖
- ការគ្រប់គ្រងតិច៖ ជាជាងទាញយកទិន្នន័យពីទិន្នន័យឆៅ និងរៀបចំវាសម្រាប់ប្រើប្រាស់ក្នុងឃ្លាំងទិន្នន័យ ឃ្លាំងទិន្នន័យអនុញ្ញាតឱ្យប្រភពណាមួយដែលភ្ជាប់ទៅវាដើម្បីឱ្យទិន្នន័យរបស់ពួកគេមាន និងរៀបចំសម្រាប់ប្រើប្រាស់។
- បង្កើនប្រសិទ្ធភាពចំណាយ៖ ឃ្លាំងទិន្នន័យត្រូវបានសាងសង់ដោយប្រើហេដ្ឋារចនាសម្ព័ន្ធសហសម័យដែលបែងចែកការគណនា និងការផ្ទុក ដែលធ្វើឱ្យវាសាមញ្ញក្នុងការពង្រីកទំហំផ្ទុកដោយមិនបង្កើនថាមពលកុំព្យូទ័រ។ គ្រាន់តែការប្រើប្រាស់នៃការផ្ទុកទិន្នន័យដែលមានតំលៃថោក នាំអោយមានលទ្ធភាពធ្វើមាត្រដ្ឋានដែលមានប្រសិទ្ធភាព។
- ការគ្រប់គ្រងទិន្នន័យកាន់តែប្រសើរ៖ ផ្ទះបឹងទិន្នន័យត្រូវបានសាងសង់ជាមួយនឹងស្ថាបត្យកម្មបើកចំហស្តង់ដារ ដែលអនុញ្ញាតឱ្យមានការគ្រប់គ្រងបន្ថែមទៀតលើសុវត្ថិភាព មាត្រដ្ឋាន ការចូលប្រើប្រាស់ដោយផ្អែកលើតួនាទី និងធាតុផ្សំនៃការគ្រប់គ្រងសំខាន់ៗផ្សេងទៀត។ តាមរយៈការបង្រួបបង្រួមធនធាន និងប្រភពទិន្នន័យ ពួកវាធ្វើឱ្យងាយស្រួល និងលើកកម្ពស់អភិបាលកិច្ច។
- ស្តង់ដារសាមញ្ញ៖ ចាប់តាំងពីការតភ្ជាប់ត្រូវបានដាក់កម្រិតយ៉ាងខ្លាំងនៅក្នុងទសវត្សរ៍ឆ្នាំ 1980 នៅពេលដែលឃ្លាំងទិន្នន័យត្រូវបានបង្កើតឡើងដំបូង ស្តង់ដារគ្រោងការណ៍ដែលបានធ្វើមូលដ្ឋានីយកម្មត្រូវបានបង្កើតឡើងជាញឹកញាប់នៅក្នុងអាជីវកម្ម សូម្បីតែនាយកដ្ឋានក៏ដោយ។ Data lakehouses ប្រើប្រាស់ការពិតដែលថាប្រភេទទិន្នន័យជាច្រើនឥឡូវនេះមានស្តង់ដារបើកចំហសម្រាប់គ្រោងការណ៍ដោយការបញ្ចូលប្រភពទិន្នន័យជាច្រើនជាមួយនឹងគ្រោងការណ៍ឯកសណ្ឋានត្រួតស៊ីគ្នាដើម្បីសម្រួលនីតិវិធី។
គុណវិបត្តិនៃ Data Lakehouse
ទោះបីជាមាន hoopla ទាំងអស់ជុំវិញបឹងទិន្នន័យក៏ដោយ វាជាការសំខាន់ដែលត្រូវចងចាំថាគំនិតនេះនៅតែថ្មីខ្លាំងណាស់។ ត្រូវប្រាកដថាថ្លឹងថ្លែងពីគុណវិបត្តិមុននឹងអនុវត្តយ៉ាងពេញលេញចំពោះការរចនាថ្មីនេះ។
- រចនាសម្ព័ន្ធ monolithic៖ ការរចនារួមបញ្ចូលទាំងអស់របស់ lakehouse ផ្តល់នូវអត្ថប្រយោជន៍ជាច្រើន ប៉ុន្តែវាក៏លើកបញ្ហាមួយចំនួនផងដែរ។ ស្ថាបត្យកម្ម Monolithic ជារឿយៗនាំទៅរកសេវាកម្មមិនល្អសម្រាប់អ្នកប្រើប្រាស់ទាំងអស់ ហើយអាចមានភាពតឹងរ៉ឹង និងពិបាកក្នុងការថែទាំ។ ជាធម្មតា ស្ថាបត្យករ និងអ្នករចនាចូលចិត្តស្ថាបត្យកម្មម៉ូឌុលបន្ថែមទៀត ដែលពួកគេអាចប្ដូរតាមបំណងសម្រាប់ករណីប្រើប្រាស់ផ្សេងៗ។
- បច្ចេកវិទ្យាមិនទាន់មាននៅឡើយទេ៖ គោលដៅចុងក្រោយមានបរិមាណដ៏សំខាន់នៃការរៀនម៉ាស៊ីន និងបញ្ញាសិប្បនិម្មិត។ មុនពេលដែលផ្ទះបឹងអាចដំណើរការដូចការរំពឹងទុក បច្ចេកវិទ្យាទាំងនេះត្រូវតែអភិវឌ្ឍបន្ថែមទៀត។
- មិនមែនជាការរីកចម្រើនគួរឱ្យកត់សម្គាល់លើរចនាសម្ព័ន្ធដែលមានស្រាប់នោះទេ។៖ នៅមានការមន្ទិលសង្ស័យជាខ្លាំងអំពីចំនួនផ្ទះបឹងដែលមានតម្លៃច្រើនជាងនេះពិតជានឹងរួមចំណែក។ អ្នកបង្រ្កាបខ្លះអះអាងថា ការរចនាឃ្លាំងបឹងដែលផ្គូផ្គងជាមួយឧបករណ៍ស្វ័យប្រវត្តិដែលសមស្របអាចសម្រេចបានប្រសិទ្ធភាពប្រៀបធៀប។
បញ្ហាប្រឈមនៃ Data Lakehouse
វាអាចជាការលំបាកក្នុងការទទួលយកបច្ចេកទេស lakehouse ទិន្នន័យ។ ដោយសារតែភាពស្មុគ្រស្មាញនៃបំណែកសមាសធាតុរបស់វា វាមិនត្រឹមត្រូវទេក្នុងការមើលបឹងទិន្នន័យជារចនាសម្ព័ន្ធដ៏ល្អដែលគ្របដណ្តប់ទាំងអស់ ឬ "វេទិកាមួយសម្រាប់អ្វីគ្រប់យ៉ាង" សម្រាប់មួយ។
លើសពីនេះទៀត ដោយសារការកើនឡើងនៃការទទួលយកទិន្នន័យបឹង អាជីវកម្មនឹងត្រូវផ្លាស់ប្តូរឃ្លាំងទិន្នន័យបច្ចុប្បន្នរបស់ពួកគេទៅពួកគេ ដោយពឹងផ្អែកតែលើការសន្យានៃភាពជោគជ័យដោយគ្មានអត្ថប្រយោជន៍សេដ្ឋកិច្ចដែលអាចបង្ហាញឱ្យឃើញ។
ប្រសិនបើមានបញ្ហាក្នុងការពន្យាពេល ឬការដាច់ភ្លើងពេញមួយដំណើរការផ្ទេរ វាអាចនឹងធ្វើឱ្យថ្លៃ ចំណាយពេលវេលា និងប្រហែលជាមិនមានសុវត្ថិភាព។
អ្នកប្រើប្រាស់អាជីវកម្មត្រូវតែទទួលយកបច្ចេកវិទ្យាឯកទេសខ្ពស់ យោងទៅតាមអ្នកលក់ជាក់លាក់ដែលបង្ហាញដំណោះស្រាយទីផ្សារយ៉ាងច្បាស់ ឬដោយប្រយោលជាឃ្លាំងទិន្នន័យ។ ទាំងនេះប្រហែលជាមិនតែងតែដំណើរការជាមួយឧបករណ៍ផ្សេងទៀតដែលភ្ជាប់ទៅបឹងទិន្នន័យនៅកណ្តាលនៃប្រព័ន្ធនោះទេ ដោយបន្ថែមបញ្ហា។
លើសពីនេះ វាប្រហែលជាពិបាកក្នុងការផ្គត់ផ្គង់ការវិភាគ 24/7 ខណៈពេលដែលដំណើរការបន្ទុកការងារដ៏សំខាន់សម្រាប់អាជីវកម្ម ដែលទាមទារឱ្យមានហេដ្ឋារចនាសម្ព័ន្ធជាមួយនឹងលទ្ធភាពធ្វើមាត្រដ្ឋានប្រកបដោយប្រសិទ្ធភាព។
សន្និដ្ឋាន
មជ្ឈមណ្ឌលទិន្នន័យប្រភេទថ្មីបំផុតក្នុងប៉ុន្មានឆ្នាំចុងក្រោយនេះ គឺជាឃ្លាំងទិន្នន័យ. វារួមបញ្ចូលនូវវិស័យជាច្រើនដូចជា បច្ចេកវិទ្យាព័ត៌មាន កម្មវិធីប្រភពបើកចំហ។ cloud computingនិងពិធីការការផ្ទុកចែកចាយ។
វាអនុញ្ញាតឱ្យអាជីវកម្មរក្សាទុកជាកណ្តាលនូវប្រភេទទិន្នន័យទាំងអស់ពីទីតាំងណាមួយ សម្រួលដល់ការគ្រប់គ្រង និងការវិភាគ។ Data Lakehouse គឺជាគំនិតគួរឱ្យចាប់អារម្មណ៍ណាស់។
ក្រុមហ៊ុនណាមួយនឹងមានការប្រកួតប្រជែងយ៉ាងសំខាន់ប្រសិនបើវាមានលទ្ធភាពចូលទៅកាន់វេទិកាទិន្នន័យទាំងអស់ដែលលឿន និងមានប្រសិទ្ធភាពដូចឃ្លាំងទិន្នន័យ ខណៈពេលដែលមានភាពបត់បែនដូចបឹងទិន្នន័យផងដែរ។
គំនិតនេះនៅតែអភិវឌ្ឍ ហើយនៅតែថ្មី ជាលទ្ធផល វាអាចចំណាយពេលខ្លះដើម្បីកំណត់ថាតើអ្វីមួយអាចរីករាលដាលឬអត់។
យើងទាំងអស់គ្នាគួរតែចង់ដឹងអំពីទិសដៅដែលស្ថាបត្យកម្ម Lakehouse កំពុងធ្វើដំណើរ។
សូមផ្ដល់យោបល់