Mungkin agak sukar untuk mempertimbangkan semua perkhidmatan dan pilihan seni bina yang tersedia apabila memikirkan tentang platform data.
Platform data perusahaan selalunya terdiri daripada gudang data, model data, tasik data dan laporan, masing-masing dengan tujuan khusus dan set kemahiran yang diperlukan. Sebaliknya, reka bentuk baharu yang dipanggil data lakehouse telah muncul dalam beberapa tahun kebelakangan ini.
Fleksibiliti tasik data dan pengurusan data gudang data digabungkan dalam seni bina storan data revolusioner yang digelar "rumah tasik data."
Kami akan memeriksa data lakehouse secara mendalam dalam siaran ini, termasuk komponen, ciri, seni bina dan aspek lain.
Apakah Data Lakehouse?
Seperti namanya, data lakehouse ialah jenis seni bina data baharu yang menggabungkan tasik data dengan gudang data untuk menyelesaikan kekurangan setiap satu secara berasingan.
Pada dasarnya, sistem lakehouse menggunakan storan yang murah untuk mengekalkan sejumlah besar data dalam bentuk asalnya, sama seperti tasik data. Menambah lapisan metadata di bahagian atas gedung juga memberikan struktur data dan memperkasakan alatan pengurusan data seperti yang terdapat dalam gudang data.
Ia menyimpan sejumlah besar data tersusun, separa berstruktur dan tidak berstruktur yang mereka peroleh daripada aplikasi perniagaan, sistem dan alat yang berbeza yang digunakan di seluruh organisasi mereka.
Pada kebanyakan masa, tasik data menggunakan infrastruktur storan kos rendah dengan antara muka pengaturcaraan aplikasi fail (API) untuk menyimpan data dalam format fail generik terbuka.
Ini membolehkan banyak pasukan mengakses semua data syarikat melalui satu sistem untuk pelbagai inisiatif, seperti sains data, pembelajaran mesin, dan risikan perniagaan.
Ciri-ciri
- Storan kos rendah. Data lakehouse mesti boleh menyimpan data dalam storan objek yang murah, seperti Awan Google Storan, Storan Blob Azure, Perkhidmatan Penyimpanan Mudah Amazon, atau secara asli menggunakan ORC atau Parket.
- Keupayaan untuk pengoptimuman data: Pengoptimuman reka letak data, caching dan pengindeksan ialah beberapa contoh bagaimana rumah tasik data mesti dapat mengoptimumkan data sambil mengekalkan format asal data.
- Lapisan metadata transaksi: Di samping storan kos rendah yang penting, ini membolehkan keupayaan pengurusan data yang penting untuk prestasi gudang data.
- Sokongan untuk API DataFrame Perisytiharan: Majoriti alatan AI boleh menggunakan DataFrames untuk mendapatkan semula data stor objek mentah. Sokongan untuk API Deklaratif DataFrame meningkatkan keupayaan untuk memperbaik persembahan dan struktur data secara dinamik sebagai tindak balas kepada sains data atau tugas AI tertentu.
- Sokongan untuk urus niaga ACID: Akronim ACID, yang bermaksud atomicity, konsistensi, pengasingan dan ketahanan, merupakan komponen penting dalam mentakrifkan transaksi dan memastikan ketekalan dan kebolehpercayaan data. Urus niaga sedemikian sebelum ini hanya boleh dilakukan di gudang data, tetapi lakehouse menawarkan pilihan untuk menggunakannya dengan tasik data juga. Dengan beberapa saluran paip data termasuk membaca dan menulis data serentak, ini menyelesaikan masalah kualiti data rendah yang terakhir.
Elemen Data Lakehouse
Seni bina data lakehouse terbahagi kepada dua peringkat utama pada tahap tinggi. Pengambilan data lapisan storan dikawal oleh platform Lakehouse (iaitu, tasik data).
Tanpa perlu memuatkan data ke dalam gudang data atau menukarnya kepada format proprietari, lapisan pemprosesan kemudiannya boleh menanyakan data dalam lapisan storan secara langsung menggunakan pelbagai alat.
Kemudian, apl BI, serta teknologi AI dan ML, boleh menggunakan data tersebut. Ekonomi tasik data disediakan oleh reka bentuk ini, tetapi kerana mana-mana enjin pemprosesan boleh membaca data ini, perniagaan mempunyai kebebasan untuk menjadikan data yang disediakan boleh diakses untuk analisis oleh pelbagai sistem. Prestasi pemproses dan kos kedua-duanya boleh dipertingkatkan dengan menggunakan kaedah ini untuk pemprosesan dan analisis.
Disebabkan sokongannya untuk transaksi pangkalan data yang mematuhi kriteria ACID (keatoman, konsistensi, pengasingan dan ketahanan) berikut, seni bina juga membolehkan banyak pihak mengakses dan menulis data secara serentak dalam sistem:
- Atomisiti merujuk kepada fakta bahawa sama ada transaksi penuh atau tidak, berjaya semasa menyelesaikan transaksi. Sekiranya proses terganggu, ini membantu mengelakkan kehilangan data atau rasuah.
- ketekalan menjamin urus niaga berlaku dalam cara yang boleh diramal dan konsisten. Ia mengekalkan integriti data dengan memastikan setiap data adalah sah mengikut peraturan yang telah ditetapkan.
- Pengasingan memastikan bahawa, sehingga ia selesai, tiada urus niaga boleh terjejas oleh sebarang transaksi lain dalam sistem. Ini membolehkan banyak pihak membaca dan menulis daripada sistem yang sama secara serentak tanpa mengganggu satu sama lain.
- Ketahanan menjamin bahawa perubahan kepada data dalam sistem terus wujud selepas transaksi selesai, walaupun sekiranya berlaku kegagalan sistem. Sebarang perubahan yang dibawa oleh transaksi disimpan dalam fail selama-lamanya.
Seni Bina Data Lakehouse
Databricks (inovator dan pereka konsep Tasik Delta mereka) dan AWS ialah dua penyokong utama untuk konsep rumah tasik data. Oleh itu, kita akan bergantung pada pengetahuan dan pandangan mereka untuk menerangkan susun atur seni bina rumah tasik.
Sistem lakehouse data biasanya mempunyai lima lapisan:
- Lapisan pengingesan
- Lapisan simpanan
- Lapisan metadata
- Lapisan API
- Lapisan penggunaan
Lapisan pengingesan
Lapisan pertama sistem bertanggungjawab mengumpul data daripada pelbagai sumber dan menghantarnya ke lapisan storan. Lapisan boleh menggunakan beberapa protokol untuk menyambung ke pelbagai sumber dalaman dan luaran, termasuk menggabungkan keupayaan pemprosesan data kelompok dan penstriman, seperti
- pangkalan data NoSQL,
- perkongsian fail
- aplikasi CRM,
- laman web,
- penderia IoT,
- media sosial,
- Aplikasi Perisian sebagai Perkhidmatan (SaaS), dan
- sistem pengurusan pangkalan data hubungan, dsb.
Pada ketika ini, komponen seperti Apache Kafka untuk penstriman data dan Perkhidmatan Migrasi Data Amazon (Amazon DMS) untuk mengimport data daripada pangkalan data RDBMS dan NoSQL boleh digunakan.
Lapisan simpanan
Seni bina lakehouse bertujuan untuk membolehkan penyimpanan pelbagai jenis data sebagai objek dalam stor objek yang murah, seperti AWS S3. Menggunakan format fail terbuka, alatan klien kemudiannya boleh membaca item ini terus dari kedai.
Ini membolehkan banyak API dan komponen lapisan penggunaan mengakses dan menggunakan data yang sama. Lapisan metadata menyimpan skema untuk set data berstruktur dan separa berstruktur supaya komponen boleh menggunakannya pada data semasa mereka membacanya.
Platform Hadoop Distributed File System (HDFS), sebagai contoh, boleh digunakan untuk membina perkhidmatan repositori awan yang memisahkan pengkomputeran dan storan di premis. Lakehouse sangat sesuai untuk perkhidmatan ini.
Lapisan metadata
Lapisan metadata ialah komponen asas sebuah rumah tasik data yang membezakan reka bentuk ini. Ia ialah katalog tunggal yang menawarkan metadata (maklumat tentang kepingan data lain) untuk semua item yang disimpan di tasik dan membolehkan pengguna menggunakan keupayaan pentadbiran seperti:
- Versi pangkalan data yang konsisten dilihat oleh transaksi serentak terima kasih kepada transaksi ACID;
- caching untuk menyimpan fail stor objek awan;
- menambah indeks struktur data menggunakan pengindeksan untuk mempercepatkan pemprosesan pertanyaan;
- menggunakan pengklonan salinan sifar untuk menduplikasi objek data; dan
- untuk menyimpan versi data tertentu, dsb., gunakan versi data.
Selain itu, lapisan metadata membolehkan pelaksanaan pengurusan skema, penggunaan topologi skema DW seperti skema bintang/snowflake dan penyediaan tadbir urus data dan keupayaan pengauditan secara langsung pada tasik data, mempertingkatkan integriti keseluruhan saluran paip data.
Ciri untuk evolusi dan penguatkuasaan skema disertakan dalam pengurusan skema. Dengan menolak sebarang penulisan yang tidak memenuhi skema jadual, penguatkuasaan skema membolehkan pengguna mengekalkan integriti dan kualiti data.
Evolusi skema membolehkan skema semasa jadual diubah suai untuk menampung data yang berubah-ubah. Disebabkan oleh antara muka pentadbiran tunggal di atas tasik data, terdapat juga kawalan akses dan kemungkinan pengauditan.
Lapisan API
Satu lagi lapisan penting seni bina kini hadir, menganjurkan beberapa API yang boleh digunakan oleh semua pengguna akhir untuk melaksanakan kerja dengan lebih cepat dan mendapatkan statistik yang lebih canggih.
Penggunaan API metadata memudahkan untuk mengenal pasti dan mengakses item data yang diperlukan untuk aplikasi tertentu.
Dari segi perpustakaan pembelajaran mesin, sesetengah daripadanya, seperti TensorFlow dan Spark MLlib, boleh membaca format fail terbuka seperti Parket dan mengakses terus lapisan metadata.
Pada masa yang sama, API DataFrame menawarkan peluang yang lebih besar untuk pengoptimuman, membolehkan pengaturcara mengatur dan menukar data yang tersebar.
Lapisan penggunaan
Power BI, Tableau dan alatan serta apl lain dihoskan di bawah lapisan penggunaan. Dengan reka bentuk rumah tasik, semua metadata dan semua data yang disimpan dalam tasik boleh diakses oleh apl pelanggan.
Lakehouse boleh digunakan oleh semua pengguna dalam syarikat untuk melakukan semua jenis operasi analisis, termasuk mencipta papan pemuka risikan perniagaan dan menjalankan pertanyaan SQL dan tugas pembelajaran mesin.
Kelebihan Data Lakehouse
Organisasi boleh mencipta data lakehouse untuk menyatukan platform data semasa mereka dan mengoptimumkan keseluruhan proses pengurusan data mereka. Dengan merungkai halangan silo yang menghubungkan pelbagai sumber, rumah tasik data boleh menggantikan keperluan untuk penyelesaian yang berbeza.
Berbanding dengan sumber data yang dipilih susun, penyepaduan ini menghasilkan prosedur hujung ke hujung yang jauh lebih berkesan. Ini mempunyai beberapa kelebihan:
- Kurang pentadbiran: Daripada mengekstrak data daripada data mentah dan menyediakannya untuk digunakan dalam gudang data, pusat tasik data membenarkan mana-mana sumber yang dipautkan untuk menyediakan data mereka dan disusun untuk digunakan.
- Peningkatan keberkesanan kos: Rumah tasik data dibina menggunakan infrastruktur kontemporari yang membahagikan pengiraan dan storan, menjadikannya mudah untuk mengembangkan storan tanpa meningkatkan kuasa pengiraan. Hanya penggunaan storan data yang murah menghasilkan skalabiliti yang menjimatkan kos.
- Tadbir urus data yang lebih baik: Rumah tasik data dibina dengan seni bina terbuka terpiawai, membolehkan lebih kawalan ke atas keselamatan, metrik, akses berasaskan peranan dan komponen pengurusan penting yang lain. Dengan menyatukan sumber dan sumber data, mereka memudahkan dan meningkatkan tadbir urus.
- Piawaian yang dipermudahkan: Memandangkan sambungan sangat terhad pada tahun 1980-an, apabila gudang data mula dibangunkan, piawaian skema setempat sering dibangunkan dalam perniagaan, malah jabatan. Data lakehouses menggunakan fakta bahawa banyak jenis data kini mempunyai piawaian terbuka untuk skema dengan menelan banyak sumber data dengan skema seragam yang bertindih untuk menyelaraskan prosedur.
Kelemahan Data Lakehouse
Walaupun terdapat banyak kegelisahan yang mengelilingi rumah tasik data, adalah penting untuk diingat bahawa idea itu masih sangat baharu. Pastikan anda menimbang keburukan sebelum memberi komitmen sepenuhnya kepada reka bentuk baharu ini.
- Struktur monolitik: Reka bentuk semua termasuk sebuah lakehouse menawarkan beberapa kelebihan, tetapi ia juga menimbulkan beberapa masalah. Seni bina monolitik sering membawa kepada perkhidmatan yang lemah untuk semua pengguna dan boleh menjadi tegar dan sukar untuk diselenggara. Biasanya, arkitek dan pereka bentuk menyukai seni bina yang lebih modular yang boleh mereka sesuaikan untuk pelbagai kes penggunaan.
- Teknologinya masih belum ada: matlamat akhir memerlukan sejumlah besar pembelajaran mesin dan kecerdasan buatan. Sebelum rumah tasik boleh berfungsi seperti yang dibayangkan, teknologi ini mesti berkembang lebih jauh.
- Bukan kemajuan yang ketara berbanding struktur sedia ada: Masih terdapat keraguan tentang berapa banyak rumah tasik nilai sebenarnya akan menyumbang. Sesetengah pengkritik berpendapat bahawa reka bentuk gudang tasik yang dipasangkan dengan peralatan automatik yang sesuai boleh mencapai kecekapan yang setanding.
Cabaran Data Lakehouse
Mungkin sukar untuk menggunakan teknik data lakehouse. Disebabkan oleh kerumitan bahagian komponennya, adalah tidak betul untuk melihat data lakehouse sebagai struktur ideal yang merangkumi semua atau "satu platform untuk segala-galanya," untuk satu.
Selain itu, disebabkan penggunaan tasik data yang semakin meningkat, perniagaan perlu memindahkan gudang data semasa mereka kepada mereka, hanya bergantung pada janji kejayaan tanpa faedah ekonomi yang boleh dibuktikan.
Jika terdapat sebarang masalah kependaman atau gangguan sepanjang proses pemindahan, ini mungkin menjadi mahal, memakan masa dan mungkin tidak selamat.
Pengguna perniagaan mesti menerima teknologi yang sangat khusus, menurut vendor tertentu yang memasarkan penyelesaian secara nyata atau tersirat sebagai pusat tasik data. Ini mungkin tidak selalu berfungsi dengan alat lain yang dipautkan ke tasik data di tengah sistem, menambah isu.
Selain itu, mungkin sukar untuk membekalkan analitis 24/7 semasa menjalankan beban kerja kritikal perniagaan, yang memerlukan infrastruktur dengan skalabiliti kos efektif.
Kesimpulan
Pelbagai pusat data terbaharu dalam beberapa tahun kebelakangan ini ialah data lakehouse. Ia mengintegrasikan pelbagai bidang, seperti teknologi maklumat, perisian sumber terbuka, pengkomputeran awan, dan protokol storan teragih.
Ia membolehkan perniagaan menyimpan semua jenis data secara berpusat dari mana-mana lokasi, memudahkan pengurusan dan analisis. Data Lakehouse ialah konsep yang cukup menarik.
Mana-mana firma akan mempunyai kelebihan daya saing yang ketara jika ia mempunyai akses kepada platform data semua-dalam-satu yang sepantas dan cekap seperti gudang data sementara juga fleksibel seperti tasik data.
Idea ini masih berkembang dan masih agak baru. Akibatnya, ia mungkin mengambil sedikit masa untuk menentukan sama ada sesuatu boleh menjadi meluas atau tidak.
Kita semua sepatutnya ingin tahu tentang arah tuju seni bina Lakehouse.
Sila tinggalkan balasan anda