Data Lakehouse - Kabeh sing Sampeyan Perlu Ngerti

Bab lan Paragraf[Singidaken][Tampilake]

Apa itu Data Lakehouse?
fitur
Unsur Data Lakehouse
Data Lakehouse Arsitektur+-
Kaluwihan saka Data Lakehouse
Kekurangan Data Lakehouse
Tantangan Data Lakehouse
kesimpulan

Bisa uga rada angel nimbang kabeh layanan lan opsi arsitektur sing kasedhiya nalika mikir babagan platform data.

Platform data perusahaan asring kasusun saka gudang data, model data, tlaga data, lan laporan, saben duwe tujuan tartamtu lan katrampilan sing dibutuhake. Beda, desain anyar sing diarani data lakehouse wis muncul sajrone sawetara taun kepungkur.

Fleksibilitas data lakes lan data warehouse manajemen data digabungake ing arsitektur panyimpenan data revolusioner sing diarani "data lakehouse."

Kita bakal nliti data lakehouse ing kirim iki, kalebu komponen, fitur, arsitektur, lan aspek liyane.

Apa itu Data Lakehouse?

Minangka jeneng kasebut, data lakehouse minangka jinis arsitektur data anyar sing nggabungake tlaga data karo gudang data kanggo ngatasi kekurangane saben kanthi kapisah.

Intine, sistem lakehouse nggunakake panyimpenan sing murah kanggo njaga jumlah data sing akeh ing bentuk asline, kaya tlaga data. Nambahake lapisan metadata ing ndhuwur toko uga menehi struktur data lan nguatake alat manajemen data kaya sing ditemokake ing gudang data.

Data Lakehouse

Iki nyimpen volume gedhe saka data sing diatur, semi-terstruktur, lan ora terstruktur sing dipikolehi saka macem-macem aplikasi bisnis, sistem, lan gadget sing digunakake ing saindhenging organisasi.

Umume wektu, tlaga data nggunakake infrastruktur panyimpenan murah kanthi antarmuka pemrograman aplikasi file (API) kanggo nyimpen data ing format file umum sing mbukak.

Iki ndadekake akeh tim bisa ngakses kabeh data perusahaan liwat sistem siji kanggo macem-macem inisiatif, kayata ilmu data, learning machine, lan intelijen bisnis.

fitur

Panyimpenan murah. A lakehouse data kudu bisa nyimpen data ing panyimpenan obyek inexpensive, kayata Google Cloud Panyimpenan, Panyimpenan Azure Blob, Layanan Panyimpenan Sederhana Amazon, utawa asli nggunakake ORC utawa Parket.
Kapabilitas kanggo optimasi data: Optimasi tata letak data, caching, lan indeksasi minangka sawetara conto carane data lakehouse kudu bisa ngoptimalake data nalika njaga format asli data.
Lapisan metadata transaksional: Ing ndhuwur panyimpenan murah sing penting, iki ngidini kemampuan manajemen data sing penting kanggo kinerja gudang data.
Dhukungan kanggo API DataFrame Deklaratif: Mayoritas alat AI bisa nggunakake DataFrames kanggo njupuk data nyimpen obyek mentah. Dhukungan kanggo Declarative DataFrame API nambah kemampuan kanggo ningkatake presentasi lan struktur data kanthi dinamis kanggo nanggepi ilmu data utawa tugas AI tartamtu.
Dhukungan kanggo transaksi ACID: Akronim ACID, sing tegese atomicity, konsistensi, isolasi, lan daya tahan, minangka komponen kritis kanggo nemtokake transaksi lan njamin konsistensi lan ketergantungan data. transaksi kuwi sadurunge mung bisa ing warehouses data, nanging ing lakehouse nawakake pilihan kanggo nggunakake karo tlaga data uga. Kanthi sawetara saluran pipa data kalebu maca lan nulis data bebarengan, iki ngrampungake masalah kualitas data sing kurang saka sing terakhir.

Unsur Data Lakehouse

Arsitektur data lakehouse dipérang dadi rong undakan utama ing tingkat dhuwur. Intake data lapisan panyimpenan dikontrol dening platform Lakehouse (yaiku, tlaga data).

Tanpa perlu ngemot data menyang gudang data utawa ngowahi dadi format kepemilikan, lapisan pangolahan banjur bisa takon data ing lapisan panyimpenan kanthi langsung nggunakake macem-macem alat.

Banjur, aplikasi BI, uga teknologi AI lan ML, bisa nggunakake data kasebut. Ekonomi saka tlaga data diwenehake dening desain iki, nanging amarga mesin pangolahan bisa maca data iki, bisnis duwe kebebasan kanggo nggawe data sing disiapake bisa diakses kanggo dianalisis dening sawetara sistem. Kinerja lan biaya prosesor bisa ditingkatake kanthi nggunakake metode iki kanggo pangolahan lan analisis.

Amarga dhukungan kanggo transaksi basis data sing tundhuk karo kritéria ACID (atomisitas, konsistensi, isolasi, lan daya tahan), arsitektur kasebut uga ngidini akeh pihak ngakses lan nulis data bebarengan ing sistem kasebut:

Atomisitas nuduhake kasunyatan sing salah siji transaksi lengkap utawa ora ana, kasil nalika ngrampungake transaksi. Ing acara sing proses diselani, iki mbantu supaya data mundhut utawa korupsi.
Konsistensi njamin transaksi dumadi ing katebak, proses konsisten. Iki njaga integritas data kanthi mesthekake yen saben data sah miturut aturan sing wis ditemtokake.
jampel mesthekake yen, nganti rampung, ora ana transaksi sing bisa kena pengaruh transaksi liyane ing sistem kasebut. Iki ngidini akeh pihak bisa maca lan nulis saka sistem sing padha bebarengan tanpa ngganggu siji liyane.
kekiatan njamin yen owah-owahan ing data ing sistem terus ana sawise transaksi rampung, malah ing acara gagal sistem. Sembarang owah-owahan sing digawa dening transaksi disimpen ing file ing salawas-lawase.

Data Lakehouse Arsitektur

Databricks (innovator lan desainer konsep Delta Lake) lan AWS minangka rong panyengkuyung utama kanggo konsep data lakehouse. Dadi, kita bakal ngandelake kawruh lan wawasan kanggo njlèntrèhaké tata letak arsitektur tlaga.

Sistem lakehouse data biasane duwe limang lapisan:

Lapisan ingestion
Lapisan panyimpenan
Lapisan metadata
lapisan API
Lapisan konsumsi

Data Lakehouse Arsitektur

Lapisan ingestion

Lapisan pisanan sistem tanggung jawab kanggo ngumpulake data saka macem-macem sumber lan ngirim menyang lapisan panyimpenan. Lapisan kasebut bisa nggunakake sawetara protokol kanggo nyambung menyang macem-macem sumber internal lan eksternal, kalebu nggabungake kemampuan pangolahan data batch lan streaming, kayata

database NoSQL,
enggo bareng file
aplikasi CRM,
situs web,
sensor IoT,
media sosial,
Aplikasi Software as a Service (SaaS), lan
sistem manajemen basis data relasional, lsp.

Ing titik iki, komponen kaya Apache Kafka kanggo streaming data lan Amazon Data Migration Service (Amazon DMS) kanggo ngimpor data saka RDBMS lan database NoSQL bisa digunakake.

Lapisan panyimpenan

Arsitektur lakehouse dimaksudake kanggo ngaktifake panyimpenan saka macem-macem jinis data minangka obyek ing toko obyek murah, kayata AWS S3. Nggunakake format file mbukak, alat klien banjur bisa maca item kasebut langsung saka toko.

Iki ndadekake akeh API lan komponen lapisan konsumsi bisa ngakses lan nggunakke data sing padha. Lapisan metadata nyimpen skema kanggo dataset terstruktur lan semi-terstruktur supaya komponen kasebut bisa ditrapake ing data nalika maca.

Platform Sistem File Distribusi Hadoop (HDFS), umpamane, bisa digunakake kanggo mbangun layanan repositori maya sing misahake komputasi lan panyimpenan ing papan. Lakehouse saenipun cocog kanggo layanan iki.

Lapisan metadata

Lapisan metadata minangka komponen dhasar saka data lakehouse sing mbedakake desain iki. Iki minangka katalog siji sing nawakake metadata (informasi babagan potongan data liyane) kanggo kabeh barang sing disimpen ing tlaga lan ngidini pangguna nggunakake kemampuan administrasi kaya:

A versi konsisten saka database katon dening transaksi bebarengan thanks kanggo transaksi ACID;
caching kanggo nyimpen file nyimpen obyek maya;
nambah indeks struktur data nggunakake indeksasi kanggo nyepetake pangolahan pitakon;
nggunakake kloning nul-salinan kanggo duplikat obyek data; lan
kanggo nyimpen versi tartamtu saka data, etc., nggunakake versi data.

Kajaba iku, lapisan metadata mbisakake implementasi manajemen skema, panggunaan topologi skema DW kaya skema star/snowflake, lan panyedhiya tata kelola data lan kemampuan audit langsung ing tlaga data, nambah integritas kabeh pipa data.

Fitur kanggo evolusi skema lan penegakan kalebu ing manajemen skema. Kanthi nolak tulisan sing ora cocog karo skema tabel, penegakan skema ngidini pangguna njaga integritas lan kualitas data.

Évolusi skema ngidini skema saiki tabel bisa diowahi kanggo nampung data sing ganti. Amarga antarmuka administrasi siji ing ndhuwur tlaga data, ana uga kontrol akses lan kemungkinan audit.

lapisan API

Lapisan penting liyane saka arsitektur saiki saiki, hosting sawetara API sing kabeh pangguna pungkasan bisa digunakake kanggo nindakake proyek luwih cepet lan entuk statistik luwih canggih.

Panggunaan API metadata nggampangake kanggo ngenali lan ngakses item data sing dibutuhake kanggo aplikasi tartamtu.

Ing babagan perpustakaan machine learning, sawetara, kayata TensorFlow lan Spark MLlib, bisa maca format file sing mbukak kaya Parquet lan langsung ngakses lapisan metadata.

Ing wektu sing padha, API DataFrame nawakake kesempatan sing luwih gedhe kanggo optimasi, ngidini programer ngatur lan ngganti data sing kasebar.

Lapisan konsumsi

Power BI, Tableau, lan piranti lan aplikasi liyane di-host ing lapisan konsumsi. Kanthi desain lakehouse, kabeh metadata lan kabeh data sing disimpen ing tlaga bisa diakses dening aplikasi klien.

Lakehouse bisa digunakake dening kabeh pangguna ing perusahaan kanggo nindakake kabeh jinis operasi analitik, kalebu nggawe dashboard intelijen bisnis lan nglakokake pitakon SQL lan tugas pembelajaran mesin.

Kaluwihan saka Data Lakehouse

Organisasi bisa nggawe data lakehouse kanggo nyawiji platform data saiki lan ngoptimalake kabeh proses manajemen data. Kanthi mbongkar alangan silo sing nyambungake macem-macem sumber, lakehouse data bisa ngganti kabutuhan solusi sing beda.

Dibandhingake karo sumber data sing dikurasi, integrasi iki ngasilake prosedur end-to-end sing luwih efektif. Iki duwe sawetara kaluwihan:

Kurang administrasi: Tinimbang ngekstrak data saka data mentah lan nyiapake kanggo digunakake ing gudang data, lakehouse data ngidini sumber apa wae sing disambungake supaya data kasedhiya lan diatur supaya bisa digunakake.
Tambah efektifitas biaya: Data lakehouses dibangun nggunakake infrastruktur kontemporer sing mbagi komputasi lan panyimpenan, nggawe gampang kanggo nggedhekake panyimpenan tanpa nambah daya komputasi. Mung panggunaan panyimpenan data sing murah nyebabake skalabilitas sing larang regane.
Pamrentahan data sing luwih apik: Lakehouses data dibangun kanthi arsitektur mbukak standar, ngidini kontrol luwih akeh babagan keamanan, metrik, akses adhedhasar peran, lan komponen manajemen penting liyane. Kanthi nggabungake sumber daya lan sumber data, padha nyederhanakake lan ningkatake pamrentahan.
Standar sing disederhanakake: Wiwit sambungan kasebut diwatesi banget ing taun 1980-an, nalika gudang data pisanan dikembangake, standar skema lokal asring dikembangake ing njero bisnis, malah departemen. Data lakehouses nggunakake kasunyatan manawa akeh jinis data saiki duwe standar mbukak kanggo skema kanthi nggunakake akeh sumber data kanthi skema seragam sing tumpang tindih kanggo nyepetake prosedur.

Kekurangan Data Lakehouse

Senadyan kabeh hoopla lingkungan lakehouses data, iku penting kanggo mbudidaya sing idea isih anyar banget. Priksa manawa kanggo nimbang cacat sadurunge nindakake kanthi lengkap kanggo desain anyar iki.

Struktur monolitik: A lakehouse kabeh-klebu desain nawakake sawetara kaluwihan, nanging uga ngundakake sawetara masalah. Arsitektur monolitik asring nyebabake layanan sing ora apik kanggo kabeh pangguna lan bisa dadi kaku lan angel dijaga. Biasane, arsitek lan desainer seneng arsitektur modular sing bisa disesuaikan kanggo macem-macem kasus panggunaan.
Teknologi kasebut durung ana: goal final entails jumlah pinunjul saka machine learning lan intelijen buatan. Sadurunge lakehouse bisa nindakake kaya sing dibayangke, teknologi kasebut kudu berkembang luwih maju.
Ora ana kemajuan sing signifikan babagan struktur sing ana: Ana isih skeptisism owahan babagan carane akeh liyane nilai lakehouses bener bakal kontribusi. Sawetara pengkritik negesake manawa desain gudang tlaga sing dipasangake karo peralatan otomatis sing cocog bisa entuk efisiensi sing padha.

Tantangan Data Lakehouse

Bisa uga angel nggunakake teknik data lakehouse. Amarga kerumitan potongan komponen, ora bener kanggo ndeleng data lakehouse minangka struktur becik sing nyakup kabeh utawa "siji platform kanggo kabeh," siji.

Kajaba iku, amarga tambah akeh adopsi tlaga data, bisnis kudu mindhah gudang data saiki menyang dheweke, mung ngandelake janji sukses tanpa entuk manfaat ekonomi sing bisa ditampilake.

Yen ana masalah latensi utawa gangguan sajrone proses transfer, iki bisa uga larang, butuh wektu, lan bisa uga ora aman.

Pangguna bisnis kudu nganut teknologi sing khusus banget, miturut vendor tartamtu sing kanthi jelas utawa implisit pasar solusi minangka lakehouses data. Iki bisa uga ora bisa digunakake karo alat liyane sing ana gandhengane karo tlaga data ing tengah sistem, nambah masalah.

Kajaba iku, bisa uga angel nyuplai analytics 24/7 nalika mbukak beban kerja sing penting kanggo bisnis, sing mbutuhake infrastruktur kanthi skalabilitas larang.

kesimpulan

Macem-macem pusat data paling anyar ing taun-taun pungkasan yaiku data lakehouse. Iki nggabungake macem-macem lapangan, kayata teknologi informasi, piranti lunak open-source, maya, lan protokol panyimpenan sing disebarake.

Iki ngidini bisnis bisa nyimpen kabeh jinis data saka ngendi wae, nyederhanakake manajemen lan analisis. Data Lakehouse minangka konsep sing nyenengake.

Sembarang perusahaan bakal duwe daya saing sing signifikan yen nduweni akses menyang platform data kabeh-ing-siji sing cepet lan efisien kaya gudang data lan uga fleksibel kaya tlaga data.

Ide iki isih berkembang lan tetep relatif anyar. Akibaté, butuh sawetara wektu kanggo nemtokake manawa ana sing nyebar utawa ora.

Kita kabeh kudu penasaran babagan arah sing dituju arsitektur Lakehouse.

Data Lakehouse Kabeh Sampeyan Kudu Ngerti

Data Lakehouse - Kabeh sing Sampeyan Perlu Ngerti

Apa itu Data Lakehouse?

fitur

Unsur Data Lakehouse