Data Lakehouse - Semua yang Perlu Anda Ketahui

Daftar Isi[Bersembunyi][Menunjukkan]

Apa itu Data Lakehouse?
Fitur
Elemen Data Lakehouse
Arsitektur Data Lakehouse+-
Keuntungan dari Data Lakehouse
Kekurangan Data Lakehouse
Tantangan Data Lakehouse
Kesimpulan

Mungkin agak sulit untuk mempertimbangkan semua layanan dan opsi arsitektur yang tersedia saat memikirkan platform data.

Platform data perusahaan sering kali terdiri dari gudang data, model data, data lake, dan laporan, masing-masing dengan tujuan khusus dan serangkaian keterampilan yang dibutuhkan. Sebaliknya, desain baru yang disebut rumah danau data telah muncul selama beberapa tahun terakhir.

Fleksibilitas data lake dan manajemen data gudang data digabungkan dalam arsitektur penyimpanan data revolusioner yang dijuluki sebagai “data lakehouse”.

Kami akan memeriksa data lakehouse secara mendalam di posting ini, termasuk komponen, fitur, arsitektur, dan aspek lainnya.

Apa itu Data Lakehouse?

Sesuai dengan namanya, data lakehouse merupakan tipe baru dari arsitektur data yang menggabungkan data lake dengan data warehouse untuk mengatasi kekurangan masing-masing secara terpisah.

Intinya, sistem rumah danau menggunakan penyimpanan murah untuk mempertahankan sejumlah besar data dalam bentuk aslinya, seperti halnya danau data. Menambahkan lapisan metadata di atas penyimpanan juga memberikan struktur data dan memberdayakan alat manajemen data seperti yang ditemukan di gudang data.

Rumah Danau Data

Ini menyimpan volume besar data terorganisir, semi-terstruktur, dan tidak terstruktur yang mereka dapatkan dari berbagai aplikasi bisnis, sistem, dan gadget yang digunakan di seluruh organisasi mereka.

Sebagian besar waktu, data lake menggunakan infrastruktur penyimpanan berbiaya rendah dengan antarmuka pemrograman aplikasi file (API) untuk menyimpan data dalam format file umum yang terbuka.

Hal ini memungkinkan banyak tim untuk mengakses semua data perusahaan melalui satu sistem untuk berbagai inisiatif, seperti ilmu data, Mesin belajar, dan intelijen bisnis.

Fitur

Penyimpanan berbiaya rendah. Rumah danau data harus dapat menyimpan data dalam penyimpanan objek yang murah, seperti: Google Cloud Penyimpanan, Penyimpanan Azure Blob, Amazon Simple Storage Service, atau secara native menggunakan ORC atau Parket.
Kemampuan untuk pengoptimalan data: Pengoptimalan tata letak data, caching, dan pengindeksan adalah beberapa contoh bagaimana data lakehouse harus dapat mengoptimalkan data sambil mempertahankan format asli data.
Lapisan metadata transaksional: Di atas penyimpanan berbiaya rendah yang penting, ini memungkinkan kemampuan manajemen data yang penting untuk kinerja gudang data.
Dukungan untuk API DataFrame Deklaratif: Mayoritas alat AI dapat menggunakan DataFrames untuk mengambil data penyimpanan objek mentah. Dukungan untuk API DataFrame Deklaratif meningkatkan kemampuan untuk meningkatkan presentasi dan struktur data secara dinamis sebagai respons terhadap ilmu data atau tugas AI tertentu.
Dukungan untuk transaksi ACID: Akronim ACID, yang berarti atomisitas, konsistensi, isolasi, dan daya tahan, merupakan komponen penting dalam mendefinisikan transaksi dan memastikan konsistensi dan ketergantungan data. Transaksi seperti itu sebelumnya hanya mungkin dilakukan di gudang data, tetapi lakehouse menawarkan opsi untuk menggunakannya dengan data lakes demikian juga. Dengan beberapa jalur pipa data termasuk membaca dan menulis data secara bersamaan, ini menyelesaikan masalah kualitas data yang rendah dari yang terakhir.

Elemen Data Lakehouse

Arsitektur rumah danau data dibagi menjadi dua tingkatan utama pada tingkat tinggi. Intake data lapisan penyimpanan dikendalikan oleh platform Lakehouse (yaitu, data lake).

Tanpa perlu memuat data ke dalam gudang data atau mengubahnya menjadi format berpemilik, lapisan pemrosesan kemudian dapat melakukan kueri data di lapisan penyimpanan secara langsung menggunakan berbagai alat.

Kemudian, aplikasi BI, serta teknologi AI dan ML, dapat menggunakan data tersebut. Ekonomi danau data disediakan oleh desain ini, tetapi karena mesin pengolah apa pun dapat membaca data ini, bisnis memiliki kebebasan untuk membuat data yang disiapkan dapat diakses untuk dianalisis oleh berbagai sistem. Kinerja prosesor dan biaya keduanya dapat ditingkatkan dengan menggunakan metode ini untuk pemrosesan dan analisis.

Karena dukungannya untuk transaksi basis data yang mematuhi kriteria ACID (atomicity, konsistensi, isolasi, dan daya tahan) berikut, arsitekturnya juga memungkinkan banyak pihak untuk mengakses dan menulis data secara bersamaan di dalam sistem:

atomisitas mengacu pada fakta bahwa transaksi penuh atau tidak sama sekali, berhasil saat menyelesaikan transaksi. Jika suatu proses terganggu, ini membantu menghindari kehilangan atau kerusakan data.
Konsistensi menjamin transaksi terjadi dengan cara yang dapat diprediksi dan konsisten. Ini menjaga integritas data dengan memastikan bahwa setiap data sah sesuai dengan aturan yang telah ditentukan.
Isolasi memastikan bahwa, hingga selesai, tidak ada transaksi yang dapat dipengaruhi oleh transaksi lain di dalam sistem. Hal ini memungkinkan banyak pihak untuk membaca dan menulis dari sistem yang sama secara bersamaan tanpa mengganggu satu sama lain.
Daya tahan menjamin bahwa perubahan data dalam sistem tetap ada setelah transaksi selesai, bahkan jika terjadi kegagalan sistem. Setiap perubahan yang disebabkan oleh transaksi disimpan dalam arsip selamanya.

Arsitektur Data Lakehouse

Databricks (inovator dan perancang konsep Delta Lake mereka) dan AWS adalah dua pendukung utama konsep rumah danau data. Dengan demikian kita akan mengandalkan pengetahuan dan wawasan mereka untuk menggambarkan tata letak arsitektur rumah danau.

Sistem data lakehouse biasanya memiliki lima lapisan:

Lapisan menelan
Lapisan penyimpanan
Lapisan metadata
lapisan API
Lapisan konsumsi

Arsitektur Data Lakehouse

Lapisan menelan

Lapisan pertama sistem bertugas mengumpulkan data dari berbagai sumber dan mengirimkannya ke lapisan penyimpanan. Lapisan dapat menggunakan beberapa protokol untuk terhubung ke berbagai sumber internal dan eksternal, termasuk menggabungkan kemampuan pemrosesan data batch dan streaming, seperti:

database NoSQL,
berbagi file
aplikasi CRM,
situs web,
sensor IoT,
media sosial,
Aplikasi Perangkat Lunak sebagai Layanan (SaaS), dan
sistem manajemen basis data relasional, dll.

Pada titik ini, komponen seperti Apache Kafka untuk streaming data dan Amazon Data Migration Service (Amazon DMS) untuk mengimpor data dari RDBMS dan database NoSQL dapat digunakan.

Lapisan penyimpanan

Arsitektur rumah danau dimaksudkan untuk memungkinkan penyimpanan berbagai jenis data sebagai objek di penyimpanan objek yang murah, seperti AWS S3. Menggunakan format file terbuka, alat klien kemudian dapat membaca item ini langsung dari toko.

Hal ini memungkinkan banyak API dan komponen lapisan konsumsi untuk mengakses dan menggunakan data yang sama. Lapisan metadata menyimpan skema untuk kumpulan data terstruktur dan semi-terstruktur sehingga komponen dapat menerapkannya ke data saat mereka membacanya.

Platform Hadoop Distributed File System (HDFS), misalnya, dapat digunakan untuk membangun layanan penyimpanan cloud yang membagi komputasi dan penyimpanan di tempat. Lakehouse sangat cocok untuk layanan ini.

Lapisan metadata

Lapisan metadata adalah komponen dasar dari data lakehouse yang membedakan desain ini. Ini adalah katalog tunggal yang menawarkan metadata (informasi tentang potongan data lainnya) untuk semua item yang disimpan di danau dan memungkinkan pengguna untuk menggunakan kemampuan administrasi seperti:

Versi database yang konsisten terlihat oleh transaksi bersamaan berkat transaksi ACID;
caching untuk menyimpan file penyimpanan objek cloud;
menambahkan indeks struktur data menggunakan pengindeksan untuk mempercepat pemrosesan kueri;
menggunakan kloning tanpa salinan untuk menduplikasi objek data; dan
untuk menyimpan versi data tertentu, dll., gunakan versi data.

Selain itu, lapisan metadata memungkinkan penerapan manajemen skema, penggunaan topologi skema DW seperti skema bintang/kepingan salju, dan penyediaan tata kelola data dan kemampuan audit langsung di data lake, meningkatkan integritas seluruh jalur pipa data.

Fitur untuk evolusi dan penegakan skema disertakan dalam manajemen skema. Dengan menolak penulisan apa pun yang tidak memenuhi skema tabel, penerapan skema memungkinkan pengguna untuk mempertahankan integritas dan kualitas data.

Evolusi skema memungkinkan skema tabel saat ini dimodifikasi untuk mengakomodasi perubahan data. Karena antarmuka administrasi tunggal di atas data lake, ada juga kemungkinan kontrol akses dan audit.

lapisan API

Lapisan arsitektur penting lainnya kini hadir, menampung sejumlah API yang dapat digunakan semua pengguna akhir untuk melakukan pekerjaan lebih cepat dan mendapatkan statistik yang lebih canggih.

Penggunaan API metadata memudahkan untuk mengidentifikasi dan mengakses item data yang diperlukan untuk aplikasi tertentu.

Dalam hal perpustakaan pembelajaran mesin, beberapa di antaranya, seperti TensorFlow dan Spark MLlib, dapat membaca format file terbuka seperti Parket dan langsung mengakses lapisan metadata.

Pada saat yang sama, API DataFrame menawarkan peluang lebih besar untuk pengoptimalan, memungkinkan pemrogram untuk mengatur dan mengubah data yang tersebar.

Lapisan konsumsi

Power BI, Tableau, dan alat serta aplikasi lainnya dihosting di bawah lapisan konsumsi. Dengan desain rumah danau, semua metadata dan semua data yang disimpan di danau dapat diakses oleh aplikasi klien.

Rumah danau dapat digunakan oleh semua pengguna dalam perusahaan untuk melakukan semua jenis operasi analitik, termasuk membuat dasbor intelijen bisnis dan menjalankan kueri SQL serta tugas pembelajaran mesin.

Keuntungan dari Data Lakehouse

Organisasi dapat membuat data lakehouse untuk menyatukan platform data mereka saat ini dan mengoptimalkan seluruh proses manajemen data mereka. Dengan membongkar penghalang silo yang menghubungkan berbagai sumber, data lakehouse dapat menggantikan kebutuhan akan solusi yang berbeda.

Dibandingkan dengan sumber data yang dikurasi, integrasi ini menghasilkan prosedur end-to-end yang jauh lebih efektif. Ini memiliki beberapa keuntungan:

Kurang administrasi: Daripada mengekstrak data dari data mentah dan menyiapkannya untuk digunakan dalam gudang data, data lakehouse memungkinkan sumber apa pun yang terhubung dengannya memiliki data yang tersedia dan terorganisir untuk digunakan.
Peningkatan efektivitas biaya: Data lakehouse dibangun menggunakan infrastruktur kontemporer yang membagi komputasi dan penyimpanan, sehingga memudahkan perluasan penyimpanan tanpa meningkatkan daya komputasi. Hanya penggunaan penyimpanan data yang murah menghasilkan skalabilitas yang hemat biaya.
Tata kelola data yang lebih baik: Data lakehouse dibangun dengan arsitektur terbuka standar, memungkinkan kontrol lebih besar atas keamanan, metrik, akses berbasis peran, dan komponen manajemen penting lainnya. Dengan menyatukan sumber daya dan sumber data, mereka menyederhanakan dan meningkatkan tata kelola.
Standar yang disederhanakan: Sejak koneksi sangat dibatasi pada 1980-an, ketika gudang data pertama kali dikembangkan, standar skema lokal sering dikembangkan di dalam bisnis, bahkan departemen. Data lakehouses memanfaatkan fakta bahwa banyak jenis data sekarang memiliki standar terbuka untuk skema dengan menyerap banyak sumber data dengan skema seragam yang tumpang tindih untuk merampingkan prosedur.

Kekurangan Data Lakehouse

Terlepas dari semua kehebohan di sekitar rumah danau data, penting untuk diingat bahwa idenya masih sangat baru. Pastikan untuk mempertimbangkan kerugiannya sebelum berkomitmen penuh pada desain baru ini.

Struktur monolitik: Desain all-inclusive rumah danau menawarkan beberapa keuntungan, tetapi juga menimbulkan beberapa masalah. Arsitektur monolitik sering menyebabkan layanan yang buruk untuk semua pengguna dan dapat menjadi kaku dan sulit untuk dipelihara. Biasanya, arsitek dan desainer menyukai arsitektur yang lebih modular yang dapat mereka sesuaikan untuk berbagai kasus penggunaan.
Teknologinya belum cukup: tujuan akhir memerlukan sejumlah besar pembelajaran mesin dan kecerdasan buatan. Sebelum rumah danau dapat berfungsi seperti yang dibayangkan, teknologi ini harus dikembangkan lebih lanjut.
Bukan kemajuan yang signifikan atas struktur yang ada: Masih ada skeptisisme yang cukup besar atas berapa banyak nilai rumah danau yang sebenarnya akan berkontribusi. Beberapa pencela berpendapat bahwa desain gudang danau yang dipasangkan dengan peralatan otomatis yang sesuai dapat mencapai efisiensi yang sebanding.

Tantangan Data Lakehouse

Mungkin sulit untuk mengadopsi teknik data lakehouse. Karena kerumitan bagian-bagian komponennya, tidak benar untuk melihat data lakehouse sebagai struktur ideal yang mencakup semua atau "satu platform untuk semuanya," untuk satu.

Selain itu, karena meningkatnya adopsi data lake, bisnis harus memindahkan gudang data mereka saat ini kepada mereka, hanya mengandalkan janji kesuksesan tanpa manfaat ekonomi yang dapat dibuktikan.

Jika ada masalah latensi atau pemadaman selama proses transfer, ini mungkin menjadi mahal, memakan waktu, dan mungkin tidak aman.

Pengguna bisnis harus merangkul teknologi yang sangat terspesialisasi, menurut vendor tertentu yang secara tegas atau implisit memasarkan solusi sebagai data lakehouses. Ini mungkin tidak selalu berfungsi dengan alat lain yang terkait dengan data lake di pusat sistem, menambah masalah.

Selain itu, mungkin sulit untuk menyediakan analitik 24/7 saat menjalankan beban kerja penting bisnis, yang membutuhkan infrastruktur dengan skalabilitas hemat biaya.

Kesimpulan

Berbagai pusat data terbaru dalam beberapa tahun terakhir adalah data lakehouse. Ini mengintegrasikan berbagai bidang, seperti teknologi informasi, perangkat lunak sumber terbuka, komputasi awan, dan protokol penyimpanan terdistribusi.

Ini memungkinkan bisnis untuk menyimpan semua jenis data secara terpusat dari lokasi mana pun, menyederhanakan manajemen dan analisis. Data Lakehouse adalah konsep yang cukup menarik.

Setiap perusahaan akan memiliki keunggulan kompetitif yang signifikan jika memiliki akses ke platform data all-in-one yang secepat dan seefisien gudang data sekaligus fleksibel seperti data lake.

Idenya masih berkembang dan masih relatif baru. Akibatnya, perlu beberapa waktu untuk menentukan apakah sesuatu dapat menyebar atau tidak.

Kita semua pasti penasaran dengan arah yang dituju oleh arsitektur Lakehouse.

Data Lakehouse Semua Yang Perlu Anda Ketahui

Data Lakehouse – Semua yang Perlu Anda Ketahui

Apa itu Data Lakehouse?

Fitur

Elemen Data Lakehouse