Daftar Isi[Bersembunyi][Menunjukkan]
Data ada di mana-mana di sekitar Anda. Dalam arti sebenarnya, itu memengaruhi setiap aspek bisnis Anda. Sepertinya tidak ada cukup waktu untuk memeriksa secara spesifik seberapa baik layanan ini melayani bisnis Anda saat Anda disibukkan dengan keputusan tentang cara menangani data Anda.
Perhatikan ini. Organisasi Anda menggunakan data 24 jam sehari. Jadi memahami dari mana asalnya, bagaimana sampai di sana, dan bagaimana bergerak melalui perusahaan sangat penting untuk memahami nilainya.
Silsilah data menjadi penting dalam situasi ini. Lebih mudah untuk memahami bagaimana data terbentuk, dari mana asalnya, dan ke mana perginya ketika kita dapat melacak asal, migrasi, dan perubahan data.
Dalam posting ini, kita akan melihat dari dekat Data Lineage, cara kerjanya, kasus penggunaannya, teknik, dan banyak lagi.
Apa itu Silsilah Data?
Silsilah data berfungsi sebagai semacam paspor digital. Ini adalah catatan perjalanan data yang paling komprehensif, merinci semua perhentian, jalan memutar, dan modifikasinya dari asal hingga tujuan akhirnya.
IPada intinya, silsilah data menjelaskan asal, modifikasi, dan penggunaan sepotong data di banyak sistem dan platform. Ini berfungsi sebagai alat detektif dengan memberikan informasi kepada pengguna tentang bagaimana data dihasilkan, dari mana asalnya, dan bagaimana data itu digunakan. Informasi ini memungkinkan pengguna untuk mengenali dan menyelesaikan potensi masalah apa pun.
Garis keturunan data adalah sumber daya yang tak ternilai bagi perusahaan yang bergantung pada data untuk menjalankan operasinya karena memungkinkan pengguna untuk menjawab pertanyaan penting seperti siapa, apa, kapan, dan di mana.
Sederhananya, silsilah data adalah jejak data akhir yang menjamin akurasi, kelengkapan, dan konsistensi data sambil menawarkan perspektif yang jelas dan ringkas tentang jalur lengkap data.
Bagaimana cara kerja Silsilah Data?
Silsilah data adalah peta jalan yang memungkinkan kita mengikuti sepotong data dari titik awal hingga titik akhirnya. Pertimbangkan titik data sebagai seorang musafir, dan paspornya sebagai silsilah datanya untuk lebih memahami bagaimana fungsinya.
Sumber data, transformasi data, penyimpanan data, dan keluaran data membentuk empat komponen utama paspor.
Banyak sistem, aplikasi, dan platform dari mana data berasal diwakili oleh sumber data, yang berfungsi sebagai titik awal perjalanan data. Transformasi data adalah tahap selanjutnya, dan silsilah data memetakan perkembangan data dari sumber-sumber ini ke sana.
Transformasi data mengacu pada pembentukan, modifikasi, dan manipulasi data untuk memenuhi kebutuhan pengguna. Ini berfungsi sebagai perhentian selama perjalanan data, mempersiapkannya untuk perjalanan berikutnya.
Data tersebut kemudian disimpan sebelum pergi ke lokasi akhirnya. Itu bisa disimpan di server cloud, database, atau beberapa jenis perangkat penyimpanan lainnya. Silsilah data melacak di mana data disimpan, serta bagaimana data itu dilindungi, dicadangkan, dan dipulihkan.
Langkah terakhir adalah output data, yaitu kemana data dikirim untuk digunakan. Laporan, infografis, atau jenis produk data lainnya dapat digunakan untuk menyajikannya. Silsilah data melacak output dan menjamin konsistensi, akurasi, dan kelengkapan data.
Silsilah data pada dasarnya bekerja dengan merekam setiap tahap perjalanan data, dari awal hingga keluarannya, dan memastikannya tetap andal, konsisten, dan benar sepenuhnya. Silsilah data membantu organisasi membuat keputusan terdidik, memperbaiki masalah, dan mematuhi kewajiban hukum dengan memberikan gambaran lengkap tentang keberadaan data.
Untuk memahami aset data dan bagaimana mereka bergerak melalui pipa data, metadata adalah bagian penting dari proses silsilah data.
Anda dapat melihat bagaimana data dikonversi dan digunakan dalam organisasi menggunakan alat silsilah data, yang memanfaatkan metadata untuk memberikan gambaran visual aliran data. Ini memungkinkan pengguna untuk menilai potensi data yang membantu mereka membuat keputusan berdasarkan informasi yang lebih baik.
Jenis Silsilah Data
Ada tiga bentuk dasar silsilah data: silsilah data maju, silsilah data mundur, dan silsilah data dua arah.
Meneruskan Silsilah Data
Seperti jalan satu arah, garis keturunan data maju melibatkan pelacakan sepotong data dari titik awal ke titik akhirnya. Dimulai dari sumber data, mengikuti data saat melewati beberapa transformasi dan sistem penyimpanan untuk mencapai outputnya.
Memahami pemrosesan dan transformasi data serta masalah apa pun yang mungkin muncul di sepanjang jalan difasilitasi dengan memiliki silsilah data semacam ini. Setiap langkah mengarah ke langkah berikutnya; itu seperti mengikuti jejak remah roti.
Silsilah Data Mundur
Silsilah data mundur mirip dengan pelayaran terbalik di mana kami melacak output data kembali ke sumbernya. Proses dimulai dari lokasi akhir data dan bergerak mundur melalui berbagai teknik penyimpanan dan transformasi hingga mencapai sumber data.
Identifikasi sumber asli data, pemahaman transformasinya, dan verifikasi kebenaran dan kelengkapannya semuanya dimungkinkan dengan bantuan silsilah data semacam ini. Ini berfungsi seperti alat detektif, memungkinkan kita mengikuti jalur data mundur.
Silsilah Data Dua Arah
Silsilah data jalan dua arah dan dua arah menggabungkan keuntungan dari silsilah data maju dan mundur. Ini memberikan pandangan komprehensif tentang rute data dengan melacaknya dari sumbernya ke tujuannya serta dari lokasi itu ke titik awalnya.
Untuk menentukan sumber asli data, memahami bagaimana data itu diubah, dan menjamin kualitas, konsistensi, dan kelengkapannya sepanjang proses, melacak silsilah data akan sangat membantu. Dengan informasi real-time tentang lokasi dan statusnya, seperti memiliki pelacak GPS untuk data.
Implementasi Silsilah Data
Menerapkan silsilah data dalam suatu organisasi seringkali melibatkan fase-fase berikut.
Menentukan sumber data
Sistem dan basis data yang menyimpan data yang ingin Anda lacak semuanya harus diidentifikasi. Untuk melakukannya, Anda harus terlebih dahulu mengidentifikasi berbagai sumber data, termasuk file, API, dan layanan cloud.
Kumpulkan metadata
Tahap selanjutnya adalah memperoleh detail tentang data, termasuk lokasi, format, dan organisasinya. Memahami fitur data dan bagaimana penggunaannya dimungkinkan oleh metadata ini.
Identifikasi kekurangan data
Lebih mudah untuk memahami bagaimana data diperbarui dan digunakan dalam organisasi jika aliran data dipetakan dari sumbernya ke tujuannya, termasuk setiap transformasi atau pemrosesan yang terjadi di sepanjang rute.
Lacak akses data
Untuk menjaga keamanan dan kepatuhan data, lacak, dan catat siapa yang mengakses data.
Menyimpan dan memvisualisasikan garis keturunan
Manfaatkan alat visualisasi untuk menyajikan silsilah untuk pemahaman dan analisis sederhana. Simpan metadata yang dikumpulkan dan informasi aliran data dalam satu repositori.
Menerapkan solusi otomatis
Anda dapat memverifikasi silsilah data dikumpulkan dan dipantau melalui otomatisasi, yang juga akan membantu mengurangi kesalahan dan meningkatkan produktivitas.
Tinjau & Perbarui
Pastikan catatan silsilah benar dan terkini secara teratur, dan perbarui sebagaimana mestinya.
Proses implementasi mungkin perlu dimodifikasi atau ditambahkan ke fase tergantung pada persyaratan dan batasan unik dari masing-masing organisasi.
Teknik Silsilah Data
Silsilah Berbasis Pola
Dengan metode ini, silsilah dilakukan tanpa harus berinteraksi dengan pemrograman yang menghasilkan atau mengubah data. Penilaian metadata untuk tabel, kolom, dan laporan bisnis adalah bagian darinya. Ini mengeksplorasi garis keturunan dengan mencari tren menggunakan metadata ini.
Misalnya, sangat mungkin bahwa sebuah kolom dalam dua kumpulan data dengan nama yang sama dan nilai data yang identik mewakili data yang sama pada fase keberadaannya yang berbeda. Bagan silsilah data kemudian digunakan untuk menghubungkan kedua kolom tersebut.
Silsilah berbasis pola memiliki manfaat signifikan sebagai teknologi independen karena hanya memeriksa data, bukan metode pemrosesan data. Teknologi basis data apa pun, termasuk Oracle, MySQL, dan Spark, dapat menerapkannya dengan cara yang sama. Kelemahannya adalah bahwa pendekatan ini tidak selalu tepat.
Ketika logika pemrosesan data disembunyikan dalam kode komputer dan tidak mudah terlihat dalam metadata yang dapat dibaca manusia, kadang-kadang dapat mengabaikan hubungan antar kumpulan data.
Silsilah dengan Penandaan Data
Metode ini didasarkan pada anggapan bahwa mesin transformasi menandai atau menandai data. Ini menelusuri tag dari awal hingga akhir untuk menemukan garis keturunan. Pendekatan ini hanya dapat berhasil jika Anda memiliki alat transformasi andal yang mengelola semua transfer data dan Anda memahami struktur penandaan yang digunakan alat tersebut.
Bahkan jika alat semacam itu ada, tidak ada data yang dibuat atau diubah tanpanya yang dapat dikenai silsilah melalui penandaan data. Ini terbatas dalam hal ini untuk melakukan silsilah data pada sistem data tertutup.
Silsilah Mandiri
Beberapa bisnis memiliki lingkungan data yang mencakup penyimpanan metadata, logika pemrosesan, dan manajemen data master (MDM). Pengaturan ini sering menyertakan a danau data di mana semua data disimpan sepanjang umurnya.
Silsilah dapat disediakan secara alami oleh sistem mandiri semacam ini tanpa memerlukan sumber daya tambahan. Namun, seperti halnya metode penandaan data, garis keturunan tidak akan mengetahui apa pun yang terjadi di luar lingkungan yang diatur ini.
Silsilah Data dengan Parsing
Jenis silsilah yang paling canggih adalah yang membaca logika pemrosesan data secara otomatis. Untuk penelusuran menyeluruh dan menyeluruh, metode ini merekayasa balik logika transformasi data.
Karena solusi ini harus memahami semua bahasa pemrograman dan alat yang digunakan untuk mengonversi dan mengangkut data, penyebarannya rumit. Ini mungkin menggunakan logika extract-transform-load (ETL), solusi berbasis SQL dan Java, format data lama, solusi berbasis XML, dan teknik lainnya.
Kasus Penggunaan Silsilah Data
Pemodelan data
Perusahaan harus menetapkan struktur data dasar yang mendukungnya untuk memvisualisasikan banyak item data dan hubungan di antara mereka di dalam perusahaan. Koneksi ini dimodelkan menggunakan silsilah data, yang juga menunjukkan banyaknya ketergantungan yang ada dalam ekosistem data.
Karena data berubah dari waktu ke waktu, sumber data baru terus muncul, membutuhkan integrasi data baru, dll. Oleh karena itu, model data umum perusahaan untuk mengelola data mereka juga harus berubah untuk mencerminkan lingkungan.
Pemenuhan
Silsilah data menawarkan metode kepatuhan untuk mengaudit, meningkatkan manajemen risiko, dan memastikan data disimpan dan ditangani sesuai dengan kebijakan dan undang-undang tata kelola data.
Analisis Dampak
Efek dari perubahan bisnis tertentu, seperti pelaporan hilir apa pun, dapat dilihat menggunakan alat silsilah data. Silsilah data, misalnya, dapat membantu eksekutif dalam menentukan berapa banyak dasbor yang akan terpengaruh oleh perubahan nama dan, akibatnya, berapa banyak orang yang mengakses pelaporan tersebut.
Migrasi data
Organisasi menggunakan migrasi data untuk memahami di mana data berada dan sudah berapa lama berada di sana sebelum memindahkannya ke sistem penyimpanan baru atau mengimplementasikan perangkat lunak baru.
Silsilah data membantu tim mempersiapkan peningkatan atau migrasi sistem dengan memberi mereka gambaran umum tentang bagaimana data telah berpindah di seluruh organisasi. Ini mempercepat transfer ke lingkungan penyimpanan baru secara keseluruhan.
Selain itu, ini memberi tim kesempatan untuk mendeklarasikan sistem data dengan mengarsipkan atau menghapus data yang sudah usang atau tidak berguna. Dengan demikian, sistem data akan bekerja lebih baik secara keseluruhan dan membutuhkan lebih sedikit pengelolaan data.
Tantangan Implementasi Silsilah Data
- Keamanan Data: Keamanan data adalah perhatian utama saat membangun silsilah data. Untuk mengikuti perjalanan data dari titik awal hingga tujuan akhirnya, akses ke data sensitif harus diberikan, dan data ini harus dilindungi dari akses dan pelanggaran yang tidak sah.
- Kurangnya Standardisasi: Salah satu hambatan utama untuk merangkul silsilah data adalah kurangnya standar. Karena banyak platform, aplikasi, dan sistem menggunakan metode unik untuk melacak dan merekam sumber data, mungkin sulit untuk menyatukan gambaran kohesif dari perjalanan data.
- Silo Data: Silo data adalah masalah lain yang muncul saat menerapkan silsilah data. Ketika data tersebar di beberapa aplikasi dan sistem, melacak perjalanannya dari satu ke yang lain bisa menjadi tantangan. Hal ini dapat menyebabkan silsilah data yang tidak akurat atau tidak lengkap.
Kesimpulan
Sebagai kesimpulan, silsilah data merupakan bagian penting dari setiap perusahaan berbasis data. Ini menawarkan perspektif komprehensif tentang jalur data dari titik awal hingga titik akhir, menjamin keakuratan, kelengkapan, dan konsistensinya.
Otomasi dan standardisasi garis keturunan data di masa depan diharapkan meningkat, membuat implementasi dan pemeliharaan untuk organisasi menjadi lebih mudah. Pada akhirnya, pentingnya silsilah data tidak dapat ditekankan.
Ini memberi perusahaan alat yang mereka butuhkan untuk membuat pilihan bijak, menjalankan operasi mereka dengan lebih efisien, dan mencapai kesuksesan.
Tinggalkan Balasan