Jadual Kandungan[Sembunyi][Tunjukkan]
Data ada di mana-mana sahaja di sekeliling anda. Dalam erti kata sebenar, ia mempengaruhi setiap aspek perniagaan anda. Rasanya seperti tidak ada masa yang mencukupi untuk memeriksa secara spesifik sejauh mana ia memberi perkhidmatan kepada perniagaan anda apabila anda sibuk dengan keputusan tentang cara mengendalikan data anda.
Perhatikan ini. Organisasi anda menggunakan data 24 jam sehari. Jadi memahami dari mana asalnya, bagaimana ia sampai ke sana, dan cara ia bergerak melalui syarikat adalah penting untuk memahami nilainya.
Garis keturunan data menjadi penting dalam keadaan ini. Adalah lebih mudah untuk memahami cara data dibentuk, dari mana ia datang dan ke mana ia pergi apabila kita boleh menjejaki asal-usul, migrasi dan perubahan data.
Dalam siaran ini, kita akan melihat dengan teliti Data Lineage, cara ia berfungsi, kes penggunaannya, teknik dan banyak lagi.
Apakah itu Data Lineage?
Garis keturunan data berfungsi sebagai sejenis pasport digital. Ia ialah akaun paling komprehensif bagi perjalanan data, memperincikan semua perhentian, lencongan dan pengubahsuaiannya dari asalnya ke destinasi akhirnya.
IPada dasarnya, garis keturunan data menerangkan asal usul, pengubahsuaian dan penggunaan sekeping data merentas banyak sistem dan platform. Ia berfungsi sebagai alat detektif dengan memberi maklumat kepada pengguna tentang cara data dihasilkan, dari mana ia berasal dan bagaimana ia digunakan. Maklumat ini membolehkan pengguna mengenali dan menyelesaikan sebarang masalah yang mungkin berlaku.
Garis keturunan data ialah sumber yang tidak ternilai untuk syarikat yang bergantung pada data untuk menjalankan operasi mereka kerana ia membolehkan pengguna menjawab soalan penting seperti siapa, apa, bila dan di mana.
Garis keturunan data, secara ringkasnya, jejak data muktamad yang menjamin ketepatan, kesempurnaan dan ketekalan data sambil menawarkan perspektif yang jelas dan ringkas tentang laluan penuh data.
Bagaimanakah Data Lineage berfungsi?
Garis keturunan data ialah peta jalan yang membolehkan kita mengikuti sekeping data dari titik permulaannya hingga titik akhirnya. Pertimbangkan titik data sebagai pengembara, dan pasportnya sebagai keturunan datanya untuk lebih memahami cara ia berfungsi.
Sumber data, transformasi data, penyimpanan data dan output data membentuk empat komponen utama pasport.
Banyak sistem, aplikasi dan platform dari mana data berasal diwakili oleh sumber data, yang berfungsi sebagai titik permulaan untuk perjalanan data. Transformasi data ialah peringkat seterusnya, dan garis keturunan data mencatatkan perkembangan data daripada sumber ini kepadanya.
Transformasi data merujuk kepada membentuk, mengubah suai dan memanipulasi data untuk memenuhi keperluan pengguna. Ia berfungsi sebagai hentian rehat semasa perjalanan data, menyediakannya untuk pusingan seterusnya.
Data kemudiannya disimpan sebelum pergi ke lokasi terakhirnya. Ia boleh disimpan pada pelayan awan, pangkalan data atau beberapa jenis peranti storan lain. Garis keturunan data menjejaki tempat data disimpan, serta cara ia dilindungi, disandarkan dan dipulihkan.
Langkah terakhir ialah output data, di mana data dihantar untuk digunakan. Laporan, maklumat grafik atau apa-apa jenis produk data lain mungkin digunakan untuk membentangkannya. Garis keturunan data menjejaki output dan menjamin ketekalan, ketepatan dan kesempurnaan data.
Garis keturunan data pada asasnya berfungsi dengan merekodkan setiap peringkat perjalanan data, dari permulaannya hingga keluarannya, dan memastikan ia kekal dipercayai, konsisten dan betul sepanjang jalan. Garis keturunan data membantu organisasi membuat keputusan yang berpendidikan, menyelesaikan masalah dan mematuhi kewajipan undang-undang dengan memberikan pandangan penuh tentang kewujudan data.
Untuk memahami aset data dan cara ia bergerak melalui saluran paip data, metadata ialah bahagian penting dalam proses keturunan data.
Anda boleh melihat cara data ditukar dan digunakan dalam organisasi menggunakan alat keturunan data, yang memanfaatkan metadata untuk memberikan gambaran visual aliran data. Ini membolehkan pengguna menilai potensi data yang membantu mereka membuat keputusan yang lebih bermaklumat.
Jenis Keturunan Data
Terdapat tiga bentuk asas garis keturunan data: garis keturunan data hadapan, garis keturunan data belakang dan garis keturunan data dua arah.
Garisan Data Hadapan
Seperti jalan sehala, garis keturunan data hadapan melibatkan penjejakan sekeping data dari titik permulaannya hingga titik penghujungnya. Bermula dari sumber data, ia mengikuti data semasa ia melalui beberapa transformasi dan sistem storan untuk mencapai outputnya.
Memahami pemprosesan dan transformasi data serta sebarang masalah yang mungkin timbul di sepanjang perjalanan dipermudahkan dengan mempunyai garis keturunan data seperti ini. Setiap langkah menuju ke langkah seterusnya; ia seperti mengikuti jejak serbuk roti.
Keturunan Data Belakang
Garis keturunan data ke belakang adalah serupa dengan pelayaran secara terbalik di mana kita menjejaki output data kembali ke sumbernya. Proses bermula di lokasi akhir data dan bergerak ke belakang melalui pelbagai teknik storan dan transformasi sehingga ia mencapai sumber data.
Pengenalpastian sumber asal data, pemahaman transformasinya, dan pengesahan ketepatan dan kesempurnaannya semuanya boleh dilakukan dengan bantuan keturunan data jenis ini. Ia berfungsi seperti alat detektif, membolehkan kami mengikuti laluan data ke belakang.
Garisan Data Dwiarah
Garis keturunan data dua hala, dua hala menggabungkan kelebihan garis keturunan data ke hadapan dan ke belakang. Ia menyediakan pandangan menyeluruh tentang laluan data dengan menjejakinya dari sumbernya ke destinasinya serta dari lokasi itu ke titik permulaannya.
Untuk menentukan sumber asal data, memahami cara ia diubah, dan menjamin kualiti, ketekalan dan kesempurnaannya sepanjang perjalanan, adalah berguna untuk menjejaki keturunan data. Dengan maklumat masa nyata tentang lokasi dan statusnya, ia seperti mempunyai penjejak GPS untuk data.
Pelaksanaan Garisan Data
Melaksanakan garis keturunan data dalam organisasi selalunya melibatkan fasa berikut.
Tentukan sumber data
Sistem dan pangkalan data yang menyimpan data yang anda ingin jejaki semuanya harus dikenal pasti. Untuk melakukan ini, anda mesti mengenal pasti pelbagai sumber data terlebih dahulu, termasuk fail, API dan perkhidmatan awan.
Kumpul metadata
Peringkat seterusnya ialah mendapatkan butiran tentang data, termasuk lokasi, format dan organisasinya. Memahami ciri data dan cara ia digunakan dimungkinkan oleh metadata ini.
Kenal pasti kelemahan data
Adalah lebih mudah untuk memahami cara data dikemas kini dan digunakan dalam organisasi jika aliran data dipetakan daripada sumbernya ke destinasinya, termasuk sebarang transformasi atau pemprosesan yang berlaku di sepanjang laluan.
Jejaki akses data
Untuk mengekalkan keselamatan dan pematuhan data, menjejaki dan merekodkan siapa yang mengakses data.
Simpan dan gambarkan keturunan
Gunakan alat visualisasi untuk mempersembahkan keturunan untuk pemahaman dan analisis yang mudah. Simpan metadata dan maklumat aliran data yang dikumpul dalam satu repositori.
Laksanakan penyelesaian automatik
Anda boleh mengesahkan keturunan data sedang dikumpulkan dan dipantau melalui automasi, yang juga akan membantu mengurangkan kesilapan dan meningkatkan produktiviti.
Semak & Kemas Kini
Pastikan rekod keturunan adalah betul dan terkini secara tetap, dan kemas kini mengikut kesesuaian.
Proses pelaksanaan mungkin perlu diubah suai atau ditambah kepada fasa bergantung pada keperluan unik dan had setiap organisasi.
Teknik Keturunan Data
Keturunan berasaskan corak
Dengan kaedah ini, keturunan dilakukan tanpa perlu berinteraksi dengan pengaturcaraan yang menjana atau mengubah data. Penilaian metadata untuk jadual, lajur dan laporan perniagaan adalah sebahagian daripadanya. Ia meneroka garis keturunan dengan mencari arah aliran menggunakan metadata ini.
Sebagai contoh, besar kemungkinan lajur dalam dua set data dengan nama yang sama dan nilai data yang sama mewakili data yang sama pada fasa kewujudannya yang berbeza. Carta garis keturunan data kemudiannya digunakan untuk menyambungkan dua lajur tersebut.
Keturunan berasaskan corak mempunyai manfaat yang ketara untuk menjadi bebas teknologi kerana ia hanya menyemak data, bukan kaedah pemprosesan data. Mana-mana teknologi pangkalan data, termasuk Oracle, MySQL, dan Spark, boleh melaksanakannya dengan cara yang sama. Kelemahannya ialah pendekatan ini tidak selalu tepat.
Apabila logik pemprosesan data disembunyikan dalam kod komputer dan tidak mudah dilihat dalam metadata yang boleh dibaca manusia, ia kadangkala boleh mengabaikan hubungan antara set data.
Keturunan melalui Pengetegan Data
Kaedah ini didasarkan pada tanggapan bahawa enjin transformasi menandakan atau sebaliknya menanda data. Ia mengesan tag dari awal hingga akhir untuk mencari keturunan. Pendekatan ini hanya boleh berjaya jika anda mempunyai alat transformasi yang boleh dipercayai yang menguruskan semua pemindahan data dan anda sudah biasa dengan struktur penandaan yang digunakan oleh alat tersebut.
Walaupun alat sedemikian wujud, tiada data yang dibuat atau diubah tanpanya boleh tertakluk kepada keturunan melalui penandaan data. Ia terhad dalam hal ini untuk melaksanakan garis keturunan data pada sistem data tertutup.
Keturunan Berdikari
Sesetengah perniagaan mempunyai persekitaran data yang merangkumi storan metadata, logik pemprosesan dan pengurusan data induk (MDM). Tetapan ini selalunya termasuk a tasik data di mana semua data disimpan sepanjang hayatnya.
Keturunan boleh disediakan secara semula jadi oleh sistem serba lengkap ini tanpa memerlukan sumber tambahan. Walau bagaimanapun, sama seperti kaedah penandaan data, keturunan tidak akan mengetahui apa-apa yang berlaku di luar persekitaran terkawal ini.
Keturunan Data melalui Penghuraian
Jenis keturunan yang paling canggih ialah yang membaca logik pemprosesan data secara automatik. Untuk pengesanan menyeluruh, hujung ke hujung, kaedah ini menterbalikkan kejuruteraan logik transformasi data.
Oleh kerana penyelesaian ini mesti memahami semua bahasa pengaturcaraan dan alatan yang digunakan untuk menukar dan mengangkut data, penggunaannya adalah rumit. Ini mungkin menggunakan logik extract-transform-load (ETL), penyelesaian berasaskan SQL dan Java, format data lama, penyelesaian berasaskan XML dan teknik lain.
Kes Penggunaan Keturunan Data
Pemodelan data
Syarikat mesti mewujudkan struktur data asas yang menyokong mereka untuk menggambarkan banyak item data dan hubungan antara mereka di dalam syarikat. Sambungan ini dimodelkan menggunakan keturunan data, yang juga menunjukkan banyak kebergantungan yang terdapat dalam ekosistem data.
Memandangkan data berubah dari semasa ke semasa, sumber data baharu sentiasa muncul, memerlukan penyepaduan data baharu, dsb. Oleh sebab itu, model data am firma untuk mengurus data mereka juga mesti berubah untuk mencerminkan persekitaran.
Pematuhan
Garis keturunan data menawarkan kaedah pematuhan untuk mengaudit, meningkatkan pengurusan risiko dan memastikan data disimpan dan dikendalikan mengikut dasar dan undang-undang tadbir urus data.
Analisis Kesan
Kesan perubahan perniagaan tertentu, seperti mana-mana pelaporan hiliran, boleh dilihat menggunakan alat keturunan data. Garis keturunan data, misalnya, mungkin membantu eksekutif dalam menentukan bilangan papan pemuka yang akan dipengaruhi oleh perubahan nama dan, akibatnya, bilangan orang yang mengakses pelaporan tersebut.
Penghijrahan data
Organisasi menggunakan migrasi data untuk memahami lokasi lokasi data dan berapa lama data itu berada di sana sebelum mengalihkannya kepada sistem storan baharu atau melaksanakan perisian baharu.
Garis keturunan data membantu pasukan bersedia untuk naik taraf sistem atau migrasi dengan memberi mereka gambaran keseluruhan tentang cara data telah bergerak ke seluruh organisasi. Ini mempercepatkan pemindahan ke persekitaran storan baharu secara keseluruhan.
Selain itu, ia memberi peluang kepada pasukan untuk mengecilkan sistem data dengan mengarkibkan atau menghapuskan data lapuk atau tidak berguna. Dengan berbuat demikian, sistem data akan berprestasi lebih baik secara keseluruhan dan memerlukan kurang pengurusan data.
Cabaran Melaksanakan Keturunan Data
- Keselamatan Data: Keselamatan data adalah kebimbangan utama semasa membina garis keturunan data. Untuk mengikuti perjalanan data dari titik permulaannya ke destinasi terakhirnya, akses kepada data sensitif mesti diberikan dan data ini mesti dilindungi daripada akses dan pelanggaran yang tidak dibenarkan.
- Kekurangan Standardisasi: Salah satu halangan utama untuk menerima garis keturunan data ialah kekurangan piawaian. Memandangkan banyak platform, apl dan sistem menggunakan kaedah unik untuk menjejak dan merekodkan asal data, sukar untuk menyatukan gambaran padu perjalanan data.
- Silo Data: Silo data ialah isu lain yang timbul semasa melaksanakan garis keturunan data. Apabila data tersebar merentasi beberapa aplikasi dan sistem, mungkin sukar untuk menjejaki perjalanannya dari satu ke satu sama lain. Ini mungkin membawa kepada garis keturunan data yang tidak tepat atau tidak lengkap.
Kesimpulan
Kesimpulannya, garis keturunan data adalah bahagian penting bagi setiap perusahaan yang dipacu data. Ia menawarkan perspektif komprehensif laluan data dari titik permulaannya ke titik penghujungnya, menjamin ketepatan, kesempurnaan dan ketekalannya.
Automasi dan penyeragaman keturunan data masa hadapan dijangka meningkat, menjadikan pelaksanaan dan penyelenggaraan untuk organisasi lebih mudah. Pada akhirnya, kepentingan garis keturunan data tidak dapat ditekankan.
Ia memberi syarikat alat yang mereka perlukan untuk membuat pilihan bijak, menjalankan operasi mereka dengan lebih cekap dan mencapai kejayaan.
Sila tinggalkan balasan anda