فهرست مندرجات[پنهان شدن][نمایش]
داده ها همه جا در اطراف شما هستند. به معنای واقعی، هر جنبه ای از کسب و کار شما را تحت تاثیر قرار می دهد. زمانی که درگیر تصمیمگیری در مورد نحوه مدیریت دادههای خود هستید، ممکن است به نظر برسد که زمان کافی برای بررسی ویژگیهای عملکرد آن به کسبوکار شما کافی نیست.
این را رعایت کنید سازمان شما 24 ساعت شبانه روز از داده ها استفاده می کند. بنابراین درک اینکه از کجا آمده است، چگونه به آنجا رسیده است و چگونه در شرکت حرکت می کند برای درک ارزش آن بسیار مهم است.
خط داده در این شرایط مهم می شود. زمانی که بتوانیم مبدا، مهاجرت و تغییرات داده ها را ردیابی کنیم، درک نحوه تشکیل داده، از کجا آمده و به کجا می رود، ساده تر است.
در این پست، ما از نزدیک به Data Lineage، نحوه عملکرد، موارد استفاده، تکنیکها و موارد دیگر خواهیم پرداخت.
Data Lineage چیست؟
اصل و نسب داده به عنوان نوعی پاسپورت دیجیتال عمل می کند. این جامع ترین گزارش یک سفر داده ای است که تمام توقف ها، مسیرهای انحرافی و تغییرات آن را از مبدأ تا مقصد نهایی آن شرح می دهد.
Iدر اصل، اصل و نسب داده منشأ، اصلاح و استفاده از یک قطعه داده را در بسیاری از سیستم ها و پلتفرم ها توصیف می کند. این ابزار به عنوان یک ابزار کارآگاهی عمل می کند و به کاربران اطلاعاتی در مورد نحوه تولید داده ها، محل منشاء آنها و نحوه استفاده از آنها می دهد. این اطلاعات کاربران را قادر می سازد تا هر گونه مشکل احتمالی را شناسایی و حل کنند.
اصل و نسب داده منبع گرانبهایی برای شرکت هایی است که برای اجرای عملیات خود به داده ها وابسته هستند، زیرا به کاربران اجازه می دهد به سؤالات مهمی مانند چه کسی، چه چیزی، چه زمانی و کجا پاسخ دهند.
خط داده به بیان ساده، دنباله داده نهایی است که دقت، کامل بودن و سازگاری داده ها را تضمین می کند و در عین حال یک چشم انداز واضح و مختصر از مسیر کامل یک داده را ارائه می دهد.
Data Lineage چگونه کار می کند؟
اصل و نسب داده نقشه راهی است که ما را قادر می سازد تا یک قطعه داده را از نقطه شروع تا پایان آن دنبال کنیم. یک نقطه داده را به عنوان یک مسافر در نظر بگیرید و گذرنامه آن را به عنوان اصل و نسب داده آن در نظر بگیرید تا نحوه عملکرد آن را بهتر درک کنید.
منابع داده، تبدیل داده ها، ذخیره سازی داده ها و خروجی داده ها چهار جزء اصلی گذرنامه را تشکیل می دهند.
بسیاری از سیستمها، برنامهها و پلتفرمهایی که دادهها از آنها سرچشمه میگیرند توسط منابع داده نشان داده میشوند که به عنوان نقطه شروع سفر داده عمل میکنند. تبدیل داده مرحله بعدی است و خط داده پیشرفت داده ها را از این منابع به آن نمودار می کند.
تبدیل داده به شکل دهی، اصلاح و دستکاری داده ها برای رفع نیازهای کاربر اشاره دارد. در طول سفر داده به عنوان توقفگاه استراحت عمل می کند و آن را برای مرحله بعدی آماده می کند.
سپس داده ها قبل از رفتن به مکان نهایی ذخیره می شوند. میتوان آن را روی سرورهای ابری، پایگاههای اطلاعاتی یا هر نوع دستگاه ذخیرهسازی دیگری نگهداری کرد. Data Lineage محل ذخیره داده ها و همچنین نحوه محافظت، پشتیبان گیری و بازیابی آنها را پیگیری می کند.
مرحله نهایی خروجی داده است، جایی که داده ها برای استفاده ارسال می شوند. ممکن است از گزارش ها، اینفوگرافیک ها یا هر نوع محصول داده دیگری برای ارائه آن استفاده شود. خط داده خروجی را پیگیری می کند و ثبات، دقت و کامل بودن داده ها را تضمین می کند.
اصل و نسب داده اساساً با ثبت هر مرحله از سفر داده، از آغاز تا خروجی آن، کار می کند و اطمینان حاصل می کند که در تمام طول مسیر قابل اعتماد، سازگار و صحیح می ماند. اصل و نسب داده به سازمان ها کمک می کند تا با ارائه یک دید کامل از وجود یک داده، تصمیمات آگاهانه بگیرند، مشکلات را برطرف کنند و به تعهدات قانونی پایبند باشند.
به منظور درک دارایی های داده و نحوه حرکت آنها از طریق خط لوله داده، ابرداده بخش مهمی از فرآیند خط داده است.
میتوانید ببینید که چگونه دادهها در سازمان با استفاده از ابزارهای خط داده تبدیل و استفاده میشوند، که از ابردادهها برای ارائه تصویری بصری از جریان داده استفاده میکنند. این به کاربران امکان میدهد پتانسیل دادهها را ارزیابی کنند و به آنها در تصمیمگیری آگاهانهتر کمک کند.
انواع خط داده
سه شکل اصلی از اصل و نسب داده وجود دارد: اصل و نسب داده رو به جلو، اصل و نسب داده های عقب و دودمان داده دو طرفه.
پیشروی داده ها
همانند یک خیابان یک طرفه، خط داده پیشرو شامل ردیابی یک قطعه داده از نقطه شروع تا نقطه پایان آن است. با شروع از منبع داده، داده ها را در حین عبور از چندین تبدیل و سیستم های ذخیره سازی برای رسیدن به خروجی خود دنبال می کند.
درک پردازش و تبدیل داده ها و همچنین هرگونه مشکلی که ممکن است در این مسیر به وجود آمده باشد با داشتن یک خط داده از این نوع تسهیل می شود. هر قدم به مرحله بعد منتهی می شود؛ مثل دنبال کردن دنباله ای از پودر سوخاری است.
سلسله داده های عقب مانده
خط دادههای عقبافتاده شبیه به سفر معکوس است که در آن خروجی دادهها را به منبع آن ردیابی میکنیم. این فرآیند از محل نهایی داده شروع می شود و از طریق انواع تکنیک های ذخیره سازی و تبدیل به عقب حرکت می کند تا زمانی که به منبع داده برسد.
شناسایی منبع اصلی داده ها، درک تغییر شکل آن و تأیید صحت و کامل بودن آن، همگی با کمک این نوع داده ها امکان پذیر است. مانند ابزار کارآگاه کار می کند و به ما امکان می دهد مسیر داده ها را به عقب دنبال کنیم.
دوسویه داده ها
یک خط داده دو طرفه، دو طرفه، مزایای دودمان داده رو به جلو و عقب را ترکیب می کند. با ردیابی آن از مبدأ تا مقصد و همچنین از آن مکان تا نقطه شروع، دید جامعی از مسیر داده ها ارائه می دهد.
به منظور تعیین منبع اصلی داده ها، درک چگونگی تغییر آن و تضمین کیفیت، سازگاری و کامل بودن آن در تمام طول مسیر، پیگیری اصل و نسب داده ها مفید است. با اطلاعات بیدرنگ درباره موقعیت و وضعیت آن، مانند داشتن یک ردیاب GPS برای دادهها است.
پیاده سازی Data Lineage
پیاده سازی خط داده در یک سازمان اغلب شامل مراحل زیر است.
منابع داده را تعریف کنید
سیستمها و پایگاههای دادهای که دادههایی را که میخواهید ردیابی کنید نگهداری میکنند، همگی باید شناسایی شوند. برای انجام این کار، ابتدا باید منابع داده های مختلف از جمله فایل ها، API ها و سرویس های ابری را شناسایی کنید.
ابرداده ها را جمع آوری کنید
مرحله بعدی کسب جزئیات در مورد داده ها، از جمله مکان، قالب و سازماندهی آن است. درک ویژگی های داده ها و نحوه استفاده از آنها توسط این ابرداده امکان پذیر می شود.
ایرادات داده را شناسایی کنید
درک اینکه چگونه داده ها در سازمان به روز می شوند و مورد استفاده قرار می گیرند، در صورتی که جریان داده ها از مبدأ تا مقصد ترسیم شود، از جمله هرگونه تغییر یا پردازشی که در طول مسیر انجام می شود، ساده تر است.
ردیابی دسترسی به داده ها
برای حفظ امنیت و انطباق داده ها، افرادی که به داده ها دسترسی دارند را ردیابی و ثبت کنید.
نسب را ذخیره و تجسم کنید
از ابزارهای تجسم برای ارائه نسب برای درک و تحلیل ساده استفاده کنید. ابرداده های جمع آوری شده و اطلاعات جریان داده را در یک مخزن ذخیره کنید.
پیاده سازی یک راه حل خودکار
شما می توانید تأیید کنید که اصل و نسب داده ها از طریق اتوماسیون جمع آوری و نظارت می شود، که همچنین به کاهش اشتباهات و افزایش بهره وری کمک می کند.
بررسی و به روز رسانی
سوابق نسب را به طور منظم صحیح و جاری کنید و آن را در صورت لزوم به روز کنید.
فرآیند پیاده سازی ممکن است بسته به الزامات و محدودیت های منحصر به فرد هر سازمان نیاز به اصلاح یا اضافه شدن به مراحل داشته باشد.
تکنیک های خط داده
Lineage مبتنی بر الگو
با این روش، خط و نسب بدون نیاز به تعامل با برنامه نویسی که داده ها را تولید یا تبدیل کرده است، انجام می شود. ارزیابی فراداده برای جداول، ستونها و گزارشهای تجاری همگی بخشی از آن هستند. با استفاده از این ابرداده به دنبال روندها میگردد.
به عنوان مثال، این احتمال وجود دارد که ستونی در دو مجموعه داده با نام یکسان و مقادیر داده های یکسان، داده های مشابهی را در مراحل مختلف وجود آن نشان دهد. سپس یک نمودار خط داده برای اتصال این دو ستون استفاده می شود.
اصل و نسب مبتنی بر الگو دارای مزیت قابل توجهی است که مستقل از فناوری است زیرا فقط داده ها را بررسی می کند نه روش های پردازش داده ها. هر فناوری پایگاه داده، از جمله Oracle، MySQL و Spark، می تواند آن را به همان روش پیاده سازی کند. اشکال این است که این رویکرد همیشه دقیق نیست.
هنگامی که منطق پردازش داده در کد رایانه پنهان است و در فراداده های قابل خواندن برای انسان آشکار نیست، گاهی اوقات می تواند روابط بین مجموعه داده ها را نادیده بگیرد.
نسب با برچسب گذاری داده ها
این روش بر این مفهوم استوار است که یک موتور تبدیل دادهها را برچسبگذاری میکند یا بهطور دیگری نشانگر دادهها است. این تگ را از ابتدا تا انتها دنبال می کند تا نسب را پیدا کند. این رویکرد تنها در صورتی میتواند موفقیتآمیز باشد که ابزار تبدیل قابل اعتمادی داشته باشید که تمام انتقال دادهها را مدیریت میکند و با ساختار برچسبگذاری که ابزار استفاده میکند آشنا باشید.
حتی اگر چنین ابزاری وجود داشته باشد، هیچ دادهای که بدون آن ایجاد یا تغییر کرده است، نمیتواند از طریق برچسبگذاری دادهها در معرض اصل و نسب قرار گیرد. از این نظر به انجام خط داده در سیستم های داده بسته محدود می شود.
نسب خودکفا
برخی از کسب و کارها دارای محیط داده ای هستند که شامل ذخیره سازی ابرداده، منطق پردازش و مدیریت داده اصلی (MDM) می شود. این تنظیمات اغلب شامل یک دریاچه داده جایی که تمام داده ها در تمام طول عمر آن نگهداری می شوند.
نسب را می توان به طور طبیعی توسط این نوع سیستم خودکفا بدون نیاز به منابع اضافی فراهم کرد. با این حال، درست مانند روش برچسبگذاری دادهها، Lineage از هر چیزی که خارج از این محیط تنظیمشده رخ میدهد آگاه نخواهد بود.
نسب داده با تجزیه
پیچیده ترین نوع نسب آن است که منطق پردازش داده را به طور خودکار می خواند. برای ردیابی کامل و سرتاسری، این روش منطق تبدیل داده ها را مهندسی معکوس می کند.
از آنجایی که این راه حل باید همه موارد را درک کند زبانهای برنامه نویسی و ابزار مورد استفاده برای تبدیل و انتقال داده ها، استقرار آن پیچیده است. این ممکن است از منطق استخراج-تبدیل بار (ETL)، راه حل های مبتنی بر SQL و جاوا، فرمت های داده قدیمی، راه حل های مبتنی بر XML و تکنیک های دیگر استفاده کند.
موارد استفاده از خط داده
مدل سازی داده ها
شرکت ها باید ساختارهای داده زیربنایی را ایجاد کنند که از آنها پشتیبانی می کند تا اقلام داده های زیادی و ارتباطات بین آنها را در داخل یک شرکت تجسم کنند. این اتصالات با استفاده از خط داده مدلسازی میشوند که وابستگیهای فراوان موجود در اکوسیستم داده را نیز نشان میدهد.
از آنجایی که دادهها در طول زمان تغییر میکنند، منابع داده جدید دائماً ظاهر میشوند که نیاز به ادغام دادههای جدید و غیره دارند.
قبول
خط داده یک روش انطباق برای حسابرسی، بهبود مدیریت ریسک، و اطمینان از نگهداری و مدیریت داده ها مطابق با سیاست ها و قوانین حاکمیت داده ارائه می دهد.
آنالیز تاثیرات
اثرات برخی تغییرات کسب و کار، مانند هر گزارش پایین دستی، با استفاده از ابزارهای خط داده قابل مشاهده است. به عنوان مثال، اصل و نسب دادهها ممکن است به مدیران اجرایی در تعیین تعداد داشبوردهایی که تغییر نام تأثیر میگذارد و در نتیجه، تعداد افرادی که به آن گزارش دسترسی دارند کمک کند.
مهاجرت داده ها
سازمانها از مهاجرت دادهها استفاده میکنند تا بفهمند دادهها در کجا قرار دارند و چه مدت در آنجا بودهاند، قبل از اینکه آنها را به یک سیستم ذخیرهسازی جدید منتقل کنند یا نرمافزار جدید را پیادهسازی کنند.
خط داده به تیم ها کمک می کند تا با ارائه یک نمای کلی از نحوه حرکت داده ها در سراسر سازمان، برای ارتقاء یا مهاجرت سیستم آماده شوند. این به طور کلی سرعت انتقال به محیط ذخیره سازی جدید را افزایش می دهد.
علاوه بر این، به تیمها این فرصت را میدهد که با بایگانی کردن یا حذف دادههای قدیمی یا بیفایده، سیستم داده را از بین ببرند. با انجام این کار، سیستم داده به طور کلی عملکرد بهتری خواهد داشت و به مدیریت کمتری از داده ها نیاز دارد.
چالش های پیاده سازی Data Lineage
- امنیت دادهها: امنیت دادهها یکی از دغدغههای اصلی در ساختن نسل داده است. برای دنبال کردن یک سفر داده از نقطه شروع تا مقصد نهایی، باید دسترسی به داده های حساس داده شود و این داده ها باید در برابر دسترسی های غیرمجاز و نقض محافظت شوند.
- فقدان استانداردسازی: یکی از موانع اصلی پذیرش نسل داده ها فقدان استانداردها است. از آنجایی که بسیاری از پلتفرمها، برنامهها و سیستمها از روشهای منحصربهفردی برای ردیابی و ثبت منشأ دادهها استفاده میکنند، جمع کردن یک تصویر منسجم از یک سفر داده میتواند دشوار باشد.
- سیلوهای داده: سیلوهای داده یکی دیگر از مسائلی است که هنگام پیاده سازی خط داده به وجود می آید. هنگامی که داده ها در چندین برنامه و سیستم پخش می شوند، ردیابی سفر آن از یکی به دیگری می تواند چالش برانگیز باشد. این ممکن است منجر به داده های نادرست یا ناقص شود.
نتیجه
در نتیجه، اصل و نسب داده بخش اساسی هر شرکت مبتنی بر داده است. این یک چشم انداز جامع از مسیر یک داده از نقطه شروع تا نقطه پایان ارائه می دهد و دقت، کامل بودن و سازگاری آن را تضمین می کند.
انتظار میرود اتوماسیون و استانداردسازی دادههای آینده افزایش یابد و اجرا و نگهداری برای سازمانها آسانتر شود. در پایان، نمی توان بر اهمیت اصل و نسب داده تأکید کرد.
این ابزارها را به شرکتها میدهد تا انتخابهای عاقلانهتری داشته باشند، عملیاتهای خود را کارآمدتر انجام دهند و به موفقیت برسند.
پاسخ دهید