دا ممکن یو څه ستونزمن وي چې ټول موجود خدمات او معماري اختیارونه په پام کې ونیسئ کله چې د ډیټا پلیټ فارمونو په اړه فکر کوئ.
د تصدۍ ډیټا پلیټ فارم اکثرا د ډیټا ګودامونه ، ډیټا ماډلونه ، ډیټا لیکونه او راپورونه لري ، هر یو د ځانګړي هدف او اړین مهارتونو سیټ سره. په مقابل کې، د ډیټا لیک هاؤس په نوم نوې ډیزاین په تیرو څو کلونو کې راڅرګند شوی.
د ډیټا لیکونو استقامت او د ډیټا ګودام ډیټا مدیریت په انقلابي ډیټا ذخیره کولو جوړښت کې یوځای شوي چې د "ډیټا لیک هاؤس" نومیږي.
موږ به پدې پوسټ کې د ډیټا لیک هاؤس ژوره معاینه کړو ، پشمول د هغې برخې ، ب featuresې ، معمارۍ او نور اړخونه.
د ډیټا لیک هاؤس څه شی دی؟
لکه څنګه چې نوم معنی لري ، د ډیټا لیک هاؤس د ډیټا جوړښت نوی ډول دی چې د ډیټا لیک د ډیټا ګدام سره ترکیب کوي ترڅو د هر یو جلا نیمګړتیاوې حل کړي.
په اصل کې، د لیک هاؤس سیسټم ارزانه ذخیره کاروي ترڅو د ډیټا لوی مقدار په اصلي شکلونو کې وساتي، لکه د ډیټا لیکونو په څیر. د پلورنځي په سر کې د میټاډاټا پرت اضافه کول د ډیټا جوړښت هم ورکوي او د ډیټا مدیریت وسیلو ته ځواک ورکوي لکه د ډیټا ګودامونو کې موندل شوي.
دا د منظم، نیمه جوړ شوي، او غیر منظم شوي ډیټا خورا لوی مقدار ذخیره کوي چې دوی د دوی په ټوله اداره کې کارول شوي مختلف سوداګریز غوښتنلیکونو، سیسټمونو، او ګیجټونو څخه ترلاسه کوي.
ډیری وخت، د ډیټا لیکونه د فایل غوښتنلیک پروګرام کولو انٹرفیس (API) سره د ټیټ لګښت ذخیره زیربنا کاروي ترڅو ډاټا په خلاص، عمومي فایل فارمیټونو کې ذخیره کړي.
دا د ډیری ټیمونو لپاره دا ممکنه کوي چې د مختلف نوښتونو لپاره د یو واحد سیسټم له لارې د شرکت ټولو معلوماتو ته لاسرسی ومومي ، لکه د ډیټا ساینس ، ماشین زده کړه، او د سوداګرۍ استخبارات.
برخی
- د ټیټ لګښت ذخیره کول. د ډیټا لیک هاؤس باید وړتیا ولري چې په ارزانه شیانو ذخیره کې ډیټا ذخیره کړي ، لکه ګوګل کلاډ ذخیره، د Azure بلاب ذخیره، د ایمیزون ساده ذخیره کولو خدمت، یا په اصلي توګه د ORC یا پارکیټ کارول.
- د ډیټا اصلاح کولو وړتیا: د ډیټا ترتیب اصلاح کول ، کیچ کول ، او شاخص کول یو څو مثالونه دي چې څنګه د ډیټا لیک هاؤس باید د ډیټا اصلي ب formatه ساتلو پرمهال ډیټا مطلوب کولو وړتیا ولري.
- د لیږد میټاډاټا یوه پرت: د اړین ټیټ لګښت ذخیره کولو په سر کې، دا د ډیټا مدیریت وړتیاوې وړوي چې د ډیټا ګودام فعالیت لپاره خورا مهم دي.
- د اعالمیه ډیټا فریم API لپاره ملاتړ: د AI ډیری وسیلې کولی شي د خام توکي ذخیره ډیټا ترلاسه کولو لپاره ډیټا فریمونه وکاروي. د اعلاناتي ډیټا فریم API لپاره ملاتړ د ځانګړي ډیټا ساینس یا AI دندې په ځواب کې د ډیټا پریزنټشن او جوړښت په متحرک ډول ښه کولو وړتیا ډیروي.
- د ACID لیږدونو لپاره ملاتړ: د ACID لنډیز، چې د اټومي، ثبات، انزوا او پایښت لپاره ولاړ دی، د لیږد په تعریف کولو او د معلوماتو ثبات او انحصار یقیني کولو کې یوه مهمه برخه ده. دا ډول راکړې ورکړې پخوا یوازې د معلوماتو ګودامونو کې ممکنه وې، مګر د lakehouse دا اختیار وړاندیز کوي چې د ډیټا لیکونو سره یې وکاروي په بیله. د ډیری ډیټا پایپ لاینونو سره په شمول د سمو معلوماتو لوستلو او لیکلو سره ، دا د وروستي ډیټا ټیټ کیفیت ستونزه حل کوي.
د ډیټا لیک هاؤس عناصر
د ډیټا لیک هاؤس جوړښت په لوړه کچه په دوه اصلي پوړونو ویشل شوی. د ذخیره کولو پرت ډیټا ترلاسه کول د لیک هاؤس پلیټ فارم لخوا کنټرول کیږي (د بیلګې په توګه د ډیټا جهيل).
پرته لدې چې ډیټا په ډیټا ګدام کې بار کړئ یا یې په ملکیت فارمیټ کې بدل کړئ ، د پروسس کولو پرت بیا د دې وړتیا لري چې د ډیری وسیلو په کارولو سره مستقیم د ذخیره کولو پرت کې ډاټا پوښتنې وکړي.
بیا، د BI ایپس، او همدارنګه د AI او ML ټیکنالوژۍ، کولی شي ډاټا وکاروي. د ډیټا لیک اقتصاد د دې ډیزاین لخوا چمتو شوی ، مګر دا چې د پروسس کولو کوم انجن کولی شي دا ډاټا ولولي ، سوداګرۍ دا آزادي لري چې چمتو شوي ډیټا د یو لړ سیسټمونو لخوا تحلیل لپاره د لاسرسي وړ کړي. د پروسیسر فعالیت او لګښت دواړه د پروسس او تحلیل لپاره د دې میتود په کارولو سره ښه کیدی شي.
د ډیټابیس لیږدونو لپاره د دې ملاتړ له امله چې د لاندې ACID معیارونو سره سمون لري (اتومیکیت، ثبات، انزوا، او پایښت)، جوړښت هم ډیری اړخونو ته دا توان ورکوي چې په سیسټم کې په ورته وخت کې ډاټا ته لاسرسی او لیکل وکړي:
- اتومیت دا حقیقت ته اشاره کوي چې یا بشپړ لیږد یا هیڅ یو نه، د لیږد بشپړولو پرمهال بریالي کیږي. په هغه حالت کې چې پروسه مداخله کوي، دا د معلوماتو له لاسه ورکولو یا فساد څخه مخنیوي کې مرسته کوي.
- رضایت تضمین کوي چې لیږدونه د وړاندوینې وړ او منظم ډول ترسره کیږي. دا د دې ډاډ ترلاسه کولو سره د معلوماتو بشپړتیا ساتي چې هر معلومات د مخکې ټاکل شوي مقرراتو سره سم مشروع دي.
- عايق ډاډ ترلاسه کوي چې، تر هغه چې دا پای ته ورسیږي، هیڅ لیږد نشي کولی د سیسټم دننه د کوم بل لیږد لخوا اغیزمن شي. دا ډیری ګوندونو ته اجازه ورکوي چې د یو بل سره د مداخلې پرته د ورته سیسټم څخه په ورته وخت کې لوستل او لیکل وکړي.
- متداولو تضمین کوي چې په سیسټم کې ډیټا کې بدلونونه د لیږد پای ته رسیدو وروسته شتون ته دوام ورکوي ، حتی د سیسټم د ناکامۍ په حالت کې. هر ډول بدلون چې د لیږد په واسطه رامینځته کیږي د تل لپاره په فایل کې ساتل کیږي.
د ډیټا لیک هاؤس معمارۍ
ډیټابرکس (د دوی د ډیلټا لیک مفهوم نوښتګر او ډیزاینر) او AWS د ډیټا لیک هاؤس مفهوم لپاره دوه اصلي مدافعین دي. موږ به پدې توګه د دوی په پوهه او بصیرت تکیه وکړو ترڅو د تالابونو معماري ترتیب تشریح کړو.
د ډیټا لیک هاؤس سیسټم به عموما پنځه پرتونه ولري:
- د داخلیدو پرت
- د ذخیره کولو طبقه
- د میټاډاټا پرت
- د API پرت
- د مصرف طبقه
د داخلیدو پرت
د سیسټم لومړۍ طبقه د مختلفو سرچینو څخه د معلوماتو راټولولو او د ذخیره کولو پرت ته د لیږلو مسولیت لري. پرت کولی شي د ډیری داخلي او بهرنیو سرچینو سره وصل کولو لپاره ډیری پروتوکولونه وکاروي ، پشمول د بیچ او سټینګ ډیټا پروسس کولو وړتیاو ترکیب کول ، لکه
- NoSQL ډیټابیسونه
- د فایل شریکول
- د CRM غوښتنلیکونه
- ویب پاڼې
- IoT سینسرونه
- ټولنیز رسنۍ،
- سافټویر د خدمت په توګه (SaaS) غوښتنلیکونه، او
- د اړونده ډیټابیس مدیریت سیسټمونه، او نور.
پدې مرحله کې، د RDBMSs او NoSQL ډیټابیسونو څخه د معلوماتو واردولو لپاره د اپاچي کافکا او د ایمیزون ډیټا مهاجرت خدمت (Amazon DMS) په څیر برخې کارول کیدی شي.
د ذخیره کولو طبقه
د لیک هاؤس جوړښت د دې لپاره دی چې د ارزانه شیانو پلورنځیو کې د توکو په توګه د مختلف ډوله ډیټا ذخیره کولو وړ کړي ، لکه AWS S3. د خلاص فایل فارمیټونو په کارولو سره ، د پیرودونکي وسیلې بیا کولی شي دا توکي مستقیم له پلورنځي څخه ولولي.
دا د ډیری APIs او مصرف پرت اجزاو لپاره ورته ډیټا ته لاسرسی او کارولو امکان رامینځته کوي. د میټاډاټا پرت د جوړښت شوي او نیمه جوړښت شوي ډیټاسیټونو لپاره سکیما ذخیره کوي ترڅو اجزاوې وکولی شي دوی په ډیټا کې پلي کړي کله چې دوی لوستل کیږي.
د هډوپ توزیع شوي فایل سیسټم (HDFS) پلیټ فارم، د بیلګې په توګه، د کلاوډ ذخیره کولو خدماتو جوړولو لپاره کارول کیدی شي چې کمپیوټري او ذخیره په دننه کې ویشي. لیک هاؤس د دې خدماتو لپاره مناسب دی.
د میټاډاټا پرت
د میټاډاټا پرت د ډیټا لیک هاؤس بنسټیز برخه ده چې دا ډیزاین توپیر کوي. دا یو واحد کتلاګ دی چې په جھیل کې زیرمه شوي ټولو توکو لپاره میټاډاټا (د نورو ډیټا ټوټو په اړه معلومات) وړاندیز کوي او کاروونکو ته اجازه ورکوي چې د ادارې وړتیاوې وکاروي لکه:
- د ډیټابیس یو ثابت نسخه د ACID لیږدونو څخه مننه د سمو معاملو لخوا لیدل کیږي؛
- د کلاوډ اعتراض ذخیره فایلونو خوندي کولو لپاره کیچ کول؛
- د پوښتنو پروسس کولو ګړندي کولو لپاره د شاخص کولو په کارولو سره د معلوماتو جوړښت شاخصونه اضافه کول؛
- د ډیټا شیانو د نقل کولو لپاره د صفر کاپي کلونینګ کارول؛ او
- د ډیټا ځینې نسخې ذخیره کولو لپاره، او داسې نور، د ډاټا نسخه کارول.
برسیره پردې، د میټاډاټا پرت د سکیما مدیریت پلي کول، د DW سکیما ټوپولوژیو کارول لکه ستوري/واوره فلیک سکیمونه، او د ډیټا په جهيل کې د ډیټا حکومتولۍ او پلټنې وړتیا چمتو کول، د ټول ډیټا پایپ لاین بشپړتیا لوړوي.
د سکیما پراختیا او پلي کولو ځانګړتیاوې د سکیما مدیریت کې شاملې دي. د هرې لیکنې په ردولو سره چې د میز سکیما نه پوره کوي، د سکیما پلي کول کاروونکو ته وړتیا ورکوي چې د معلوماتو بشپړتیا او کیفیت وساتي.
د سکیما ارتقا اجازه ورکوي چې د میز موجوده سکیما بدله شي ترڅو د بدلیدونکي ډیټا ځای په ځای شي. د ډیټا لیک په سر کې د واحد ادارې انٹرفیس له امله ، د لاسرسي کنټرول او پلټنې امکانات هم شتون لري.
د API پرت
د معمارۍ بل مهم پرت اوس شتون لري، د یو شمیر APIs کوربه توب کوي چې ټول پای کارونکي کولی شي د دندې په چټکۍ سره ترسره کولو لپاره وکاروي او ډیر پیچلي احصایې ترلاسه کړي.
د میټاډاټا APIs کارول د ورکړل شوي غوښتنلیک لپاره اړین ډیټا توکي پیژندل او لاسرسی اسانه کوي.
د ماشین زده کړې کتابتونونو په شرایطو کې، ځینې یې، لکه TensorFlow او Spark MLlib، کولی شي د پرانیستې فایل فارمیټونه لکه Parquet ولولي او د میټاډاټا پرت ته مستقیم لاسرسی ومومي.
په ورته وخت کې، د ډیټا فریم APIs د اصلاح کولو لپاره لوی چانسونه وړاندې کوي، پروګرام کونکي توانوي چې منتشر شوي ډاټا تنظیم او بدل کړي.
د مصرف طبقه
پاور BI، Tableau، او نور وسایل او ایپس د مصرف پرت لاندې کوربه شوي. د لیک هاؤس ډیزاین سره ، ټول میټاډاټا او ټول هغه معلومات چې په جھیل کې ساتل کیږي د پیرودونکي ایپسونو ته د لاسرسي وړ دي.
د جهيل هاؤس د ټولو کاروونکو لخوا په شرکت کې د هر ډول ترسره کولو لپاره کارول کیدی شي تحلیلي عملیات، پشمول د سوداګرۍ استخباراتو ډشبورډونه رامینځته کول او د SQL پوښتنو او ماشین زده کړې دندې پرمخ وړل.
د ډیټا لیک هاؤس ګټې
سازمانونه کولی شي د ډیټا لیک هاؤس رامینځته کړي ترڅو د دوی اوسني ډیټا پلیټ فارم متحد کړي او د دوی ټول ډیټا مدیریت پروسې غوره کړي. د مختلف سرچینو سره وصل کولو سیلو خنډونو له مینځه وړلو سره ، د ډیټا لیک هاؤس کولی شي د جلا حلونو اړتیا ځای په ځای کړي.
د جوړ شوي ډیټا سرچینو په پرتله، دا ادغام د پام وړ ډیر اغیزمن پای څخه تر پایه کړنلاره تولیدوي. دا څو ګټې لري:
- لږ اداره: د دې پرځای چې د خامو معلوماتو څخه ډاټا استخراج او د ډیټا ګدام کې د کارولو لپاره یې چمتو کړي، د ډیټا لیک هاوس هرې سرچینې ته اجازه ورکوي چې له دې سره تړلي معلومات ولري او د کارولو لپاره تنظیم کړي.
- د لګښت موثریت زیات شوی: د ډیټا لیک هاؤسونه د معاصر زیربنا په کارولو سره جوړ شوي چې محاسبه او ذخیره تقسیموي، د کمپیوټر ځواک زیاتولو پرته د ذخیره کولو پراخول ساده کوي. یوازې د ارزانه ډیټا ذخیره کولو کارول د توزیع کیدو لامل کیږي چې ارزانه وي.
- د معلوماتو غوره اداره: د ډیټا لیک هاوسونه د معیاري پرانیستې جوړښت سره جوړ شوي، چې د امنیت، میټریکونو، رول پر بنسټ السرسي، او نورو مهمو مدیریت برخو باندې ډیر کنټرول ته اجازه ورکوي. د منابعو او ډیټا سرچینو په یوځای کولو سره، دوی حکومتداري ساده کوي او وده کوي.
- ساده معیارونه: څرنګه چې په 1980 لسیزه کې اړیکه خورا محدوده وه، کله چې د معلوماتو ګودامونه په لومړي ځل رامینځته شوي، د ځایی سکیما معیارونه په مکرر ډول په سوداګرۍ کې حتی ډیپارټمنټونو کې رامینځته شوي. د ډیټا لیک هاؤسونه د دې حقیقت څخه ګټه پورته کوي چې ډیری ډوله ډیټا اوس د سکیما لپاره خلاص معیارونه لري د ډیری ډیټا سرچینو په کارولو سره د پروسیجرونو ساده کولو لپاره د یونیفورم سکیما سره یوځای کولو سره.
د ډیټا لیک هاؤس زیانونه
د ډیټا لیک هاؤسونو شاوخوا ټولو هوپلا سره سره ، دا مهمه ده چې په یاد ولرئ چې نظر لاهم خورا نوی دی. ډاډ ترلاسه کړئ چې دې نوي ډیزاین ته په بشپړ ډول ژمن کیدو دمخه زیانونه وزن کړئ.
- Monolithic جوړښت: د تالاب هاؤس ټول شموله ډیزاین ډیری ګټې وړاندې کوي، مګر دا ځینې ستونزې هم رامینځته کوي. Monolithic جوړښت اکثرا د ټولو کاروونکو لپاره د ضعیف خدمت لامل کیږي او کیدی شي سخت او ساتل ستونزمن وي. معمولا ، معماران او ډیزاینران د ډیر ماډلر جوړښت خوښوي چې دوی کولی شي د مختلف کارولو قضیو لپاره تنظیم کړي.
- ټیکنالوژي لاهم شتون نلري: وروستی هدف د ماشین زده کړې او مصنوعي استخباراتو د پام وړ مقدار ته اړتیا لري. مخکې لدې چې د جهيل کورونه د تصور په توګه ترسره شي، دا ټیکنالوژي باید نوره وده وکړي.
- د موجوده جوړښتونو په پرتله د پام وړ پرمختګ ندی: لا تر اوسه د پام وړ شکونه شتون لري چې د لایک هاؤسونه به واقعیا څومره ارزښت ولري. ځینې منتقدین استدلال کوي چې د لیک ګودام ډیزاین د مناسبو اتوماتیک تجهیزاتو سره یوځای کولی شي د پرتلې وړ موثریت ترلاسه کړي.
د ډیټا لیک هاؤس ننګونې
د ډیټا لیک هاؤس تخنیک غوره کول ممکن ستونزمن وي. د دې د اجزاو ټوټو پیچليتوب له امله، دا ناسمه ده چې د ډیټا لیک هاؤس د هر اړخیز مثالی جوړښت یا "د هر څه لپاره یو پلیټ فارم" په توګه وګورئ.
سربیره پردې ، د ډیټا لیکونو د ډیریدونکي پلي کیدو له امله ، سوداګرۍ به خپل اوسني ډیټا ګودامونه دوی ته واړوي ، یوازې د بریا په ژمنې تکیه کوي پرته له کومې څرګندې اقتصادي ګټې.
که چیرې د لیږد پروسې په اوږدو کې د ځنډ ستونزې یا ځنډ شتون ولري، دا ممکن ګران، وخت مصرف، او شاید ناامنه وي.
د سوداګرۍ کارونکي باید د ځانګړو پلورونکو په وینا خورا تخصصي ټیکنالوژي ومني چې د ډیټا لیک هاوسونو په توګه په څرګند یا څرګند ډول بازار حلونه وړاندې کوي. دا ممکن تل د سیسټم په مرکز کې د ډیټا لیک سره تړلي نورو وسیلو سره کار ونکړي ، مسلو ته اضافه کوي.
برسیره پردې، دا به ستونزمن وي چې د 24/7 تحلیلونه وړاندې کړي پداسې حال کې چې د سوداګرۍ مهم کاري بار چلوي، کوم چې د لګښت اغیزمن کچې سره زیربنا غوښتنه کوي.
پایله
په وروستي کلونو کې د ډیټا مرکزونو نوي ډول د ډیټا لیک هاؤس دی. دا بیلابیل ساحې مدغم کوي ، لکه معلوماتي ټیکنالوژي ، د خلاصې سرچینې سافټویر ، ورېځ دکمپیوټری، او د ذخیره کولو پروتوکولونه توزیع شوي.
دا سوداګرۍ ته وړتیا ورکوي چې د هر ځای څخه ټول ډیټا ډولونه په مرکزي ډول ذخیره کړي ، مدیریت او تحلیل ساده کوي. د ډیټا لیک هاؤس یو خورا زړه راښکونکی مفهوم دی.
هر شرکت به د پام وړ رقابتي څنډه ولري که چیرې دا ټول په یو کې ډیټا پلیټ فارم ته لاسرسی ولري چې د ډیټا ګودام په څیر ګړندی او موثر و پداسې حال کې چې د ډیټا لیک په څیر انعطاف وړ وي.
مفکوره لاهم وده کوي او نسبتا نوې پاتې ده. د پایلې په توګه، دا یو څه وخت نیسي ترڅو معلومه کړي چې آیا یو څه پراخه کیدی شي یا نه.
موږ ټول باید د هغه لوري په اړه لیواله اوسو چې د لیک هاؤس معمارۍ پرمخ ځي.
یو ځواب ورکړئ ووځي