Маалымат платформалары жөнүндө ойлонуп жатканда, бардык жеткиликтүү кызматтарды жана архитектуралык варианттарды карап чыгуу бир аз кыйын болушу мүмкүн.
Ишкана маалымат платформасы көбүнчө маалымат кампаларынан, маалымат моделдеринен, маалымат көлдөрүнөн жана отчеттордон турат, алардын ар бири белгилүү бир максатка жана керектүү көндүмдөрдүн жыйындысына ээ. Ал эми, акыркы бир нече жыл ичинде data lakehouse деп аталган жаңы дизайн пайда болду.
Берилиш көлдөрүнүн жана маалымат кампасын башкаруунун ар тараптуулугу "маалымат көлүнүн жайы" деп аталган революциялык маалыматтарды сактоо архитектурасында айкалышкан.
Биз бул постто көлдүн маалыматын, анын компоненттерин, өзгөчөлүктөрүн, архитектурасын жана башка аспектилерин терең изилдейбиз.
Data Lakehouse деген эмне?
Аты айтып тургандай, data lakehouse ар биринин кемчиликтерин өзүнчө чечүү үчүн маалымат көлү менен маалымат кампасын айкалыштырган маалымат архитектурасынын жаңы түрү.
Чындыгында, lakehouse системасы маалымат көлдөрү сыяктуу чоң көлөмдөгү маалыматтарды баштапкы формасында сактоо үчүн арзан сактагычты колдонот. Дүкөндүн үстүнө метадайындар катмарын кошуу да маалымат структурасын берет жана маалымат кампаларында табылгандай маалыматтарды башкаруу куралдарын кеңейтет.
Ал уюмда колдонулган ар кандай бизнес-тиркемелерден, системалардан жана гаджеттерден алган уюшкан, жарым структураланган жана структураланбаган маалыматтардын эбегейсиз көлөмүн сактайт.
Көпчүлүк учурда, маалымат көлдөрү маалыматтарды ачык, жалпы файл форматтарында сактоо үчүн файлдык колдонмо программалоо интерфейси (API) менен арзан сактоо инфраструктурасын колдонушат.
Бул көптөгөн командаларга ар кандай демилгелер үчүн бирдиктүү система аркылуу компаниянын бардык маалыматтарына жетүүгө мүмкүндүк берет, мисалы, маалымат илими, машина үйрөнүү, жана бизнес чалгындоо.
Өзгөчөлүктөрү
- Төмөн баадагы сактоо. Берилиш көлүнүн үйү маалыматтарды арзан объект сактагычында сактай алышы керек, мисалы Google Cloud Storage, Azure Blob Storage, Amazon Simple Storage Service, же жергиликтүү ORC же Паркетти колдонуу.
- Берилиштерди оптималдаштыруу мүмкүнчүлүгү: Берилиштердин жайгашуусун оптималдаштыруу, кэштөө жана индекстөө - бул маалымат көлүнүн базасы маалыматтардын баштапкы форматын сактоо менен маалыматтарды оптималдаштырууга жөндөмдүү болушунун бир нече мисалы.
- Транзакциялык метадайындардын катмары: Негизги арзан сактоонун үстүнө, бул маалымат кампасынын иштеши үчүн маанилүү болгон маалыматтарды башкаруу мүмкүнчүлүктөрүн берет.
- Декларативдик DataFrame API'син колдоо: AI куралдарынын көпчүлүгү чийки объект дүкөнүнүн маалыматтарын алуу үчүн DataFrames колдоно алышат. Декларативдик DataFrame API колдоосу белгилүү бир маалымат илимине же AI тапшырмасына жооп катары берилиштердин презентациясын жана структурасын динамикалык жакшыртуу мүмкүнчүлүгүн жогорулатат.
- ACID транзакцияларын колдоо: Атомдукту, ырааттуулукту, изоляцияны жана туруктуулукту билдирген ACID аббревиатурасы транзакцияны аныктоодо жана маалыматтардын ырааттуулугун жана ишенимдүүлүгүн камсыз кылууда маанилүү компонент болуп саналат. Мындай транзакциялар мурда маалымат кампаларында гана мүмкүн болчу, бирок lakehouse аларды маалымат көлдөрү менен колдонуу мүмкүнчүлүгүн сунуш кылат ошондой эле. Бир нече маалымат өткөргүчтөрү менен, анын ичинде бир эле убакта берилиштерди окуу жана жазуу, бул акыркысынын төмөн сапаты көйгөйүн чечет.
Data Lakehouse элементтери
Берилиштер көлүнүн архитектурасы жогорку деңгээлде эки негизги деңгээлге бөлүнгөн. Сактоо катмарынын маалыматтарды кабыл алуусу Lakehouse платформасы (б.а., маалымат көлү) тарабынан башкарылат.
Маалыматтарды маалымат кампасына жүктөөнүн же аны менчик форматына айландыруунун кереги жок, кайра иштетүү катмары андан кийин бир катар куралдардын жардамы менен сактоо катмарындагы маалыматтарды түздөн-түз сурай алат.
Андан кийин, BI колдонмолору, ошондой эле AI жана ML технологиялары маалыматтарды колдоно алышат. Берилиш көлүнүн экономикасы бул долбоор менен камсыз кылынат, бирок ар кандай иштетүүчү кыймылдаткыч бул маалыматтарды окуй алгандыктан, ишканалар даярдалган маалыматтарды бир катар системалар тарабынан талдоо үчүн жеткиликтүү кылуу эркиндигине ээ. Процессордун өндүрүмдүүлүгүн жана наркын кайра иштетүү жана талдоо үчүн бул ыкманы колдонуу менен жакшыртса болот.
Төмөнкү ACID (атомдуулугу, ырааттуулугу, изоляциясы жана узактыгы) критерийлерине ылайык келген маалыматтар базасынын транзакцияларын колдогондуктан, архитектура ошондой эле көптөгөн тараптарга системанын ичинде бир эле убакта маалыматтарга жетүү жана жазуу мүмкүнчүлүгүн берет:
- Атомдук транзакцияны аягына чыгарууда толук транзакция же анын эч бири ийгиликтүү болбой тургандыгын билдирет. Процесс үзгүлтүккө учураган учурда, бул маалыматтарды жоготуудан же бузулуудан качууга жардам берет.
- Ырааттуулук транзакциялар алдын ала, ырааттуу түрдө ишке ашуусуна кепилдик берет. Ал ар бир маалымат алдын ала аныкталган эрежелерге ылайык мыйзамдуу болушун камсыз кылуу менен маалыматтардын бүтүндүгүн сактайт.
- бөлүп коюу ал аяктаганга чейин, эч кандай транзакцияга системанын ичиндеги башка транзакциялар таасир этпешин камсыздайт. Бул көптөгөн тараптарга бир эле системадан бир эле учурда бири-бирине тоскоолдук кылбастан окууга жана жазууга мүмкүндүк берет.
- узактык системадагы маалыматтарга өзгөртүүлөр транзакция аяктагандан кийин да система бузулган учурда дагы бар экендигине кепилдик берет. Транзакциядан келип чыккан бардык өзгөртүүлөр файлда түбөлүккө сакталат.
Data Lakehouse архитектурасы
Databricks (алардын Delta Lake концепциясынын инноватору жана дизайнери) жана AWS маалымат көлүнүн концепциясын эки негизги жактоочу болуп саналат. Ошентип, биз көлдөрдүн архитектуралык схемасын сүрөттөө үчүн алардын билимине жана түшүнүгүнө таянабыз.
Маалымат көлүнүн системасы адатта беш катмардан турат:
- Жутуу катмары
- Сактоочу катмар
- Метадата катмары
- API катмары
- Керектөө катмары
Жутуу катмары
Системанын биринчи катмары ар кандай булактардан маалыматтарды чогултуу жана сактоо катмарына жөнөтүү үчүн жооптуу. Катмар көптөгөн ички жана тышкы булактарга туташуу үчүн бир нече протоколдорду колдоно алат, анын ичинде пакеттик жана агымдык маалыматтарды иштетүү мүмкүнчүлүктөрүн айкалыштыруу, мисалы
- NoSQL маалымат базалары,
- файл бөлүшүү
- CRM колдонмолору,
- интернет,
- IoT сенсорлору,
- коомдук Медиа,
- Кызмат катары программалык камсыздоо (SaaS) тиркемелери жана
- реляциялык маалыматтар базасын башкаруу системалары ж.б.
Бул учурда, маалыматтарды агым үчүн Apache Kafka жана RDBMS жана NoSQL маалымат базаларынан маалыматтарды импорттоо үчүн Amazon Data Migration Service (Amazon DMS) сыяктуу компоненттерди колдонсо болот.
Сактоочу катмар
Lakehouse архитектурасы AWS S3 сыяктуу арзан объект дүкөндөрүндө объект катары ар кандай маалыматтарды сактоону камсыз кылуу үчүн арналган. Ачык файл форматтарын колдонуп, кардар куралдары бул нерселерди түздөн-түз дүкөндөн окуй алат.
Бул көптөгөн API'лерге жана керектөө катмарынын компоненттерине ошол эле маалыматтарга жетүү жана пайдалануу мүмкүнчүлүгүн берет. Метаберилиштер катмары структураланган жана жарым структураланган берилиштер топтомдорунун схемаларын сактайт, ошондуктан компоненттер аларды окуп жатканда аларды маалыматтарга колдоно алышат.
Мисалы, Hadoop Distributed File System (HDFS) платформасы, эсептөө жана сактоону жер-жерлерде бөлгөн булут репозиторий кызматтарын куруу үчүн колдонулушу мүмкүн. Lakehouse бул кызматтар үчүн эң ылайыктуу.
Метадата катмары
Метаберилиштер катмары бул дизайнды айырмалап турган маалымат көлүнүн негизги компоненти болуп саналат. Бул көлдө сакталган бардык объекттер үчүн метаберилиштерди (башка маалымат бөлүктөрү жөнүндө маалымат) сунуш кылган бирдиктүү каталог жана колдонуучуларга төмөнкүдөй башкаруу мүмкүнчүлүктөрүн колдонууга мүмкүндүк берет:
- Маалыматтар базасынын ырааттуу версиясы ACID транзакцияларынын аркасында параллелдүү транзакциялар аркылуу көрүнөт;
- булут объектисинин файлдарын сактоо үчүн кэштөө;
- суроо-талаптарды иштеп чыгууну тездетүү үчүн индекстөөнүн жардамы менен маалымат структурасынын индекстерин кошуу;
- маалымат объекттерин кайталоо үчүн нөлдүк көчүрмөнү клондоону колдонуу; жана
- маалыматтардын айрым версияларын сактоо үчүн ж.б., маалымат версиясын колдонуңуз.
Кошумчалай кетсек, метаберилиштер катмары схемаларды башкарууну ишке ашырууга, жылдыз/кар бүртүкчөлөрүнүн схемалары сыяктуу DW схемасынын топологияларын колдонууга жана маалыматтарды башкарууну жана түздөн-түз маалымат көлүндө текшерүү мүмкүнчүлүгүн камсыз кылууга, бүт маалымат өткөргүчүнүн бүтүндүгүн жогорулатууга мүмкүндүк берет.
Схеманын эволюциясы жана аткарылышы үчүн функциялар схеманы башкарууга киргизилген. Таблицанын схемасына туура келбеген жазууларды четке кагуу менен, схеманын аткарылышы колдонуучуларга маалыматтардын бүтүндүгүн жана сапатын сактоого мүмкүндүк берет.
Схеманын эволюциясы таблицанын учурдагы схемасын өзгөрүп жаткан маалыматтарды кабыл алуу үчүн өзгөртүүгө мүмкүндүк берет. Берилиш көлүнүн үстүндөгү бирдиктүү башкаруу интерфейсинен улам, кирүү мүмкүнчүлүгүн көзөмөлдөө жана текшерүү мүмкүнчүлүктөрү да бар.
API катмары
Архитектуранын дагы бир маанилүү катмары азыр бардык акыркы колдонуучулар жумушту тезирээк аткаруу жана татаал статистиканы алуу үчүн колдоно турган бир катар API'лерди камтыйт.
Метаберилиштер API'лерин колдонуу берилген колдонмо үчүн зарыл болгон маалымат элементтерин аныктоону жана аларга жетүүнү жеңилдетет.
Машина үйрөнүү китепканаларына келсек, алардын айрымдары, мисалы, TensorFlow жана Spark MLlib, Parquet сыяктуу ачык файл форматтарын окуп, метадайындар катмарына түздөн-түз кире алышат.
Ошол эле учурда, DataFrame API'лери оптималдаштыруу үчүн көбүрөөк мүмкүнчүлүктөрдү сунуштап, программисттерге дисперстүү маалыматтарды уюштурууга жана өзгөртүүгө мүмкүндүк берет.
Керектөө катмары
Power BI, Tableau жана башка куралдар менен колдонмолор керектөө катмарынын астында жайгаштырылат. Lakehouse дизайны менен бардык метадайындар жана көлдө сакталган бардык маалыматтар кардар колдонмолоруна жеткиликтүү.
Lakehouse компаниянын ичиндеги бардык колдонуучулар тарабынан ар кандай иштерди аткаруу үчүн колдонулушу мүмкүн аналитикалык операциялар, анын ичинде бизнес чалгындоо панелдерин түзүү жана SQL сурамдарын жана машина үйрөнүү тапшырмаларын иштетүү.
Data Lakehouse артыкчылыктары
Уюмдар учурдагы маалымат платформасын бириктирүү жана маалыматтарды башкаруу процессин оптималдаштыруу үчүн маалымат көлүн түзө алышат. Ар кандай булактарды бириктирген силостук тоскоолдуктарды жоюу менен, маалымат көлүнүн үйү так чечимдерге болгон муктаждыкты алмаштыра алат.
Куралдуу маалымат булактарына салыштырмалуу, бул интеграция кыйла натыйжалуу аягына чейин процедураны жаратат. Бул бир нече артыкчылыктарга ээ:
- Азыраак башкаруу: Чийки маалыматтардан маалыматтарды алуу жана аны маалымат кампасында колдонууга даярдоонун ордуна, маалымат көлү ага байланышкан бардык булактарга алардын маалыматтарын жеткиликтүү жана пайдалануу үчүн уюштурууга мүмкүндүк берет.
- Чарбанын натыйжалуулугун жогорулатуу: Маалымат көлдөрү жайлары заманбап инфраструктураны колдонуу менен курулган, ал эсептөө жана сактоону экиге бөлөт, бул эсептөө күчүн көбөйтпөстөн сактоону кеңейтүүнү жеңилдетет. Жөн гана арзан маалымат сактагычын колдонуу үнөмдүү болгон масштабдуулукка алып келет.
- Дайындарды башкаруу жакшыраак: Data Lakehouses стандартташтырылган ачык архитектура менен курулган, бул коопсуздук, метрика, ролго негизделген мүмкүндүк алуу жана башка маанилүү башкаруу компоненттерин көбүрөөк көзөмөлдөөгө мүмкүндүк берет. Ресурстарды жана маалымат булактарын бириктирүү менен алар башкарууну жөнөкөйлөштүрөт жана жакшыртат.
- Жөнөкөйлөштүрүлгөн стандарттар: Байланыш 1980-жылдары, маалымат кампалары алгач иштелип чыкканда, өтө чектелгендиктен, локализацияланган схема стандарттары көбүнчө ишканалардын ичинде, атүгүл бөлүмдөрдүн ичинде иштелип чыккан. Берилиштер көлмөлөрү процедураларды иретке келтирүү үчүн көптөгөн маалымат булактарын бири-бирин кайталаган бирдиктүү схема менен жутуп алуу менен азыр маалыматтардын көптөгөн түрлөрү схемалар үчүн ачык стандарттарга ээ экендигин колдонушат.
Data Lakehouse кемчиликтери
Берилиш көлдөрүн курчап турган бардык хооплаларга карабастан, бул идея дагы эле жаңы экенин эстен чыгарбоо керек. Бул жаңы дизайнга толук киришүүдөн мурун, кемчиликтерин таразалап алыңыз.
- Монолиттик түзүлүш: Көлдүн бардыгын камтыган дизайны бир нече артыкчылыктарды сунуштайт, бирок ал кээ бир көйгөйлөрдү да жаратат. Монолиттик архитектура көбүнчө бардык колдонуучулар үчүн начар тейлөөгө алып келет жана катаал жана сактоо кыйын болушу мүмкүн. Адатта, архитекторлор жана дизайнерлер ар кандай колдонуу учурлары үчүн ыңгайлаштыра турган модулдук архитектураны жакшы көрүшөт.
- Технология азырынча жок: акыркы максат машина үйрөнүүнүн жана жасалма интеллекттин олуттуу көлөмүн талап кылат. Көлдөр ойлогондой иштей электе, бул технологиялар андан ары өнүгүп чыгышы керек.
- Учурдагы структураларга караганда олуттуу жылыш жок: Лейкhouses чындыгында канчалык көбүрөөк мааниге ээ болоруна дагы эле олуттуу ишенбөөчүлүк бар. Кээ бир каралоочулар көлдүн кампасынын дизайны тиешелүү автоматташтырылган жабдуулар менен айкалыштырылган натыйжалуулукка жетише алат деп ырасташат.
Data Lakehouse чакырыктары
Data Lakehouse техникасын кабыл алуу кыйын болушу мүмкүн. Анын курамдык бөлүктөрүнүн татаалдыгынан улам, маалымат көлүнүн имаратын бардыгын камтыган идеалдуу структура же бирөө үчүн "бардыгы үчүн бир платформа" катары кароо туура эмес.
Кошумчалай кетсек, маалымат көлдөрүн кабыл алуу көбөйгөндүктөн, бизнес эч кандай экономикалык пайдасыз ийгилик убадасына таянып, учурдагы маалымат кампаларын аларга көчүрүүгө аргасыз болот.
Которуу процессинде кандайдыр бир кечигүү көйгөйлөрү же өчүрүүлөр болсо, бул кымбат, көп убакытты талап кылган жана кооптуу болушу мүмкүн.
Кээ бир сатуучуларга ылайык, бизнес колдонуучулар жогорку адистештирилген технологияларды кабыл алышы керек, алар ачык же кыйыр түрдө маалымат көлдөрү катары чечимдерди сатышат. Булар дайыма эле системанын борборундагы маалымат көлүнө байланышкан башка инструменттер менен иштебей калышы мүмкүн, бул көйгөйлөрдү күчөтөт.
Кошумчалай кетсек, үнөмдүү масштабдуу инфраструктураны талап кылган бизнес үчүн маанилүү жүктөмдөрдү аткарууда 24/7 аналитика менен камсыз кылуу кыйын болушу мүмкүн.
жыйынтыктоо
Акыркы жылдардагы маалымат борборлорунун эң жаңы түрү - бул data lakehouse. Ал маалыматтык технологиялар, ачык булактуу программалык камсыздоо сыяктуу ар түрдүү тармактарды бириктирет. булут эсептөө, жана бөлүштүрүлгөн сактоо протоколдору.
Бул башкарууну жана талдоону жөнөкөйлөтүп, ишканаларга каалаган жерден бардык маалыматтарды борборлоштурууга мүмкүндүк берет. Data Lakehouse - бул абдан кызыктуу түшүнүк.
Кандай гана фирма болбосун, эгерде ал маалымат кампасы сыяктуу тез жана эффективдүү, ошол эле учурда маалымат көлүндөй ийкемдүү болгон бардыгы бир маалымат платформасына кирүү мүмкүнчүлүгүнө ээ болсо, олуттуу атаандаштыкка ээ болмок.
Идея дагы эле өнүгүп жатат жана салыштырмалуу жаңы бойдон калууда. Натыйжада, бир нерсе кеңири жайыла алабы же жокпу, аныктоо үчүн бир аз убакыт талап кылынышы мүмкүн.
Биз баарыбыз Лейкхаус архитектурасы кайсы багытты көздөп жатканына кызыгышыбыз керек.
Таштап Жооп