Гарчиг[Нуух][Үзүүлэх]
Компаниуд бизнесийн чухал шийдвэр гаргах, бүтээгдэхүүний санал болгох, үйлчлүүлэгчдэд илүү сайн үйлчилгээ үзүүлэхийн тулд түүн дээр улам бүр найдаж байгаа тул урьд өмнөхөөсөө илүү их мэдээлэл цуглуулж байна.
Өгөгдлийн тоо хэмжээ нь экспоненциал хурдаар бүтээгдэж байгаа тул үүл нь өгөгдөл боловсруулах, аналитик хийхэд өргөтгөх чадвар, найдвартай байдал, хүртээмж зэрэг хэд хэдэн давуу талыг санал болгодог.
Үүлний экосистемд өгөгдөл боловсруулах, дүн шинжилгээ хийх хэд хэдэн хэрэгсэл, технологи байдаг. Хамгийн их ашиглагддаг хоёр төрлийн том өгөгдөл хадгалах бүтэц нь мэдээллийн агуулах ба мэдээллийн нуурууд юм.
Дата нуурыг ашиглах нь сонирхол татахуйц бага байдаг тул загвар болон өгөгдөл нь хамааралтай хэвээр байгаа тул асууж чадахгүй ч мэдээллийн урсгал хадгалахад зориулж мэдээллийн агуулах ашиглах нь үр ашиггүй юм.
WБид ямар төрлийн үүлний архитектурыг сонгох вэ?
Дата нуурын ордны шинэ үзэл баримтлалыг авч үзэх үү, эсвэл агуулахын хязгаарлалт эсвэл нуурын хязгаарлалтад сэтгэл хангалуун байх ёстой юу?
"Өгөгдлийн нуурын байшин" хэмээх шинэ өгөгдөл хадгалах архитектур нь мэдээллийн нууруудын дасан зохицох чадварыг мэдээллийн агуулахын мэдээллийн менежменттэй хослуулсан.
Төрөл бүрийн том өгөгдөл хадгалах аргуудыг ойлгох нь бизнесийн тагнуул (BI), өгөгдлийн аналитик болон машин суралцах (ML) ажлын ачаалал нь танай компанийн шаардлагаас хамаарна.
Энэ нийтлэлд бид Data Warehouse, Data Lake, Data Lakehouse-ийн ашиг тус, хязгаарлалт, давуу болон сул талуудыг нарийвчлан авч үзэх болно. Эхэлцгээе.
Өгөгдлийн агуулах гэж юу вэ?
Өгөгдлийн агуулах нь олон эх сурвалжаас асар их хэмжээний өгөгдлийг хадгалахад ашигладаг төвлөрсөн мэдээллийн сан юм. Мэдээллийн агуулах нь байгууллагын "өгөгдлийн үнэн"-ийн цорын ганц эх сурвалжийн үүрэг гүйцэтгэдэг бөгөөд тайлагнах, бизнесийн аналитик хийхэд зайлшгүй шаардлагатай.
Ерөнхийдөө өгөгдлийн агуулахууд нь хэрэглээний, бизнесийн болон гүйлгээний өгөгдөл гэх мэт хэд хэдэн эх сурвалжаас авсан харилцааны өгөгдлийн багцыг нэгтгэж, түүхэн өгөгдлийг хадгалдаг. Агуулахын системд ачаалагдахын өмнө өгөгдлийн агуулахад өгөгдлийг хувиргаж, цэвэрлэж, мэдээллийн үнэнийг нэг эх сурвалж болгон ашиглах боломжтой.
Компанийн бүх салбараас бизнесийн ойлголтыг түргэн шуурхай санал болгох чадавхитай учраас бизнесүүд мэдээллийн агуулахад хөрөнгө оруулалт хийдэг. BI хэрэгслүүд, SQL үйлчлүүлэгчид болон бусад бага боловсронгуй (өөрөөр хэлбэл өгөгдлийн бус шинжлэх ухаан) аналитик шийдлүүдийг ашигласнаар, бизнесийн шинжээчид, мэдээллийн инженерүүд болон шийдвэр гаргагчид мэдээллийн агуулахаас өгөгдөлд хандах боломжтой.
Өсөн нэмэгдэж буй өгөгдлийн эзэлхүүнтэй агуулахыг хадгалах нь үнэтэй бөгөөд өгөгдлийн агуулах нь түүхий болон бүтэцгүй өгөгдөлтэй ажиллах боломжгүй юм. Нэмж дурдахад, энэ нь машин сурах эсвэл урьдчилан таамаглах загварчлал гэх мэт нарийн төвөгтэй өгөгдөлд дүн шинжилгээ хийх арга барилд тохиромжтой сонголт биш юм.
Тиймээс өгөгдлийн агуулах нь асуулгын хариуг илүү хурдан, өндөр чанартай өгөгдлийг өгдөг. Google Big Query, Amazon Redshift, Azure SQL Data warehouse, Snowflake зэрэг нь мэдээллийн агуулахад ашиглах боломжтой үүлэн үйлчилгээ юм.
Мэдээллийн агуулахын ашиг тус
- Бизнесийн оюун ухаан, өгөгдлийн аналитик ажлын ачааллын үр ашиг, хурдыг нэмэгдүүлэх: Мэдээллийн агуулах нь өгөгдөл бэлтгэх, дүн шинжилгээ хийхэд шаардагдах хугацааг богиносгодог. Мэдээллийн агуулахын өгөгдөл найдвартай, тууштай байдаг тул тэд өгөгдлийн аналитик болон бизнесийн тагнуулын хэрэгслүүдтэй хялбархан холбогдож чадна. Нэмж дурдахад өгөгдлийн агуулах нь мэдээлэл цуглуулахад шаардагдах цагийг хэмнэж, тайлан, хяналтын самбар болон бусад аналитик шаардлагуудад өгөгдлийг ашиглах боломжийг багуудаар хангадаг.
- Мэдээллийн тууштай байдал, чанар, стандартчиллыг нэмэгдүүлэх: Байгууллагууд хэрэглэгч, борлуулалт, гүйлгээний мэдээлэл зэрэг төрөл бүрийн эх сурвалжаас мэдээлэл цуглуулдаг. Өгөгдлийн агуулах нь өгөгдлийн үнэний нэг эх сурвалж болж чадахуйц нэг төрлийн, стандартчилагдсан форматтай корпорацийн өгөгдлийг нэгтгэдэг тул пүүс бизнесийн шаардлагын өгөгдөлд итгэж болно.
- Шийдвэр гаргах чадварыг ерөнхийд нь сайжруулах: Өгөгдлийн агуулах нь сүүлийн үеийн болон хуучин мэдээллийн төвлөрсөн дэлгүүрийг санал болгосноор илүү сайн шийдвэр гаргахад тусалдаг. Шийдвэр гаргагчид өгөгдлийн агуулах дахь өгөгдлийг боловсруулснаар нарийн ойлголттой болохын тулд эрсдэлийг үнэлж, үйлчлүүлэгчийн хүслийг ойлгож, бараа, үйлчилгээг сайжруулах боломжтой.
- Бизнесийн илүү сайн мэдээлэл өгөх: Мэдээллийн агуулах нь байнга цуглуулдаг асар их хэмжээний түүхий өгөгдөл болон ойлголт өгдөг өгөгдлийн хоорондох зөрүүг холбодог. Эдгээр нь байгууллагын өгөгдөл хадгалах үндэс суурь болж, өгөгдлийн талаарх ээдрээтэй асуултуудад хариулж, хариултыг ашиглан найдвартай бизнесийн шийдвэр гаргах боломжийг олгодог.
Мэдээллийн агуулахын хязгаарлалт
- Өгөгдлийн уян хатан чанар дутмаг: Өгөгдлийн агуулахууд бүтэцлэгдсэн өгөгдөлтэй харьцахдаа гарамгай байдаг ч лог аналитик, стриминг, сошиал медиа өгөгдөл зэрэг хагас бүтэцтэй, бүтэцгүй өгөгдлийн формат нь тэдэнд бэрхшээлтэй байж болно. Энэ нь машин сургалтын болон хиймэл оюун хэцүү.
- Суурилуулах, засвар үйлчилгээ хийхэд үнэтэй: Мэдээллийн агуулахыг суурилуулах, засвар үйлчилгээ хийхэд үнэтэй байж болно. Цаашилбал, мэдээллийн агуулах нь ихэвчлэн статик биш байдаг; Энэ нь хөгширч, байнга засвар үйлчилгээ шаарддаг бөгөөд энэ нь үнэтэй байдаг.
Давуу тал
- Өгөгдлийг олох, сэргээх, хайхад хялбар байдаг.
- Өгөгдөл аль хэдийн цэвэр байгаа бол SQL өгөгдлийг бэлтгэх нь энгийн зүйл юм.
Байг
- Та зөвхөн нэг аналитик борлуулагчийг ашиглахаас өөр аргагүй болно.
- Бүтэцгүй эсвэл урсгал мэдээлэлд дүн шинжилгээ хийх, хадгалах нь нэлээд үнэтэй байдаг.
Дата нуур гэж юу вэ?
Дата нууруудын тусламжтайгаар бүх төрлийн өгөгдлийг амлаж, боломжтой болгодог. Өгөгдлийг хүртээмжтэй, төвлөрсөн байрлалтай, унших боломжтой байх нь ашигтай.
Өгөгдлийн нуур нь зохион байгуулалттай, бүтэцгүй их хэмжээний өгөгдлийг боловсруулаагүй, өөрчлөгдөөгүй, хэлбэржүүлээгүй хэлбэрээр хадгалдаг төвлөрсөн, маш дасан зохицох боломжтой хадгалах орон зай юм.
Өгөгдлийн нуур нь өмнө нь "цэвэрлэгдсэн" хамаарлын өгөгдлийг хадгалдаг өгөгдлийн агуулахаас ялгаатай нь өгөгдлийг хадгалахын тулд хавтгай архитектур, боловсруулаагүй төлөвт хадгалагдсан объектуудыг ашигладаг.
Өгөгдлийн нуурууд нь энэ форматтай өгөгдөлтэй ажиллахад хүндрэлтэй байдаг мэдээллийн агуулахаас ялгаатай нь дасан зохицох чадвартай, найдвартай, боломжийн үнэтэй бөгөөд аж ахуйн нэгжүүдэд бүтэцгүй өгөгдлөөс илүү сайн ойлголт авах боломжийг олгодог.
Өгөгдлийн нууруудад өгөгдөл цуглуулах үед схем эсвэл өгөгдлийг бий болгохоос илүүтэй аналитик зорилгоор өгөгдлийг задлах, ачаалах, хувиргах (ELT) байдаг.
IoT төхөөрөмжөөс олон төрлийн өгөгдлийн технологи ашиглах, олон нийтийн сүлжээ, өгөгдөл дамжуулах, өгөгдлийн нуурууд нь машин сурах, урьдчилан таамаглах аналитикийг идэвхжүүлдэг.
Нэмж дурдахад, түүхий өгөгдлийг боловсруулж чаддаг өгөгдөл судлаач өгөгдлийн нуурыг ашиглаж болно. Нөгөө талаар мэдээллийн агуулах нь бизнес эрхлэгчдэд илүү хялбар байдаг. Энэ нь хэрэглэгчийн профайл хийхэд тохиромжтой. урьдчилан таамаглах аналитик, машин сургалт болон бусад ажлууд.
Хэдийгээр өгөгдлийн нуурууд нь мэдээллийн агуулахтай холбоотой хэд хэдэн асуудлыг шийддэг ч өгөгдлийн чанар муу, асуулгын хурд хангалтгүй байдаг. Нэмж дурдахад бизнесийн хэрэглэгчдэд SQL асуулга явуулахад нэмэлт хэрэгсэл шаардагдана. Бүтэц муутай мэдээллийн нуур нь өгөгдөл зогсонги байдалд орж болзошгүй.
Дата нуурын ашиг тус
- Өргөн хүрээний машин сургалтын болон өгөгдлийн шинжлэх ухааны хэрэглээний тохиолдлуудад зориулсан дэмжлэг Мэдээллийг нээлттэй, түүхий хэлбэрээр хадгалдаг тул өгөгдлийн нуур дахь өгөгдлийг боловсруулахын тулд өөр машин болон гүнзгий сургалтын алгоритмуудыг ашиглах нь илүү хялбар байдаг.
- Дата нууруудын олон талт байдал нь урьдчилан тохируулсан схем шаардлагагүйгээр өгөгдлийг ямар ч формат эсвэл зөөвөрлөгчөөр хадгалах боломжийг олгодог нь том давуу тал юм. Ирээдүйд өгөгдөл ашиглах тохиолдлуудыг дэмжих боломжтой бөгөөд хэрэв өгөгдлийг анхны байдалд нь үлдээвэл илүү олон өгөгдлийг шинжлэх боломжтой.
- Хоёр төрлийн өгөгдлийг янз бүрийн нөхцөлд хадгалахаас зайлсхийхийн тулд өгөгдлийн нуурууд нь бүтэцлэгдсэн болон бүтэцгүй өгөгдлийг хоёуланг нь агуулж болно. Байгууллагын янз бүрийн төрлийн өгөгдлийг хадгалахын тулд тэд нэг байршлыг санал болгодог.
- Уламжлалт мэдээллийн агуулахтай харьцуулахад өгөгдлийн нуурууд нь ихэвчлэн нэг гигабайт тутамд бага зардлаар зориулагдсан объект хадгалах гэх мэт хямд барааны техник хангамж дээр хадгалагдахаар бүтээгдсэн тул хямд байдаг.
Дата нуурын хязгаарлалт
- Өгөгдлийн аналитик болон бизнесийн тагнуулын хэрэглээний тохиолдлууд муу оноотой байна: Мэдээллийн нуурууд нь зохих ёсоор арчлахгүй бол зохион байгуулалтгүй болж болзошгүй тул тэдгээрийг бизнесийн тагнуул, аналитик хэрэгсэлтэй холбоход хэцүү болгодог. Нэмж дурдахад, тайлагнах, аналитик ашиглах тохиолдлуудад шаардлагатай тохиолдолд тууштай байдаггүй өгөгдлийн бүтэц болон ACID (атом, тууштай байдал, тусгаарлалт, бат бөх) гүйлгээний дэмжлэг нь асуулгын гүйцэтгэлийг оновчтой болгоход хүргэдэг.
- Өгөгдлийн нууруудын нийцгүй байдал нь мэдээллийн найдвартай байдал, аюулгүй байдлыг хангах боломжгүй болгодог бөгөөд энэ нь хоёулангийнх нь дутагдалд хүргэдэг. Мэдээллийн нуурууд ямар ч өгөгдлийн маягттай ажиллах боломжтой тул эмзэг мэдээллийн төрлүүдийг хангахын тулд зохих өгөгдлийн аюулгүй байдал, засаглалын стандартыг боловсруулахад хэцүү байж болно.
Давуу тал
- Бүх төрлийн өгөгдөлд боломжийн үнэтэй шийдэл.
- Зохион байгуулалттай болон хагас бүтэцтэй өгөгдөлтэй ажиллах чадвартай.
- Нарийн төвөгтэй өгөгдөл боловсруулах, дамжуулахад тохиромжтой.
Байг
- Нарийвчилсан шугам хоолой барих шаардлагатай.
- Өгөгдлийг асууж болохуйц болгохын тулд хэсэг хугацаа өг.
- Өгөгдлийн найдвартай байдал, чанарыг баталгаажуулахад цаг хугацаа шаардагдана.
Data Lakehouse гэж юу вэ?
"Өгөгдлийн нуурын байшин" хэмээх шинэ том өгөгдлийн хадгалалтын архитектур нь өгөгдлийн нуур, мэдээллийн агуулахын хамгийн том талуудыг нэгтгэсэн. Дата нуурын байшингийн ачаар бүтэцтэй, хагас бүтэцтэй, бүтэцгүй бүх өгөгдлийг нэг байршилд хамгийн сайн машин сурах, бизнесийн оюун ухаан, дамжуулах чадвараар хадгалах боломжтой.
Бүх төрлийн өгөгдлийн нуурууд нь ихэвчлэн дата нуурын байшингийн эхлэлийн цэг болдог; Үүний дараа өгөгдлийг Delta Lake формат руу хөрвүүлдэг (өгөгдлийн нууруудын найдвартай байдлыг бий болгодог нээлттэй эхийн хадгалах давхарга).
Дельта нуур бүхий мэдээллийн нуурууд нь ердийн мэдээллийн агуулахаас ACID гүйлгээний процедурыг идэвхжүүлдэг. Үндсэндээ lakehouse систем нь дата нуур шиг асар их хэмжээний өгөгдлийг анхны хэлбэрээр нь хадгалахын тулд хямд хадгалалт ашигладаг.
Дэлгүүрийн дээд талд мета өгөгдлийн давхаргыг нэмэх нь өгөгдлийн бүтцийг бий болгож, мэдээллийн агуулахад байдаг өгөгдлийн менежментийн хэрэгслүүдийг идэвхжүүлдэг.
Энэ нь мэдээллийн шинжлэх ухаан, машин сургалт, бизнесийн оюун ухаан гэх мэт олон төрлийн санаачлагуудад зориулж нэг системээр дамжуулан олон баг компанийн бүх өгөгдөлд хандах боломжийг олгодог.
Data Lakehouse-ийн ашиг тус
- Илүү өргөн хүрээний ажлын ачааллыг дэмжих: Нарийвчилсан шинжилгээг хөнгөвчлөхийн тулд өгөгдлийн нуурууд нь хэрэглэгчдэд бизнесийн тагнуулын хамгийн алдартай хэрэгслүүдийг (Tableau, PowerBI) шууд ашиглах боломжийг олгодог. Нэмж дурдахад, мэдээллийн нуурууд нь Python/R гэх мэт API болон машин сургалтын тогтолцооны хамт нээлттэй өгөгдлийн форматыг (паркет гэх мэт) ашигладаг тул өгөгдөл судлаачид болон машин сургалтын инженерүүд өгөгдлийг хялбархан ашиглах боломжтой.
- Зардлын үр ашиг: Өгөгдлийн нууруудын хадгалалтын шинж чанарыг хэрэгжүүлэхийн тулд мэдээллийн нуурын байшингууд нь хямд объект хадгалах шийдлүүдийг ашигладаг. Ганц шийдлийг санал болгосноор дата нуурын байшингууд нь янз бүрийн өгөгдөл хадгалах системийг удирдахтай холбоотой зардал, цаг хугацааг багасгадаг.
- Өгөгдлийн нуурын байшингийн дизайн нь схем болон өгөгдлийн бүрэн бүтэн байдлыг баталгаажуулж, мэдээллийн аюулгүй байдал, засаглалын үр дүнтэй системийг бий болгоход хялбар болгодог. Хялбар өгөгдлийн хувилбар гаргах, засаглал, аюулгүй байдал.
- Дата нуурын байшингууд нь компанийн бүх мэдээллийн эрэлт хэрэгцээг хангахуйц нэг, олон зориулалттай өгөгдөл хадгалах платформыг санал болгодог бөгөөд энэ нь мэдээллийн давхардлыг бууруулдаг. Ихэнх бизнесүүд мэдээллийн агуулах болон мэдээллийн нуурын ашиг тусын улмаас эрлийз шийдлийг сонгодог. Энэ стратеги нь өндөр өртөгтэй мэдээллийн давхардлыг үүсгэж болзошгүй юм.
- Нээлттэй форматын дэмжлэг. Нээлттэй форматууд нь олон програм хангамжийн програмуудад ашиглагдах боломжтой файлын төрлүүд бөгөөд техникийн үзүүлэлтүүд нь нийтэд нээлттэй байдаг. Мэдээллийн дагуу Lakehouses нь Apache Parquet болон ORC (Optimized Row Columnar) зэрэг нийтлэг файлын форматаар өгөгдлийг хадгалах чадвартай.
Data Lakehouse-ийн хязгаарлалт
Data lakehouse-ийн хамгийн том дутагдал нь залуу, хөгжиж буй технологи хэвээр байгаа явдал юм. Үүний үр дүнд амлалтаа биелүүлэх эсэх нь тодорхойгүй байна. Өгөгдлийн нуурын байшингууд том өгөгдөл хадгалах системтэй өрсөлдөхөөс өмнө олон жил шаардагдана.
Гэсэн хэдий ч орчин үеийн инноваци хөгжиж буй хурдыг харгалзан өөр өгөгдөл хадгалах систем эцэст нь үүнийг орлохгүй гэдгийг хэлэхэд хэцүү байдаг.
Давуу тал
- Нэг платформ нь бүх өгөгдөлтэй бөгөөд энэ нь хадгалахад цөөн тооны хост нэр байдаг гэсэн үг юм.
- Атом чанар, тууштай байдал, тусгаарлалт, хатуулаг зэрэгт нөлөөлөхгүй.
- Энэ нь мэдэгдэхүйц илүү боломжийн үнэтэй юм.
- Нэг платформ нь бүх өгөгдөлтэй бөгөөд энэ нь хадгалахад цөөн тооны хост нэр байдаг гэсэн үг юм.
- Удирдахад хялбар, аливаа асуудлыг хурдан арилгах боломжтой
- Шугам хоолойг барихад хялбар болгох
Байг
- Тохируулахад хэсэг хугацаа зарцуулагдаж магадгүй.
- Энэ нь тогтсон хадгалалтын системд тэнцэхэд хэтэрхий залуу бөгөөд хэтэрхий хол байна.
Өгөгдлийн агуулах, Дата нуур, Дата Лейкхаус
Мэдээллийн агуулах нь корпорацийн тагнуул, тайлан, аналитик хэрэглээний олон жилийн түүхтэй бөгөөд том өгөгдөл хадгалах анхны технологи юм.
Нөгөөтэйгүүр мэдээллийн агуулах нь өндөр үнэтэй бөгөөд дамжуулалт гэх мэт олон янзын, бүтэцгүй өгөгдөлтэй ажиллахад бэрхшээлтэй байдаг. Машины сургалтын болон өгөгдлийн шинжлэх ухааны ажлын ачаалалд зориулж түүхий өгөгдлийг янз бүрийн хэлбэрээр, боломжийн хадгалах санг удирдах зорилгоор дата нууруудыг боловсруулсан.
Хэдийгээр өгөгдлийн нуурууд нь бүтэцгүй өгөгдөлтэй үр дүнтэй байдаг ч өгөгдлийн агуулахын ACID гүйлгээний чадвар байхгүй тул өгөгдлийн тогтвортой байдал, найдвартай байдлыг баталгаажуулахад хэцүү болгодог.
"Өгөгдлийн нуурын газар" гэгддэг хамгийн сүүлийн үеийн өгөгдөл хадгалах архитектур нь мэдээллийн агуулахуудын найдвартай байдал, тогтвортой байдлыг мэдээллийн нууруудын боломжийн болон дасан зохицох чадвартай хослуулсан.
Дүгнэлт
Дүгнэж хэлэхэд, дата нуурын байшинг эхнээс нь барих нь хэцүү байж магадгүй юм. Цаашилбал, та нээлттэй мэдээллийн нуурын байшингийн архитектурыг идэвхжүүлэх зорилготой платформыг ашиглах нь гарцаагүй.
Тиймээс, худалдан авалт хийхээсээ өмнө платформ бүрийн олон шинж чанар, хэрэгжилтийг сайтар судалж үзээрэй. Бизнесийн оюун ухаан, өгөгдлийн аналитик ашиглах тохиолдлуудад анхаарлаа төвлөрүүлсэн, төлөвшсөн, бүтэцлэгдсэн өгөгдлийн шийдлийг хайж буй компаниуд мэдээллийн агуулахыг авч үзэх боломжтой.
Гэсэн хэдий ч бүтэцгүй өгөгдөл дээр өгөгдлийн шинжлэх ухаан, машин сургалтын ажлын ачааллыг нэмэгдүүлэхийн тулд өргөтгөх боломжтой, боломжийн үнэтэй том өгөгдлийн шийдлийг хайж буй аж ахуйн нэгжүүд мэдээллийн нууруудыг анхаарч үзэх хэрэгтэй.
Танай бизнест өгөгдлийн агуулах, дата нуурын технологиос илүү их мэдээлэл хэрэгтэй, эсвэл та өөрийн өгөгдөл дээр нарийн аналитик болон машин сургалтын үйл ажиллагааг нэгтгэх шийдлийг хайж байна гэж бодоорой. А Data Lakehouse нөхцөл байдалд ухаалаг сонголт юм.
хариу үлдээх