Data Lakehouse - כל מה שאתה צריך לדעת

תוכן העניינים[להתחבא][הופעה]

מה זה Data Lakehouse?
תכונות
אלמנטים של Data Lakehouse
Data Lakehouse Architecture+-
היתרונות של Data Lakehouse
החסרונות של Data Lakehouse
אתגרים של Data Lakehouse
סיכום

זה עשוי להיות קצת קשה לשקול את כל השירותים והאפשרויות הארכיטקטוניות הזמינות כשחושבים על פלטפורמות נתונים.

פלטפורמת נתונים ארגוניים מורכבת לעתים קרובות ממחסני נתונים, מודלים של נתונים, אגמי נתונים ודוחות, לכל אחד מהם מטרה מסוימת ומערך מיומנויות נדרשות. לעומת זאת, עיצוב חדש בשם אגם הנתונים הופיע במהלך השנים האחרונות.

הרבגוניות של אגמי נתונים וניהול נתונים במחסני נתונים משולבים בארכיטקטורת אחסון נתונים מהפכנית המכונה "אגם נתונים".

נבחן לעומק את אגם הנתונים בפוסט זה, כולל מרכיביו, תכונותיו, הארכיטקטורה והיבטים אחרים שלו.

מה זה Data Lakehouse?

כפי שהשם מרמז, אגם נתונים הוא סוג חדש של ארכיטקטורת נתונים המשלבת אגם נתונים עם מחסן נתונים כדי לפתור את החסרונות של כל אחד בנפרד.

למעשה, מערכת ה-Lakehouse משתמשת באחסון זול כדי לשמור על כמויות אדירות של נתונים בצורותיהם המקוריות, בדומה לאגמי נתונים. הוספת שכבת המטא נתונים על גבי החנות גם מעניקה מבנה נתונים ומעצימה כלים לניהול נתונים כמו אלה שנמצאים במחסני נתונים.

Data Lakehouse

הוא מאחסן את הכמויות העצומות של נתונים מאורגנים, חצי מובנים ובלתי מובנים שהם מקבלים מהיישומים העסקיים, המערכות והגאדג'טים השונים המשמשים ברחבי הארגון שלהם.

רוב הזמן, אגמי נתונים משתמשים בתשתית אחסון בעלות נמוכה עם ממשק תכנות יישומי קבצים (API) כדי לאחסן נתונים בפורמטים פתוחים וגנריים של קבצים.

זה מאפשר לצוותים רבים לגשת לכל נתוני החברה באמצעות מערכת אחת עבור מגוון יוזמות, כגון מדע נתונים, למידת מכונה, ובינה עסקית.

תכונות

אחסון בעלות נמוכה. בית אגם נתונים חייב להיות מסוגל לאחסן נתונים באחסון אובייקטים זול, כגון Google Cloud אחסון, Azure Blob Storage, Amazon Simple Storage Service, או שימוש מקורי ב-ORC או פרקט.
יכולת אופטימיזציה של נתונים: אופטימיזציה של פריסת נתונים, אחסון במטמון ואינדקס הם כמה דוגמאות לאופן שבו בית אגם נתונים חייב להיות מסוגל לבצע אופטימיזציה של הנתונים תוך שמירה על הפורמט המקורי של הנתונים.
שכבה של מטא נתונים עסקיים: בנוסף לאחסון החיוני בעלות נמוכה, זה מאפשר יכולות ניהול נתונים חיוניות לביצועי מחסני הנתונים.
תמיכה ב-API Declarative DataFrame: רוב כלי הבינה המלאכותית יכולים להשתמש ב-DataFrames כדי לאחזר נתונים גולמיים של מאגר אובייקטים. תמיכה ב-Declarative DataFrame API מגדילה את היכולת לשפר באופן דינמי את הצגת הנתונים והמבנה בתגובה למשימת מדעי נתונים או בינה מלאכותית מסוימת.
תמיכה בעסקאות ACID: ראשי התיבות ACID, המייצגים אטומיות, עקביות, בידוד ועמידות, הם מרכיב קריטי בהגדרת עסקה ובהבטחת העקביות והאמינות של הנתונים. עסקאות כאלה היו אפשריות בעבר רק במחסני נתונים, אבל lakehouse מציעה אפשרות לנצל אותם עם אגמי נתונים גם כן. עם מספר צינורות נתונים הכוללים קריאה וכתיבה של נתונים במקביל, זה פותר את הבעיה של איכות נתונים נמוכה של האחרונים.

אלמנטים של Data Lakehouse

הארכיטקטורה של אגם הנתונים מחולקת לשני רבדים עיקריים ברמה גבוהה. צריכת הנתונים של שכבת האחסון נשלטת על ידי פלטפורמת Lakehouse (כלומר, אגם הנתונים).

מבלי צורך לטעון את הנתונים למחסן נתונים או להמיר אותם לפורמט קנייני, שכבת העיבוד יכולה לאחר מכן לבצע שאילתות על הנתונים בשכבת האחסון ישירות באמצעות מגוון כלים.

לאחר מכן, אפליקציות BI, כמו גם טכנולוגיות AI ו-ML, יכולות להשתמש בנתונים. הכלכלה של אגם נתונים מסופקת על ידי עיצוב זה, אך מכיוון שכל מנוע עיבוד יכול לקרוא נתונים אלה, לעסקים יש את החופש להפוך את הנתונים המוכנים לנגישים לניתוח על ידי מגוון מערכות. ניתן לשפר את הביצועים והעלות של המעבד על ידי שימוש בשיטה זו לעיבוד וניתוח.

בשל תמיכתה בטרנזקציות של מסד נתונים העומדות בקריטריונים הבאים של ACID (אטומיות, עקביות, בידוד ועמידות), הארכיטקטורה גם מאפשרת לגורמים רבים לגשת ולכתוב נתונים בו-זמנית בתוך המערכת:

אטומיות מתייחס לעובדה שהעסקה המלאה או אף אחת ממנה, מצליחה תוך כדי השלמת עסקה. במקרה שתהליך מופרע, זה עוזר למנוע אובדן נתונים או השחתה.
עֲקֵבִיוּת מבטיח שעסקאות מתרחשות באופן צפוי ועקבי. היא שומרת על שלמות הנתונים על ידי הבטחה שכל מידע הוא לגיטימי בהתאם לכללים שנקבעו מראש.
בדידות מבטיח שעד לסיום, שום עסקה לא יכולה להיות מושפעת מכל עסקה אחרת בתוך המערכת. זה מאפשר לגורמים רבים לקרוא ולכתוב מאותה מערכת בו זמנית מבלי להפריע זה לזה.
עמידות מבטיחה ששינויים בנתונים במערכת ימשיכו להתקיים לאחר סיום העסקה, גם במקרה של תקלה במערכת. כל שינוי שיגרם על ידי עסקה נשמר לעד.

Data Lakehouse Architecture

Databricks (המחדש והמעצב של קונספט Delta Lake שלהם) ו-AWS הם שני התומכים העיקריים בקונספט של אגם נתונים. לפיכך נסתמך על הידע והתובנות שלהם כדי לתאר את הפריסה האדריכלית של בתי אגם.

למערכת אגם נתונים תהיה בדרך כלל חמש שכבות:

שכבת בליעה
שכבת אחסון
שכבת מטא נתונים
שכבת API
שכבת צריכה

Data Lakehouse Architecture

שכבת בליעה

השכבה הראשונה של המערכת מופקדת על איסוף הנתונים ממקורות שונים ושליחתם לשכבת האחסון. השכבה יכולה להשתמש במספר פרוטוקולים כדי להתחבר למקורות פנימיים וחיצוניים רבים, כולל שילוב יכולות עיבוד נתונים אצווה וזרימת נתונים, כגון

מסדי נתונים של NoSQL,
שיתופי קבצים
יישומי CRM,
אתרי אינטרנט,
חיישני IoT,
מדיה חברתית,
יישומי תוכנה כשירות (SaaS), וכן
מערכות ניהול מסדי נתונים יחסיים וכו'.

בשלב זה, ניתן להשתמש ברכיבים כמו Apache Kafka להזרמת נתונים ושירות העברת נתונים של Amazon (Amazon DMS) לייבוא נתונים מ-RDBMS ו-NoSQL מסדי נתונים.

שכבת אחסון

ארכיטקטורת ה-Lakehouse נועדה לאפשר אחסון של סוגים שונים של נתונים כאובייקטים בחנויות אובייקטים זולות, כגון AWS S3. באמצעות פורמטים פתוחים של קבצים, כלי הלקוח יכולים לקרוא את הפריטים הללו ישירות מהחנות.

זה מאפשר לממשקי API ורכיבי שכבת צריכה רבים לגשת לאותם נתונים ולהשתמש בהם. שכבת המטא נתונים מאחסנת את הסכמות עבור מערכי נתונים מובנים ומובנים למחצה כך שהרכיבים יכולים להחיל אותם על הנתונים בזמן שהם קוראים אותם.

פלטפורמת Hadoop Distributed File System (HDFS), למשל, יכולה לשמש לבניית שירותי מאגר ענן המפצלים מחשוב ואחסון מקומיים. Lakehouse מתאים באופן אידיאלי לשירותים אלה.

שכבת מטא נתונים

שכבת המטא נתונים היא המרכיב הבסיסי של אגם נתונים המייחד את העיצוב הזה. זהו קטלוג יחיד המציע מטא נתונים (מידע על חלקי נתונים אחרים) עבור כל הפריטים המאוחסנים באגם ומאפשר למשתמשים להשתמש ביכולות ניהול כמו:

גרסה עקבית של מסד הנתונים נראית על ידי עסקאות במקביל הודות לעסקאות ACID;
שמירה במטמון לשמירת קבצי אחסון אובייקטים בענן;
הוספת אינדקסים של מבנה נתונים באמצעות אינדקס כדי להאיץ את עיבוד השאילתות;
שימוש בשיבוט אפס כדי לשכפל אובייקטי נתונים; ו
כדי לאחסן גרסאות מסוימות של הנתונים וכו', השתמש בניהול גרסאות נתונים.

בנוסף, שכבת המטא-נתונים מאפשרת הטמעת ניהול סכימה, שימוש בטופולוגיות של סכימות DW כמו סכימות כוכבים/פתיתי שלג, ומתן יכולת ניהול וביקורת נתונים ישירות על אגם הנתונים, מה שמשפר את שלמות צינור הנתונים כולו.

תכונות עבור התפתחות סכימה ואכיפה כלולות בניהול הסכימה. על ידי דחיית כל כתיבה שאינה עומדת בסכימה של הטבלה, אכיפת סכימה מאפשרת למשתמשים לשמור על שלמות ואיכות הנתונים.

התפתחות הסכימה מאפשרת לשנות את הסכימה הנוכחית של הטבלה כדי להתאים לנתונים משתנים. בשל ממשק ניהול יחיד על גבי אגם הנתונים, קיימות גם אפשרויות בקרת גישה וביקורת.

שכבת API

שכבה מכרעת נוספת של הארכיטקטורה קיימת כעת, המארח מספר ממשקי API שכל משתמשי הקצה יכולים להשתמש בהם כדי לבצע עבודות מהר יותר ולקבל נתונים סטטיסטיים מתוחכמים יותר.

השימוש בממשקי API של מטא נתונים מקל על זיהוי וגישה לפריטי הנתונים הדרושים ליישום נתון.

במונחים של ספריות למידת מכונה, חלק מהן, כמו TensorFlow ו-Spark MLlib, יכולות לקרוא פורמטים פתוחים של קבצים כמו Parquet ולגשת ישירות לשכבת המטא נתונים.

במקביל, ממשקי API של DataFrame מציעים סיכויים גדולים יותר לאופטימיזציה, ומאפשרים למתכנתים לארגן ולשנות נתונים מפוזרים.

שכבת צריכה

Power BI, Tableau וכלים ואפליקציות אחרים מתארחים תחת שכבת הצריכה. עם עיצוב ה-Lakehouse, כל המטא נתונים וכל הנתונים שנשמרים באגם נגישים לאפליקציות הלקוח.

בית האגם יכול לשמש את כל המשתמשים בחברה לביצוע כל מיני פעולות אנליטיות, כולל יצירת לוחות מחוונים של בינה עסקית והפעלת שאילתות SQL ומשימות למידת מכונה.

היתרונות של Data Lakehouse

ארגונים יכולים ליצור אגם נתונים כדי לאחד את פלטפורמת הנתונים הנוכחית שלהם ולייעל את כל תהליך ניהול הנתונים שלהם. על ידי פירוק מחסומי הסילו המחברים בין מקורות שונים, בית אגם נתונים יכול להחליף את הצורך בפתרונות שונים.

בהשוואה למקורות נתונים שנאספו, שילוב זה מייצר הליך מקצה לקצה יעיל יותר באופן משמעותי. יש לכך מספר יתרונות:

פחות אדמיניסטרציה: במקום לחלץ נתונים מנתונים גולמיים ולהכינם לשימוש בתוך מחסן נתונים, אגם נתונים מאפשר לכל מקורות המקושרים אליו לקבל את הנתונים שלהם זמינים ומאורגנים לשימוש.
עלות-תועלת מוגברת: בתי אגם נתונים נבנים באמצעות תשתית עכשווית המחלקת חישוב ואחסון, מה שמקל על הרחבת האחסון מבלי להגדיל את כוח המחשוב. רק השימוש באחסון נתונים זול מביא להרחבה חסכונית.
ניהול נתונים טוב יותר: בתי אגם נתונים בנויים עם ארכיטקטורה פתוחה סטנדרטית, המאפשרת שליטה רבה יותר על אבטחה, מדדים, גישה מבוססת תפקידים ורכיבי ניהול חשובים אחרים. על ידי איחוד משאבים ומקורות נתונים, הם מפשטים ומשפרים את הממשל.
תקנים פשוטים: מכיוון שהחיבור היה מוגבל מאוד בשנות ה-1980, כאשר פותחו לראשונה מחסני נתונים, תקני סכימה מקומיים פותחו לעתים קרובות בתוך עסקים, אפילו במחלקות. בתי אגם נתונים עושים שימוש בעובדה שלסוגים רבים של נתונים יש כעת סטנדרטים פתוחים לסכימה על ידי הטמעת מקורות נתונים רבים עם הסכימה האחידה החופפת כדי לייעל נהלים.

החסרונות של Data Lakehouse

למרות כל ההוללות סביב בתי אגם נתונים, חשוב לזכור שהרעיון עדיין חדש מאוד. הקפד לשקול את החסרונות לפני שאתה מתחייב לחלוטין לעיצוב החדש הזה.

מבנה מונוליטי: עיצוב הכל כלול של בית אגם מציע כמה יתרונות, אבל הוא גם מעלה כמה בעיות. ארכיטקטורה מונוליטית מובילה לרוב לשירות לקוי לכל המשתמשים ויכולה להיות קשיחה וקשה לתחזוקה. בדרך כלל, אדריכלים ומעצבים אוהבים ארכיטקטורה מודולרית יותר שהם יכולים להתאים אישית למקרי שימוש שונים.
הטכנולוגיה עדיין לא ממש שם: המטרה הסופית כרוכה בכמות משמעותית של למידת מכונה ובינה מלאכותית. לפני שבתי אגמים יוכלו לפעול כמצופה, טכנולוגיות אלה חייבות להתפתח עוד יותר.
לא התקדמות משמעותית על פני מבנים קיימים: עדיין יש ספקנות רבה לגבי כמה יותר ערך ביתי אגם באמת יתרמו. חלק מהמתנגדים טוענים שעיצוב של מחסן אגם בשילוב עם הציוד האוטומטי המתאים יכול להשיג יעילות דומה.

אתגרים של Data Lakehouse

זה יכול להיות קשה לאמץ את טכניקת אגם הנתונים. בשל המורכבות של החלקים המרכיבים אותו, זה לא נכון לראות את אגם הנתונים כמבנה אידיאלי כולל-כל או "פלטפורמה אחת לכל דבר", עבור אחד.

בנוסף, עקב האימוץ ההולך וגובר של אגמי נתונים, עסקים יצטרכו להעביר אליהם את מחסני הנתונים הנוכחיים שלהם, תוך הסתמכות רק על הבטחה להצלחה ללא תועלת כלכלית ניכרת.

אם ישנן בעיות חביון או הפסקות כלשהן במהלך תהליך ההעברה, הדבר עלול להיות יקר, גוזל זמן ואולי לא בטוח.

משתמשים עסקיים חייבים לאמץ טכנולוגיות מיוחדות מאוד, על פי ספקים מסוימים המשווקים במפורש או במרומז פתרונות כמאגרי מידע. ייתכן שהם לא תמיד יעבדו עם כלים אחרים המקושרים לאגם הנתונים במרכז המערכת, מה שמוסיף לבעיות.

בנוסף, ייתכן שיהיה קשה לספק ניתוח 24/7 תוך כדי הפעלת עומסי עבודה קריטיים לעסקים, המצריכים תשתית עם מדרגיות חסכונית.

סיכום

המגוון החדש ביותר של מרכזי נתונים בשנים האחרונות הוא ה-Data Lakehouse. הוא משלב מגוון תחומים, כגון טכנולוגיית מידע, תוכנות קוד פתוח, ענן מחשוב, ופרוטוקולי אחסון מבוזרים.

זה מאפשר לעסקים לאחסן באופן מרכזי את כל סוגי הנתונים מכל מקום, מה שמפשט את הניהול והניתוח. Data Lakehouse הוא רעיון די מסקרן.

לכל חברה תהיה יתרון תחרותי משמעותי אם הייתה לה גישה לפלטפורמת נתונים הכל-באחד שהייתה מהירה ויעילה כמו מחסן נתונים תוך גמישות כמו אגם נתונים.

הרעיון עדיין מתפתח ונשאר חדש יחסית. כתוצאה מכך, יכול לקחת זמן מה כדי לקבוע אם משהו יכול להתפשט או לא.

כולנו צריכים להיות סקרנים לגבי הכיוון שאליו הולכת ארכיטקטורת Lakehouse.

Data Lakehouse - כל מה שאתה צריך לדעת

מה זה Data Lakehouse?

תכונות

אלמנטים של Data Lakehouse