תוכן העניינים[להתחבא][הופעה]
Data Lakehouses משלבים את קונספט מחסן הנתונים ו- Data Lake עבור עסקים.
כלים אלה מאפשרים לך לבנות פתרונות אחסון נתונים חסכוניים על ידי שילוב יכולות הניהול של אגמי נתונים עם ארכיטקטורת הנתונים המצויה במחסני נתונים.
בנוסף, יש הפחתה בהעברת נתונים וביתירות, פחות זמן מושקע בניהול, ונהלי סכימה וניהול נתונים קצרים יותר הופכים למציאות.
לאגם נתונים אחד יש יתרונות רבים בהשוואה למערכת אחסון עם מספר פתרונות.
כלים אלה עדיין משמשים מדעני נתונים כדי לשפר את הבנתם של בינה עסקית ולמידת מכונה.
מאמר זה יסתכל במהירות על data lakehouse, היכולות שלו והכלים הזמינים.
מבוא ל-Data Lakehouse
סוג חדש של ארכיטקטורת נתונים בשם "data lakehouse"משלב אגם נתונים ומחסן נתונים כדי לטפל בחולשות של כל אחד באופן עצמאי.
מערכת ה-Lakehouse, כמו אגמי נתונים, משתמשת באחסון בעלות נמוכה כדי לשמור כמויות אדירות של נתונים בצורתו המקורית.
התוספת של שכבת מטא נתונים על גבי החנות מספקת גם מבנה נתונים ומעצימה כלים לניהול נתונים דומים לאלה המצויים במחסני נתונים.
הוא מכיל כמויות אדירות של נתונים מובנים, חצי מובנים ובלתי מובנים המתקבלים מהיישומים העסקיים, המערכות וההתקנים השונים המשמשים ברחבי הארגון.
כתוצאה מכך, בניגוד לאגמי נתונים, מערכת ה-Lakehouse יכולה לנהל ולבצע אופטימיזציה של נתונים אלה עבור ביצועי SQL.
יש לו גם את היכולת לאחסן ולעבד כמויות גדולות של נתונים מגוונים בעלות זולה יותר ממחסני נתונים.
אגם נתונים שימושי כאשר אתה צריך לבצע גישה לנתונים או ניתוח כלשהו כנגד נתונים כלשהם, אך אינך בטוח בנתונים או בניתוח המומלץ.
ארכיטקטורת בית אגם תתפקד די טוב אם הביצועים אינם הדאגה העיקרית.
זה לא אומר שאתה צריך לבסס את כל המבנה שלך על בית אגם.
ניתן למצוא מידע נוסף על איך לבחור אגם נתונים, אגם, מחסן נתונים או מסד נתונים ניתוח מיוחד עבור כל מקרה שימוש. כאן.
תכונות של Data Lakehouse
- קריאה וכתיבה של נתונים במקביל
- יכולת הסתגלות ומדרגיות
- סיוע בסכימה עם כלים לניהול נתונים
- קריאה וכתיבה של נתונים במקביל
- אחסון במחיר סביר
- כל סוגי הנתונים ופורמטי הקבצים נתמכים.
- גישה לכלי מדעי נתונים ולמידת מכונה שעברו אופטימיזציה
- צוותי הנתונים שלך ייהנו מגישה למערכת אחת בלבד כדי להעביר דרכה עומסי עבודה בצורה מהירה ומדויקת יותר.
- יכולות בזמן אמת ליוזמות בתחום מדעי הנתונים, למידת מכונה וניתוח
חמשת הכלים המובילים של Data Lakehouse
דאטבריקס
Databricks, שהוקמה על ידי מי שפיתח לראשונה את Apache Spark ויצר אותו קוד פתוח, מספק שירות Apache Spark מנוהל וממוקם כפלטפורמה לאגמי נתונים.
רכיבי אגם הנתונים, אגם הדלתא ומנוע הדלתא של ארכיטקטורת האגם של Databricks מאפשרים מקרי שימוש בבינה עסקית, מדעי נתונים ולמידת מכונה.
אגם הנתונים הוא מאגר אחסון ענן ציבורי.
עם תמיכה בניהול מטא נתונים, עיבוד נתונים אצווה וזרימה עבור מערכי נתונים מרובים, גילוי נתונים, בקרות גישה בטוחות וניתוח SQL.
Databricks מציעה את רוב פונקציות אחסון הנתונים שניתן לצפות לראות בפלטפורמת אגם נתונים.
Databricks חשפה לאחרונה את ה-Auto Loader שלה, שממכן ETL וקלט נתונים וממנף דגימת נתונים כדי להסיק את הסכימה עבור מגוון סוגי נתונים, על מנת לספק את המרכיבים החיוניים של אסטרטגיית אחסון אגם הנתונים.
לחילופין, משתמשים יכולים לבנות צינורות ETL בין אגם הנתונים הענן הציבורי שלהם לאגם Delta באמצעות Delta Live Tables.
על הנייר, נראה כי ל-Databricks יש את כל היתרונות, אך הקמת הפתרון ויצירת צינורות הנתונים שלו דורשים עבודה אנושית רבה ממפתחים מיומנים.
בקנה מידה, התשובה גם הופכת מורכבת יותר. זה יותר מסובך ממה שזה נראה.
אחנה
אגם נתונים הוא מיקום יחיד ומרכזי שבו אתה יכול לאחסן כל סוג של נתונים שתבחר בקנה מידה, כולל נתונים לא מובנים ומובנים. AWS S3, Microsoft Azure ו-Google Cloud Storage הם שלושה אגמי נתונים נפוצים.
אגמי נתונים אהודים להפליא מכיוון שהם נוחים מאוד ופשוטים לשימוש; אתה יכול בעצם לאחסן כמה שיותר מכל סוג של נתונים שתרצה תמורת מעט מאוד כסף.
אבל אגם הנתונים אינו מציע כלים מובנים כמו ניתוח, שאילתה וכו'.
אתה צריך מנוע שאילתות וקטלוג נתונים על גבי אגם הנתונים (שם נכנסת Ahana Cloud) כדי לבצע שאילתות בנתונים שלך ולהשתמש בהם.
עם המיטב מ-Data Warehouse וגם מ-Data Lake, התפתח עיצוב אגם נתונים חדש.
זה מצביע על כך שהוא שקוף, ניתן להתאמה, בעל מחיר/ביצועים טובים, קנה מידה כמו אגם נתונים תומך בעסקאות ובעל רמת אבטחה גבוהה המשתווה למחסן נתונים.
מנוע השאילתות SQL בעל הביצועים הגבוהים שלך הוא המוח מאחורי Data Lakehouse. בגלל זה, אתה יכול לבצע ניתוחים בעלי ביצועים גבוהים על נתוני אגם הנתונים שלך.
Ahana Cloud for Presto הוא SaaS for Presto ב-AWS, מה שהופך את זה לפשוט להפליא להתחיל להשתמש ב-Presto בענן.
עבור אגם הנתונים מבוסס S3 שלך, לאחנה כבר יש קטלוג נתונים מובנה ואחסון במטמון. Ahana נותנת לך את התכונות של Presto מבלי לדרוש ממך להתמודד עם התקורה כי היא עושה זאת באופן פנימי.
AWS Lake Formation, Apache Hudi ו-Delta Lake הם רק כמה ממנהלי העסקאות שהם חלק מהמחסנית ומשתלבים איתה.
דרמיו
ארגונים שואפים להעריך במהירות, בפשטות וביעילות כמויות אדירות של נתונים שעולים במהירות.
דרמיו מאמינה כי בית אגם נתונים פתוח משלב את היתרונות של אגמי נתונים ומחסני נתונים על בסיס פתוח הוא הגישה הטובה ביותר להשיג זאת.
פלטפורמת Lakehouse של Dremio מספקת חוויה שעובדת עבור כולם, עם ממשק משתמש קל המאפשר למשתמשים לבצע ניתוחים בשבריר מהזמן.
Dremio Cloud, פלטפורמת אגם נתונים מנוהלת במלואה, והשקה של שני שירותים חדשים: Dremio Sonar, מנוע שאילתות לאגם, ו-Dremio Arctic, מגה-חנות חכמה עבור Apache Iceberg המספקת חוויה ייחודית דמוית Git עבור ה-Lakehouse.
ניתן להפעיל את כל עומסי העבודה של ה-SQL של הארגון על פלטפורמת Dremio Cloud הניתנת להרחבה ללא חיכוכים, אשר גם הופכת משימות ניהול נתונים לאוטומטיות.
הוא בנוי עבור SQL, מציע חוויה דמוית Git, הוא קוד פתוח ותמיד חינמי.
הם יצרו אותה כדי להיות פלטפורמת ה-Lakehouse שצוותי נתונים מעריצים.
תוך שימוש בפורמטים של טבלאות וקבצים בקוד פתוח כמו Apache Iceberg ו- Apache Parquet, הנתונים שלך קבועים באחסון אגם הנתונים שלך בעת השימוש ב-Dremio Cloud.
ניתן לאמץ בקלות חידושים עתידיים, וניתן לבחור את המנוע המתאים על סמך עומס העבודה שלך.
פְּתִית שֶׁלֶג
Snowflake היא פלטפורמת נתונים וניתוח ענן שיכולה לענות על הצרכים של אגמי נתונים ומחסנים.
זה התחיל כמערכת מחסני נתונים הבנויה על תשתית ענן.
הפלטפורמה מורכבת ממאגר אחסון מרכזי שיושב על גבי אחסון ענן ציבורי מ-AWS, Microsoft Azure או Google Cloud Platform (GCP).
לאחר מכן, שכבת חישוב מרובה אשכולות, שבה משתמשים יכולים להפעיל מחסן נתונים וירטואלי ולבצע שאילתות SQL כנגד אחסון הנתונים שלהם.
הארכיטקטורה מאפשרת ניתוק משאבי אחסון ומחשוב, ומאפשרת לארגונים להתאים את השניים באופן עצמאי לפי הצורך.
לבסוף, Snowflake מספקת שכבת שירות עם סיווג מטא נתונים, ניהול משאבים, ניהול נתונים, עסקאות ותכונות אחרות.
מחברי כלי BI, ניהול מטא נתונים, בקרות גישה ושאילתות SQL הם רק חלק מהפונקציונליות של מחסני הנתונים שהפלטפורמה מצטיינת בהציעה.
Snowflake, לעומת זאת, מוגבל למנוע שאילתות מבוסס SQL יחסי אחד.
כתוצאה מכך, זה הופך לפשוט יותר לניהול אך פחות מותאם, וחזון אגם הנתונים הרב-מודלי אינו מתממש.
בנוסף, לפני שניתן יהיה לחפש או לנתח נתונים מאחסון ענן, Snowflake דורש מעסקים לטעון אותם לשכבת אחסון מרכזית.
הליך צנרת הנתונים הידני מחייב ETL, הקצאה ועיצוב נתונים לפני שניתן לבחון אותו. הגדלה של תהליכים ידניים אלה הופכת אותם לתסכול.
אפשרות נוספת שנראית כמתאימה על הנייר אך למעשה, חורגת מעיקרון אגם הנתונים של קלט נתונים פשוט הוא ה-data lakehouse של Snowflake.
אורקל
ארכיטקטורה מודרנית ופתוחה המכונה "בית אגם נתונים" מאפשרת לאחסן, להבין ולנתח את כל הנתונים שלך.
הרוחב והגמישות של פתרונות הקוד הפתוח האהובים ביותר על פתרונות נתונים משולבים עם החוזק והעומק של מחסני הנתונים.
ניתן להשתמש במסגרות הבינה המלאכותית החדשות ביותר ובשירותי הבינה המלאכותית המובנים מראש עם אגם נתונים בתשתית הענן של אורקל (OCI).
ניתן לעבוד עם סוגי נתונים נוספים תוך שימוש באגם נתונים בקוד פתוח. אבל הזמן והמאמץ הנדרשים כדי לנהל אותו עלולים להיות חיסרון מתמשך.
OCI מציעה שירותי קוד פתוח מנוהלים במלואם בתעריפים נמוכים יותר ועם פחות ניהול, מה שמאפשר לך לצפות הוצאות תפעול נמוכות יותר, מדרגיות ואבטחה טובים יותר, ויכולת לאחד את כל הנתונים הקיימים שלך במיקום אחד.
אגם נתונים יגדיל את הערך של מחסני נתונים ומרטים, שהם חיוניים לארגונים מצליחים.
ניתן לאחזר נתונים באמצעות בית אגם ממספר מיקומים באמצעות שאילתת SQL אחת בלבד.
תוכניות וכלים קיימים מקבלים גישה שקופה לכל הנתונים ללא צורך בהתאמות או רכישת מיומנויות חדשות.
סיכום
הצגת פתרונות Data Lakehouse היא השתקפות של מגמה גדולה יותר בביג דאטה, שהיא שילוב של אנליטיקה ואחסון נתונים בפלטפורמות נתונים מאוחדות כדי למקסם את הערך העסקי מהנתונים תוך הפחתת הזמן, העלות והמורכבות של מיצוי הערך.
פלטפורמות כולל Databricks, Snowflake, Ahana, Dremio ו-Oracle כולן נקשרו לרעיון של "Data Lakehouse", אבל לכל אחת יש סט ייחודי של תכונות ונטייה לתפקד יותר כמו מחסן נתונים מאשר אגם נתונים אמיתי. כשלם.
כאשר פתרון משווק כ"בית אגם נתונים", עסקים צריכים להיזהר מה משמעותו בפועל.
ארגונים צריכים להסתכל מעבר לז'רגון השיווקי כמו "data lakehouse" ובמקום זאת לבדוק את התכונות של כל פלטפורמה כדי לבחור את פלטפורמת הנתונים הטובה ביותר שתתרחב עם העסקים שלהם בעתיד.
השאירו תגובה