טיש פון קאָנטענץ[באַהאַלטן][ווייַזן]
דאַטאַ לאַכאַוסיז פאַרבינדן די דאַטן ווערכאַוס און דאַטן אָזערע קאַנסעפּס פֿאַר געשעפטן.
די מכשירים לאָזן איר בויען קאָס-עפעקטיוו דאַטן סטאָרידזש סאַלושאַנז דורך קאַמביינינג די פאַרוואַלטונג קייפּאַבילאַטיז פון דאַטן לאַקעס מיט די דאַטן אַרקאַטעקטשער געפֿונען אין דאַטן ווערכאַוזיז.
אין דערצו, עס איז אַ רעדוקציע אין דאַטן מיגראַטיאָן און יבעריקייַט, ווייניקער צייט איז פארבראכט צו אַדמיניסטרירן, און קירצער סטשעמאַ און דאַטן גאַווערנאַנס פּראָוסידזשערז ווערן אַ פאַקט.
איין דאַטן לאַקעהאָוסע האט פילע אַדוואַנטידזשיז קאַמפּערד מיט אַ סטאָרידזש סיסטעם מיט עטלעכע סאַלושאַנז.
די מכשירים זענען נאָך געניצט דורך דאַטן סייאַנטיס צו פֿאַרבעסערן זייער פארשטאנד פון געשעפט סייכל און מאַשין לערנען פּראָוסידזשערז.
דער אַרטיקל וועט נעמען אַ שנעל קוק אין דאַטן לאַקעהאָוסע, זייַן קייפּאַבילאַטיז און די בנימצא מכשירים.
הקדמה צו Data Lakehouse
א נייַע סאָרט פון דאַטן אַרקאַטעקטשער גערופן אַ "דאַטן לאַקעהאָוסע” קאַמביינז אַ דאַטן אָזערע און אַ דאַטן ווערכאַוס צו אַדרעס די וויקנאַסאַז פון יעדער ינדיפּענדאַנטלי.
די לאַקעהאָוסע סיסטעם, ווי דאַטן לאַקעס, ניצט נידעריק-קאָסטן סטאָרידזש צו האַלטן ריזיק אַמאַונץ פון דאַטן אין זיין אָריגינעל פאָרעם.
די אַדישאַן פון אַ מעטאַדאַטאַ שיכטע אויף שפּיץ פון די קראָם אויך גיט דאַטן סטרוקטור און ימפּאַוערז דאַטן פאַרוואַלטונג מכשירים ענלעך צו די געפֿונען אין דאַטן ווערכאַוזיז.
עס כּולל מאַסיוו אַמאַונץ פון סטראַקטשערד, האַלב-סטראַקטשערד און אַנסטראַקטשערד דאַטן באקומען פון די פאַרשידן געשעפט אַפּלאַקיישאַנז, סיסטעמען און דעוויסעס געניצט איבער די פאַרנעמונג.
ווי אַ רעזולטאַט, ניט ענלעך דאַטן לאַקעס, די לייקכאַוס סיסטעם קענען פירן און אַפּטאַמייז די דאַטן פֿאַר סקל פאָרשטעלונג.
עס אויך האט די פיייקייט צו קראָם און פּראָצעס גרויס אַמאַונץ פון דייווערס דאַטן צו אַ טשיפּער פּרייַז ווי דאַטן ווערכאַוזיז.
א דאַטן לאַקעהאָוסע איז נוציק ווען איר דאַרפֿן צו ויספירן קיין דאַטן אַקסעס אָדער אַנאַליטיקס קעגן קיין דאַטן, אָבער איר זענט נישט זיכער וועגן די דאַטן אָדער רעקאַמענדיד אַנאַליטיקס.
א לייקאָוסע אַרקאַטעקטשער וועט פונקציאָנירן גאַנץ גוט אויב פאָרשטעלונג איז נישט אַ ערשטיק דייַגע.
דאָס טוט נישט מיינען אַז איר זאָל באַזע דיין גאנצע סטרוקטור אויף אַ לאַקכאַוס.
איר קענט געפֿינען מער אינפֿאָרמאַציע וועגן ווי צו אויסקלייַבן אַ דאַטן אָזערע, לאַקעהאָוסע, דאַטן ווערכאַוס אָדער ספּעשאַלייזד אַנאַליטיקס דאַטאַבייס פֿאַר יעדער נוצן. דאָ.
פֿעיִקייטן פון Data Lakehouse
- קאַנקעראַנט דאַטן לייענען און שרייבן
- אַדאַפּטאַבילאַטי און סקאַלאַביליטי
- סכעמע הילף מיט דאַטן גאַווערנאַנס מכשירים
- קאַנקעראַנט דאַטן לייענען און שרייבן
- סטאָרידזש וואָס איז אַפאָרדאַבאַל
- כל דאַטן טייפּס און טעקע פֿאָרמאַטירונגען זענען געשטיצט.
- אָפּטימיזעד אַקסעס צו דאַטן וויסנשאַפֿט און מאַשין לערנען מכשירים
- דיין דאַטן טימז וועט נוץ פון אַקסעס צו בלויז איין סיסטעם צו אַריבערפירן ווערקלאָודז דורך עס מער געשווינד און אַקיעראַטלי.
- פאַקטיש-צייט קייפּאַבילאַטיז פֿאַר ינישאַטיווז אין דאַטן וויסנשאַפֿט, מאַשין לערנען און אַנאַליטיקס
Top 5 Data Lakehouse מכשירים
דאַטאַבריקס
דאַטאַבריקס, וואָס איז געגרינדעט דורך דער מענטש וואָס ערשטער דעוועלאָפּעד אַפּאַטשי ספּאַרק און געמאכט עס עפענען מקור, גיט אַ געראטן Apache Spark דינסט און איז פּאַזישאַנד ווי אַ פּלאַטפאָרמע פֿאַר דאַטן לאַקעס.
די דאַטן אָזערע, דעלטע אָזערע און דעלטע מאָטאָר קאַמפּאָונאַנץ פון די Databricks לייקאָוסע אַרקאַטעקטשער געבן געשעפט סייכל, דאַטן וויסנשאַפֿט און מאַשין לערנען נוצן קאַסעס.
די דאַטן אָזערע איז אַ עפנטלעך וואָלקן סטאָרידזש ריפּאַזאַטאָרי.
מיט שטיצן פֿאַר מעטאַדאַטאַ פאַרוואַלטונג, פּעקל און סטרים דאַטן פּראַסעסינג פֿאַר מולטי-סטראַקטשערד דאַטאַסעץ, דאַטן ופדעקונג, זיכער אַקסעס קאָנטראָלס און SQL אַנאַליטיקס.
Databricks אָפפערס רובֿ פון די דאַטן ווערכאַוזינג פאַנגקשאַנז וואָס מען קען דערוואַרטן צו זען אין אַ דאַטן לאַקעהאָוסע פּלאַטפאָרמע.
Databricks האָט לעצטנס אַנוויילד זיין אַוטאָ לאָודער, וואָס אָטאַמייץ ETL און דאַטן אַרייַנשרייַב און לעוועראַדזשאַז דאַטן מוסטערונג צו אָפּשיקן די סכעמע פֿאַר פאַרשידן דאַטן טייפּס, צו צושטעלן די יקערדיק קאַמפּאָונאַנץ פון די סטאָרידזש סטראַטעגיע פֿאַר דאַטן אָזערע.
אַלטערנאַטיוועלי, יוזערז קענען בויען ETL פּייפּליינז צווישן זייער עפנטלעך וואָלקן דאַטן אָזערע און Delta Lake ניצן Delta Live Tables.
אויף פּאַפּיר, Databricks סימז צו האָבן אַלע די אַדוואַנטידזשיז, אָבער באַשטעטיקן די לייזונג און קריייטינג זייַן דאַטן פּייפּליינז ריקווייערז אַ פּלאַץ פון מענטש אַרבעט פון באָקע דעוועלאָפּערס.
אין וואָג, דער ענטפער אויך ווערט מער קאָמפּליצירט. עס איז מער קאָמפּליצירט ווי עס מיינט.
אַהאַנאַ
א דאַטן אָזערע איז אַ איין, הויפט אָרט ווו איר קענען קראָם וועלכער טיפּ פון דאַטן איר קלייַבן אין וואָג, אַרייַנגערעכנט אַנסטראַקטשערד און סטראַקטשערד דאַטן. AWS S3, Microsoft Azure און Google Cloud Storage זענען דריי פּראָסט דאַטן לאַקעס.
דאַטאַ לאַקעס זענען ינקרעדאַבלי געזונט-לייקט ווייַל זיי זענען זייער אַפאָרדאַבאַל און פּשוט צו נוצן; איר קענען יסענשאַלי קראָם ווי פיל פון קיין טיפּ פון דאַטן ווי איר ווילט פֿאַר זייער קליין געלט.
אָבער די דאַטן אָזערע אָפפערס נישט געבויט-אין מכשירים ווי אַנאַליטיקס, אָנפֿרעג, עטק.
איר דאַרפֿן אַ אָנפֿרעג מאָטאָר און דאַטן קאַטאַלאָג אויף שפּיץ פון די דאַטן אָזערע (ווו Ahana Cloud קומט אין) צו אָנפֿרעג דיין דאַטן און נוצן עס.
מיט דער בעסטער פון ביידע די דאַטאַ וואַרעהאָוסע און די דאַטאַ לייק, אַ נייַ דאַטן לאַקעהאָוסע פּלאַן איז דעוועלאָפּעד.
דאָס ינדיקייץ אַז עס איז טראַנספּעראַנט, אַדאַפּטאַבאַל, האט אַ גוט פּרייַז / פאָרשטעלונג, וואָג ווי אַ דאַטן אָזערע שטיצט טראַנזאַקשאַנז און האט אַ הויך זיכערהייט מדרגה פאַרגלייַכלעך צו אַ דאַטן ווערכאַוס.
דיין הויך-פאָרשטעלונג SQL אָנפֿרעג מאָטאָר איז די סייכל הינטער די Data Lakehouse. ווייַל פון דעם, איר קענען ויספירן הויך-פאָרשטעלונג אַנאַליטיקס אויף דיין דאַטן אָזערע דאַטן.
Ahana Cloud for Presto איז SaaS פֿאַר Presto אויף AWS, וואָס מאכט עס ינקרעדאַבלי פּשוט צו אָנהייבן ניצן Presto אין די וואָלקן.
פֿאַר דיין S3-באזירט דאַטן אָזערע, Ahana האט שוין אַ געבויט-אין דאַטן קאַטאַלאָג און קאַטשינג. Ahana גיט איר די פֿעיִקייטן פון Presto אָן ריקוויירינג איר צו שעפּן די אָוווערכעד ווייַל עס טוט עס ינעווייניק.
AWS לייק פאָרמאַטיאָן, אַפּאַטשי הודי און דעלטאַ לייק זענען בלויז אַ ביסל פון די טראַנסאַקטיאָן מאַנאַדזשערז וואָס זענען טייל פון די אָנלייגן און ויסשטימען מיט אים.
דרעמיאָ
אָרגאַנאַזיישאַנז זוכן צו געשווינד, פשוט און יפישאַנטלי אָפּשאַצן מאַסיוו אַמאַונץ פון ראַפּאַדלי רייזינג דאַטן.
Dremio גלויבט אַז אַן אָפֿן דאַטן לאַקעהאָוסע קאַמביינז די בענעפיץ פון דאַטן לאַקעס און דאַטן ווערכאַוסיז אויף אַן אָפֿן יקער איז דער בעסטער צוגאַנג צו דערגרייכן דעם.
Dremio's lakehouse פּלאַטפאָרמע גיט אַן דערפאַרונג וואָס אַרבעט פֿאַר אַלעמען, מיט אַן גרינג וי וואָס אַלאַוז ניצערס צו פאַרענדיקן אַנאַליזעס אין אַ בראָכצאָל פון די צייט.
Dremio Cloud, אַ גאָר געראטן דאַטן לאַקעהאָוסע פּלאַטפאָרמע, און די קאַטער פון צוויי נייַע באַדינונגס: Dremio Sonar, אַ לאַקעהאָוסע אָנפֿרעג מאָטאָר, און Dremio Arctic, אַן ינטעליגענט מעגאַסטאָר פֿאַר Apache Iceberg וואָס דיליווערז אַ יינציק גיט-ווי דערפאַרונג פֿאַר די לייקכאַוס.
אַלע די SQL ווערקלאָודז פון אַן אָרגאַניזאַציע קענען זיין לויפן אויף די רייַבונג, ענדלאַסלי סקאַלאַבלע Dremio Cloud פּלאַטפאָרמע, וואָס אויך אָטאַמייץ דאַטן פאַרוואַלטונג טאַסקס.
עס איז געבויט פֿאַר SQL, אָפפערס אַ גיט-ווי דערפאַרונג, איז אָפֿן מקור און איז שטענדיק פריי.
זיי באשאפן עס צו זיין די לאַקעהאָוסע פּלאַטפאָרמע וואָס דאַטן טימז אַדאָר.
ניצן אָפֿן מקור טיש און טעקע פֿאָרמאַטירונגען ווי Apache Iceberg און Apache Parquet, דיין דאַטן זענען פּערסיסטענט אין דיין אייגענע דאַטן אָזערע סטאָרידזש ווען איר נוצן Dremio Cloud.
צוקונפֿט ינאָווויישאַנז קענען זיין לייכט אנגענומען, און די רעכט מאָטאָר קענען זיין אויסדערוויילט באזירט אויף דיין ווערקלאָוד.
שנייעלע
Snowflake איז אַ וואָלקן דאַטן און אַנאַליטיקס פּלאַטפאָרמע וואָס קענען טרעפן די באדערפענישן פון דאַטן לאַקעס און ווערכאַוזיז.
עס אנגעהויבן ווי אַ דאַטן ווערכאַוס סיסטעם געבויט אויף וואָלקן ינפראַסטראַקטשער.
די פּלאַטפאָרמע קאַמפּרייזיז פון אַ סענטראַלייזד סטאָרידזש ריפּאַזאַטאָרי וואָס זיצט אויף שפּיץ פון עפנטלעך וואָלקן סטאָרידזש פֿון AWS, Microsoft Azure אָדער Google Cloud Platform (GCP).
דערנאָך איז אַ מאַלטי-קנויל קאַמפּיאַטיישאַן שיכטע, ווו יוזערז קענען קאַטער אַ ווירטואַל דאַטן ווערכאַוס און אָנפירן SQL קוויריז קעגן זייער דאַטן סטאָרידזש.
די אַרקאַטעקטשער אַלאַוז דיקאָופּלינג סטאָרידזש און קאַמפּיאַטיישאַן רעסורסן, אַלאַוינג אָרגאַנאַזיישאַנז צו וואָג די צוויי ינדיפּענדאַנטלי ווי דארף.
צום סוף, Snowflake גיט אַ סערוויס שיכטע מיט מעטאַדאַטאַ קאַטאַגעריזיישאַן, מיטל פאַרוואַלטונג, דאַטן גאַווערנאַנס, טראַנזאַקשאַנז און אנדערע פֿעיִקייטן.
BI געצייַג קאַנעקטערז, מעטאַדאַטאַ פאַרוואַלטונג, אַקסעס קאָנטראָלס און SQL קוויריז זענען בלויז אַ ביסל פון די פאַנגקשאַנאַליטי פון דאַטן ווערכאַוס וואָס די פּלאַטפאָרמע יקסעלז אין פאָרשלאָגן.
שנייעלע, אָבער, איז לימיטעד צו אַ איין ריליישאַנאַל סקל-באזירט אָנפֿרעג מאָטאָר.
ווי אַ רעזולטאַט, עס ווערט סימפּלער צו פירן אָבער ווייניקער אַדאַפּטאַבאַל, און די זעאונג פון מאַלטי-מאָדעל דאַטן אָזערע איז נישט איינגעזען.
אַדדיטיאָנאַללי, איידער דאַטן פון וואָלקן סטאָרידזש קענען זיין געזוכט אָדער אַנאַלייזד, Snowflake ריקווייערז געשעפטן צו מאַסע עס אין אַ סענטראַלייזד סטאָרידזש שיכטע.
די מאַנואַל דאַטן פּייפּליינינג פּראָצעדור דאַרף פריערדיק ETL, פּראַוויזשאַנז און דאַטן פאָרמאַטטינג איידער עס קענען זיין יגזאַמאַנד. סקיילינג די מאַנואַל פּראַסעסאַז מאכט זיי פראַסטרייטינג.
אן אנדער אָפּציע וואָס איז אַ גוט פּאַסיק אויף פּאַפּיר, אָבער אין פאַקט, דיוויייטיד פון די דאַטן אָזערע פּרינציפּ פון פּשוט דאַטן אַרייַנשרייַב איז Snowflake ס דאַטן לאַקעהאָוסע.
אָראַקל
מאָדערן, אָפֿן אַרקאַטעקטשער באקאנט ווי אַ "דאַטן לאַקעהאָוסע" מאכט עס מעגלעך צו קראָם, באַגרייַפן און אַנאַלייז אַלע דיין דאַטן.
די ברייט און בייגיקייט פון די אָפֿן מקור דאַטן לייק סאַלושאַנז זענען קאַמביינד מיט די שטאַרקייט און טיפקייַט פון דאַטן ווערכאַוזיז.
די נואַסט אַי פראַמעוואָרקס און פּריבוילט אַי באַדינונגס קענען ווערן גענוצט מיט אַ דאַטן לאַקעהאָוסע אויף Oracle Cloud Infrastructure (OCI).
עס איז פיזאַבאַל צו אַרבעטן מיט נאָך טייפּס פון דאַטן בשעת ניצן אַן אָפֿן-מקור דאַטן אָזערע. אָבער די צייט און מי פארלאנגט צו פירן עס קען זיין אַ פּערסיסטענט שטערונג.
OCI אָפפערס גאָר געראטן אָפֿן מקור לייקאָוסע באַדינונגס צו נידעריקער רייץ און מיט ווייניקער פאַרוואַלטונג, אַלאַוינג איר צו פאָרויסזאָגן נידעריקער אַפּעריישאַנאַל הוצאות, בעסער סקאַלאַביליטי און זיכערהייט, און די פיייקייט צו קאָנסאָלידירן אַלע דיין יגזיסטינג דאַטן אין איין אָרט.
א דאַטן לאַקעהאָוסע וועט פאַרגרעסערן די ווערט פון דאַטן ווערכאַוסיז און מאַרץ, וואָס זענען יקערדיק פֿאַר מצליח ענטערפּריסעס.
דאַטן קענען זיין ריטריווד מיט אַ לייקכאַוס פֿון עטלעכע לאָוקיישאַנז מיט בלויז איין SQL אָנפֿרעג.
יגזיסטינג מגילה און מכשירים באַקומען טראַנספּעראַנט אַקסעס צו אַלע דאַטן אָן ריקוויירינג אַדזשאַסטמאַנץ אָדער אַקוויירינג נייַ סקילז.
סאָף
די הקדמה פון דאַטן לאַקעהאָוסע סאַלושאַנז איז אַ אָפּשפּיגלונג פון אַ גרעסערע גאַנג אין גרויס דאַטן, וואָס איז די ינאַגריישאַן פון אַנאַליטיקס און דאַטן סטאָרידזש אין יונאַפייד דאַטן פּלאַטפאָרמס צו מאַקסאַמייז געשעפט ווערט פון דאַטן בשעת לאָוערינג די צייט, קאָס און קאַמפּלעקסיטי פון ווערט יקסטראַקשאַן.
פּלאַטפאָרמס אַרייַנגערעכנט Databricks, Snowflake, Ahana, Dremio און Oracle האָבן אַלע געווען לינגקט צו דער געדאַנק פון אַ "דאַטאַ לאַקעהאָוסע," אָבער זיי יעדער האָבן אַ יינציק גאַנג פון פֿעיִקייטן און אַ טענדענץ צו פונקציאָנירן מער ווי אַ דאַטן ווערכאַוס ווי אַ אמת דאַטן אָזערע ווי אַ גאַנץ.
ווען אַ לייזונג איז מאַרקאַטאַד ווי אַ "דאַטאַ לאַקעהאָוסע," געשעפטן זאָל זיין אָפּגעהיט פון וואָס עס אַקשלי מיטל.
ענטערפּריסעס דאַרפֿן צו קוקן ווייַטער פון פֿאַרקויף זשאַרגאָן ווי "דאַטאַ לאַקעהאָוסע" און אַנשטאָט קוקן אין די פֿעיִקייטן פון יעדער פּלאַטפאָרמע צו אויסקלייַבן די בעסטער דאַטן פּלאַטפאָרמע וואָס וועט יקספּאַנד מיט זייער געשעפטן אין דער צוקונפֿט.
לאָזן אַ ענטפֿערן