קינסטלעך סייכל איז טראַנספאָרמינג די וועג מיר פּלאַן און דזשענערייט אינהאַלט. דאָס איז אויך אַפעקטאַד ווי מענטשן אַנטדעקן מאַטעריאַל, פֿון וואָס זיי זוכן פֿאַר אויף Google צו וואָס זיי וואַך אויף Netflix.
מער קריטיש, פֿאַר אינהאַלט מאַרקעטערס, עס ינייבאַלז טימז צו וואַקסן דורך אָטאַמייטינג עטלעכע טייפּס פון אינהאַלט דור און אַנאַלייזינג קראַנט מאַטעריאַל צו פֿאַרבעסערן וואָס איר צושטעלן און בעסער צופּאַסן קונה קאַוואָנע.
עס זענען עטלעכע מאָווינג ברעקלעך אין די אַי און מאַשין וויסן פּראַסעסאַז. האָבן איר אלץ געפרעגט אַ קלוג אַסיסטאַנט (אַזאַ ווי Siri אָדער Alexa) אַ קשיא?
דער ענטפער איז רובֿ מסתּמא "יאָ," וואָס סאַגדזשעסץ איר זענט שוין באַקאַנט מיט נאַטירלעך שפּראַך פּראַסעסינג אויף עטלעכע מדרגה (NLP).
אַלאַן טורינג איז אַ נאָמען וואָס יעדער טעטשיע האט געהערט פון. דער באוואוסטער טורינג טעסט איז ערשט אויסגעצייכנט געווארן אין 1950 דורך דער בארימטער מאטעמאטיקער און קאמפיוטער וויסנשאפטלער אלן טורינג.
ער האָט געזאָגט אין זיין אַרבעט קאַמפּיוטינג מאַשינערי און סייכל אַז אַ מאַשין איז קינסטלעך ינטעליגענט אויב זי קענען שמועסן מיט אַ מענטש און נאַרן אים צו טראַכטן אַז ער שמועסן מיט אַ מענטש.
דאָס איז געווען דער יסוד פֿאַר NLP טעכנאָלאָגיע. אַן עפעקטיוו NLP סיסטעם וועט קענען צו אָנכאַפּן די אָנפֿרעג און זיין קאָנטעקסט, אַנאַלייז עס, קלייַבן די בעסטער לויף פון קאַמף און ענטפֿערן אין אַ שפּראַך וואָס דער באַניצער וועט פֿאַרשטיין.
ווערלדווייד סטאַנדאַרדס פֿאַר קאַמפּליטינג טאַסקס אויף דאַטן אַרייַננעמען קינסטלעך סייכל און מאַשין לערנען טעקניקס. וואָס וועגן מענטש שפּראַך, אָבער?
די פעלדער פון נאַטירלעך שפּראַך דור (NLG), נאַטירלעך שפּראַך פארשטאנד (NLU), און נאַטירלעך שפּראַך פּראַסעסינג (NLP) האָבן אַלע פארדינט אַ פּלאַץ פון ופמערקזאַמקייט אין די לעצטע יאָרן.
אָבער ווייַל די דריי האָבן פאַרשידענע ריספּאַנסאַבילאַטיז, עס איז קריטיש צו ויסמיידן צעמישונג. פילע גלויבן זיי באַגרייַפן די געדאנקען אין זייער ינטייערמאַנט.
זינט די נאַטירלעך שפּראַך איז שוין פאָרשטעלן אין די נעמען, אַלע וואָס מען טוט איז פּראַסעסינג, באַגרייַפן, און פּראָדוצירן עס. מיר באַשלאָסן עס קען זיין נוציק צו גיין אַ ביסל דיפּער, כאָטש, ווייַל אָפט מיר טרעפן די פראַסעס געניצט ינטערטשיינדזשאַבלי.
דעריבער, לאָזן אונדז אָנהייבן מיט אַ נאָענט קוק אין יעדער פון זיי.
וואָס איז פּראַסעסינג פון נאַטירלעך שפּראַך?
קיין נאַטירלעך שפּראַך איז באטראכט צו זיין אַ פריי-פאָרעם טעקסט דורך קאָמפּיוטערס. עס גייט אַז בשעת אַרייַן דאַטן, עס זענען קיין פאַרפעסטיקט טערמינען אין פאַרפעסטיקט ערטער. אין אַדישאַן צו זיין אַנסטראַקטשערד, נאַטירלעך שפּראַך אויך האט אַ פאַרשיידנקייַט פון אויסדרוק אָפּציעס. נעמען די דריי פראַסעס ווי אַ געמעל:
- די וועטער איז ווי איז עס היינט?
- האט היינט א שאנס פון רעגן?
- דאַרף איך היינט ברענגען מיין שירעם?
יעדער פון די סטייטמאַנץ איז אַסקינג וועגן די וועטער פאָרויסזאָגן פֿאַר הייַנט, וואָס איז דער פּראָסט דענאָמינאַטאָר.
ווי יומאַנז, מיר קענען כּמעט גלייך זען די פונדאַמענטאַל קאַנעקשאַנז און האַנדלען אַפּראָופּרייטלי.
אָבער, דאָס איז אַ אַרויסרופן פֿאַר קאָמפּיוטערס זינט יעדער אַלגערידאַם ריקווייערז די אַרייַנשרייַב צו נאָכפאָלגן אַ ספּעציפיש פֿאָרמאַט, און אַלע דריי סטייטמאַנץ האָבן פאַרשידענע סטראַקטשערז און פֿאָרמאַטירונגען.
און די טינגז וועט באַקומען זייער שווער זייער באַלד אויב מיר פּרובירן צו קאָדיפיצירן כּללים פֿאַר יעדער וואָרט קאָמבינאַציע אין יעדער נאַטירלעך שפּראַך צו העלפן אַ קאָמפּיוטער אין פארשטאנד. NLP סטעפּס אין די בילד אין דעם סיטואַציע.
נאַטירלעך שפּראַך פּראַסעסינג (NLP), וואָס פרוווט צו מאָדעל נאַטירלעך מענטש שפּראַך דאַטן, ערידזשאַנייטאַד פון קאַמפּיוטיישאַנאַל לינגוויסטיק.
אַדדיטיאָנאַללי, NLP קאַנסאַנטרייט אויף ניצן מאַשין לערנען און טיף לערנען אַפּראָוטשיז בשעת פּראַסעסינג אַ באַטייטיק קוואַנטיטי פון מענטש אַרייַנשרייַב. עס איז אָפט אָנגעשטעלט אין פילאָסאָפיע, לינגוויסטיק, קאָמפּיוטער וויסנשאַפֿט, אינפֿאָרמאַציע סיסטעמען און קאָמוניקאַציע.
קאַמפּיוטיישאַנאַל לינגוויסטיק, סינטאַקס אַנאַליסיס, רעדע דערקענונג, מאַשין איבערזעצונג און אנדערע סובפיעלדס פון NLP זענען בלויז אַ ביסל. נאַטירלעך שפּראַך פּראַסעסינג פארוואנדלען אַנסטראַקטשערד מאַטעריאַל אין די צונעמען פֿאָרמאַט אָדער אַ סטראַקטשערד טעקסט אין סדר צו פונקציאָנירן.
צו באַגרייַפן וואָס דער באַניצער מיטל ווען זיי זאָגן עפּעס, עס בויען די אַלגערידאַם און טריינז די מאָדעל ניצן וואַסט קוואַנטאַטיז פון דאַטן.
עס אַפּערייץ דורך גרופּינג פאַרשידענע ענטיטיז צוזאַמען פֿאַר לעגיטימאַציע (באקאנט ווי ענטיטי דערקענונג) און דורך דערקענען וואָרט פּאַטערנז. לעממאַטיזאַטיאָן, טאָקעניזאַטיאָן און סטעמינג טעקניקס זענען געניצט צו געפֿינען די וואָרט פּאַטערנז.
אינפֿאָרמאַציע יקסטראַקשאַן, קול דערקענונג, טייל-פון-רעדע טאַגינג און פּאַרסינג זענען בלויז אַ ביסל פון די דזשאָבס וואָס NLP טוט.
אין דער עמעס וועלט, NLP איז געניצט פֿאַר טאַסקס אַרייַנגערעכנט אָנטאָלאָגי פּאַפּיאַלייטינג, שפּראַך מאָדעלינג, סענטימענט אַנאַליסיס, טעמע יקסטראַקשאַן, געהייסן ענטיטי דערקענונג, פּאַרץ-פון-רעדע טאַגינג, קשר יקסטראַקשאַן, מאַשין איבערזעצונג, און אָטאַמייטיד קשיא ענטפֿערן.
וואָס איז נאַטירלעך שפּראַך פארשטאנד?
א מינערווערטיק טייל פון נאַטירלעך שפּראַך פּראַסעסינג איז נאַטירלעך שפּראַך קאַמפּרעשאַן. נאָך די שפּראַך איז סימפּלאַפייד, די קאָמפּיוטער ווייכווארג מוזן באַגרייַפן, אַרויספירן טייַטש, און עפשער אפילו דורכפירן סענטימענט אַנאַליסיס.
דער זעלביקער טעקסט קענען האָבן עטלעכע מינינגז, עטלעכע פראַסעס קענען האָבן די זעלבע טייַטש, אָדער די טייַטש קענען טוישן דיפּענדינג אויף די ומשטאַנד.
NLU אַלגערידאַמז נוצן קאַמפּיוטיישאַנאַל מעטהאָדס צו פּראָצעס טעקסט פון פילע קוואלן אין סדר צו באַגרייַפן די אַרייַנשרייַב טעקסט, וואָס קענען זיין ווי יקערדיק ווי וויסן וואָס אַ פראַזע מיטל אָדער ווי קאָמפּליצירט ווי ינטערפּריטיישאַן פון אַ שמועס צווישן צוויי מענטשן.
דיין טעקסט איז פארוואנדלען אין אַ מאַשין-לייענען פֿאָרמאַט. ווי אַ קאַנסאַקוואַנס, NLU ניצט קאַמפּיוטיישאַנאַל טעקניקס צו דיסייפער די טעקסט און דזשענערייט אַ רעזולטאַט.
NLU קענען זיין געווענדט אין אַ פאַרשיידנקייַט פון סיטואַטיאָנס, אַזאַ ווי באַגרייַפן אַ שמועס צווישן צוויי מענטשן, באַשטימען ווי עמעצער פילז וועגן אַ זיכער ומשטאַנד, און אנדערע סיטואַטיאָנס פון אַ ענלעך נאַטור.
אין באַזונדער, עס זענען פיר שפּראַך לעוועלס צו אָנכאַפּן NLU:
- סינטאַקס: דאָס איז דער פּראָצעס פון דיטערמאַנינג אויב די גראַמאַטיק איז יוטאַלייזד אַפּראָופּרייטלי און ווי זאצן זענען שטעלן צוזאַמען. פֿאַר בייַשפּיל, אַ זאַץ ס קאָנטעקסט און גראַמאַטיק מוזן זיין גענומען אין חשבון צו באַשליסן אויב עס מאכט זינען.
- סעמאַנטיקס: ווען מיר ונטערזוכן דעם טעקסט, קאָנטעקסטואַל טייַטש נואַנסיז ווי ווערב טענאָר אָדער וואָרט ברירה צווישן צוויי מענטשן זענען דאָרט. די ביטן פון אינפֿאָרמאַציע קענען אויך זיין געוויינט דורך אַן NLU אַלגערידאַם צו צושטעלן רעזולטאַטן פון קיין סצענאַר אין וואָס די זעלבע גערעדט וואָרט קען זיין געוויינט.
- וואָרט זינען דיסאַמביגואַטיאָן: עס איז דער פּראָצעס פון פיגורינג אויס וואָס יעדער וואָרט אין אַ פראַזע מיטל. דעפּענדינג אויף דעם קאָנטעקסט, עס גיט אַ טערמין זייַן טייַטש.
- פּראַגמאַטיק אַנאַליסיס: עס אַידז צו פֿאַרשטיין די באַשטעטיקן און ציל פון דער אַרבעט.
NLU איז וויכטיק פֿאַר דאַטן סייאַנטיס ווייַל, אָן עס, זיי פעלן די פיייקייט צו עקסטראַקט טייַטש פון טעקנאַלאַדזשיז ווי טשאַטבאָץ און רייד דערקענונג ווייכווארג.
נאָך אַלע, מענטשן זענען געוויינט צו האָבן אַ שמועס מיט אַ רעדע-ענייבאַלד באָט; קאָמפּיוטערס, אויף די אנדערע האַנט, טאָן ניט האָבן דעם לוקסוס פון יז.
אין אַדישאַן, NLU קענען דערקענען ימאָושאַנז און גראָבקייַט אין אַ רעדע פּונקט ווי איר קענען. דאָס ימפּלייז אַז דאַטן סייאַנטיס קענען וווילטויק ונטערזוכן פאַרשידן אינהאַלט פֿאָרמאַטירונגען און קלאַסיפיצירן טעקסט מיט די קייפּאַבילאַטיז פון NLU.
NLG אַרבעט אין דירעקט אָפּאָזיציע צו נאַטירלעך שפּראַך פארשטאנד, וואָס יימז צו אָרגאַניזירן און מאַכן זינען פון אַנסטראַקטשערד דאַטן אין סדר צו גער עס אין ניצלעך דאַטן. דערנאָך, לאָמיר דעפינירן NLG און ויספאָרשן די וועג דאַטן סייאַנטיס נוצן עס אין פּראַקטיש נוצן קאַסעס.
וואָס איז נאַטירלעך שפּראַך דור?
נאַטירלעך שפּראַך פּראַסעסינג אויך כולל נאַטירלעך שפּראַך פּראָדוקציע. קאָמפּיוטערס קענען שרייַבן ניצן נאַטירלעך שפּראַך פּראָדוקציע, אָבער נאַטירלעך שפּראַך פארשטאנד פאָוקיסיז אויף לייענען קאַמפּרעשאַן.
דורך ניצן זיכער דאַטן אַרייַנשרייַב, NLG קריייץ אַ געשריבן ענטפער אין מענטש שפּראַך. טעקסט-צו-רעדע באַדינונגס קענען אויך זיין געניצט צו יבערמאַכן דעם טעקסט אין רעדע.
ווען דאַטן סייאַנטיס צושטעלן אַ NLG סיסטעם מיט דאַטן, די סיסטעם אַנאַליזירט די דאַטן צו פּראָדוצירן דערציילונגען וואָס קענען זיין פארשטאנען דורך דיאַלאָג.
אין עסאַנס, NLG קאַנווערץ דאַטן שטעלט אין אַ שפּראַך וואָס מיר ביידע פֿאַרשטיין, גערופן נאַטירלעך שפּראַך. אַזוי אַז עס קענען צושטעלן פּראָדוקציע וואָס איז קערפאַלי געלערנט און פּינטלעך צו די מאַקסימום פיזאַבאַל מאָס, NLG איז ענדאַוד מיט די דערפאַרונג פון אַ פאַקטיש-לעבן מענטש.
דער אופֿן, וואָס קענען זיין טרייסט צוריק צו עטלעכע פון אַלן טורינג ס שריפטן וואָס מיר האָבן שוין דיסקאַסט, איז קריטיש צו יבערצייַגן מענטשן אַז אַ קאָמפּיוטער שמועסן מיט זיי אויף אַ גלייבלעך און נאַטירלעך שטייגער, ראַגאַרדלאַס פון די טעמע אין האַנט.
NLG קענען זיין געוויינט דורך אָרגאַנאַזיישאַנז צו פּראָדוצירן קאַנווערסיישאַנאַל דערציילונגען וואָס קענען זיין געוויינט דורך אַלעמען אין די פירמע.
NLG, וואָס איז מערסט אָפט געניצט פֿאַר געשעפט סייכל דאַשבאָרדז, אָטאַמייטיד אינהאַלט פּראָדוקציע און מער עפעקטיוו דאַטן אַנאַליסיס, קענען זיין אַ גרויס הילף פֿאַר פּראָפעססיאָנאַלס ארבעטן אין דיוויזשאַנז ווי פֿאַרקויף, מענטש רעסורסן, פארקויפונג און אינפֿאָרמאַציע טעכנאָלאָגיע.
וואָס ראָלע שפּילן NLU און NGL אין NLP?
NLP קענען זיין געוויינט דורך דאַטן סייאַנטיס און קינסטלעך סייכל פּראָפעססיאָנאַלס צו גער אַנסטראַקטשערד דאַטן שטעלט אין פארמען וואָס קאָמפּיוטערס קענען איבערזעצן צו רייד און טעקסט - זיי קענען אפילו בויען ענטפֿערס וואָס זענען קאָנטעקסטואַללי צונעמען צו אַ קשיא איר פרעגן זיי (טראַכטן ווידער צו ווירטואַל אַסיסטאַנץ ווי Siri און Alexa).
אָבער ווו טאָן NLU און NLG פּאַסיק אין NLP?
כאָטש זיי אַלע שפּילן פאַרשידענע ראָלעס, אַלע דריי דיסאַפּלאַנז האָבן איין זאַך אין פּראָסט: זיי אַלע האַנדלען מיט נאַטירלעך שפּראַך. אַזוי, וואָס איז די חילוק צווישן די דריי?
באַטראַכטן עס אַזוי: כאָטש NLU יימז צו באַגרייַפן די שפּראַך וואָס מענטשן נוצן, NLP יידענאַפייד די מערסט קריטיש דאַטן און אָרגאַניזירט עס אין זאכן ווי טעקסט און נומערן.
עס קענען אפילו אַרוישעלפן מיט שעדלעך ינקריפּטיד קאָמוניקאַציע. NLG, אויף די אנדערע האַנט, ניצט זאַמלונגען פון אַנסטראַקטשערד דאַטן צו פּראָדוצירן מעשיות וואָס מיר קענען טייַטשן ווי מינינגפאַל.
די צוקונפֿט פון NLP
כאָטש NLP האט פילע קראַנט געשעפט ניצט, פילע געשעפטן האָבן געפֿונען עס שווער צו אַדאַפּט עס ברייט.
דאָס איז מערסטנס ווייַל פון די פאלגענדע ישוז: איין אַרויסגעבן וואָס אָפט אַפעקץ אָרגאַנאַזיישאַנז איז אינפֿאָרמאַציע אָווערלאָאַד, וואָס מאכט עס טשאַלאַנדזשינג פֿאַר זיי צו ידענטיפיצירן וואָס דאַטן שטעלט זענען קריטיש צווישן אַ פּאָנעם אַנענדינג ים פון מער דאַטן.
אַדדיטיאָנאַללי, אין סדר צו נוצן NLP יפעקטיוולי, אָרגאַנאַזיישאַנז אָפט דאַרפֿן זיכער מעטהאָדס און ויסריכט וואָס געבן זיי צו עקסטראַקט ווערטפול אינפֿאָרמאַציע פֿון דאַטן.
לעצטע אָבער ניט קלענסטער, NLP ימפּלייז אַז קאָמפּאַניעס דאַרפן קאַטינג-ברעג מאַשינערי אויב זיי ווילן צו שעפּן און ריטיין זאַמלונגען פון דאַטן פון פאַרשידן דאַטן קוואלן ניצן NLP.
טראָץ מניעות וואָס האַלטן די פאַרנעם פון פירמס פון אַדאַפּטינג NLP, עס איז מסתּמא אַז די זעלבע אָרגאַנאַזיישאַנז וועלן לעסאָף אַרומנעמען NLP, NLU און NLG צו געבן זייער ראָובאַץ צו ונטערהאַלטן רעאַליסטיש, מענטש-ווי ינטעראַקשאַנז און דיסקוסיעס.
סעמאַנטיקס און סינטאַקס זענען צוויי NLP סובפיעלדס פון פאָרשונג וואָס באַקומען אַ פּלאַץ פון ופמערקזאַמקייט.
סאָף
גענומען אין באַטראַכטונג וואָס מיר האָבן דיסקאַסט ביז איצט: אַסיינינג טייַטש צו קול און שרייבן, NLU לייענט און פארשטייט נאַטירלעך שפּראַך, און NLG דעוועלאָפּס און אַוטפּוץ נייַע שפּראַך מיט די הילף פון מאשינען.
שפּראַך איז געניצט דורך NLU צו עקסטראַקט פאקטן, כאָטש NLG ניצט די ינסייץ באקומען דורך NLU צו פּראָדוצירן נאַטירלעך שפּראַך.
היט זיך פֿאַר הויפּט פּלייַערס אין די IT אינדוסטריע ווי עפּל, Google און אַמאַזאָן צו פאָרזעצן ינוועסטינג אין NLP אַזוי זיי קענען אַנטוויקלען סיסטעמען אַז נאָכמאַכן מענטש נאַטור.
לאָזן אַ ענטפֿערן