טיש פון קאָנטענץ[באַהאַלטן][ווייַזן]
מיר פאַרברענגען אַ פּלאַץ פון צייט אין קאַמיונאַקייטינג מיט מענטשן אָנליין דורך שמועסן, E- בריוו, וועבסיטעס און געזעלשאַפטלעך מידיאַ.
די ריזיק וואַליומז פון טעקסט דאַטן וואָס מיר פּראָדוצירן יעדער רגע אַנטלויפן אונדזער ופמערקזאַמקייט, אָבער ניט שטענדיק.
קוסטאָמערס 'אַקשאַנז און באריכטן צושטעלן אָרגאַנאַזיישאַנז מיט שאַץ אינפֿאָרמאַציע וועגן וואָס קאַסטאַמערז ווערט און דיסאַפּרווו פון סכוירע און באַדינונגס, ווי געזונט ווי וואָס זיי ווילן פון אַ סאָרט.
די מערהייט פון געשעפטן, אָבער, האָבן נאָך שוועריקייטן צו באַשליסן די מערסט עפעקטיוו אופֿן פֿאַר דאַטן אַנאַליסיס.
זינט פיל פון די דאַטן זענען אַנסטראַקטשערד, קאָמפּיוטערס האָבן אַ שווער צייט צו פֿאַרשטיין עס, און מאַניואַלי סאָרטינג עס וואָלט זיין גאָר צייט-קאַנסומינג.
פּראַסעסינג אַ פּלאַץ פון דאַטן מיט האַנט ווערט לאַבאָריאַס, מאַנאַטאַנאַס, און פשוט אַנסקיילאַבאַל ווי אַ פירמע יקספּאַנדז.
טהאַנקפוללי, נאַטירלעך שפּראַך פּראַסעסינג קענען אַרוישעלפן איר אין דערגייונג ינסייטפאַל אינפֿאָרמאַציע אין אַנסטראַקטשערד טעקסט און ריזאַלווינג אַ קייט פון טעקסט אַנאַליסיס ישוז, אַרייַנגערעכנט סענטימענט אַנאַליסיס, ונטערטעניק קאַטאַגעריזיישאַן, און מער.
מאַכן מענטש שפּראַך פאַרשטיייק צו מאשינען איז דער ציל פון די קינסטלעך סייכל פעלד פון נאַטירלעך שפּראַך פּראַסעסינג (NLP), וואָס ניצט לינגוויסטיק און קאָמפּיוטער וויסנשאַפֿט.
NLP ינייבאַלז קאָמפּיוטערס צו אויטאָמאַטיש אָפּשאַצן ריזיק אַמאַונץ פון דאַטן, וואָס מאכט עס מעגלעך פֿאַר איר צו געשווינד ידענטיפיצירן באַטייַטיק אינפֿאָרמאַציע.
אַנסטראַקטשערד טעקסט (אָדער אנדערע מינים פון נאַטירלעך שפּראַך) קענען זיין געוויינט מיט אַ קייט פון טעקנאַלאַדזשיז צו ופדעקן ינסייטפאַל אינפֿאָרמאַציע און אַדרעס אַ נומער פון ישוז.
כאָטש ניט פולשטענדיק, די רשימה פון אָפֿן מקור מכשירים דערלאנגט אונטן איז אַ ווונדערלעך אָרט צו אָנהייבן פֿאַר ווער עס יז אָדער קיין אָרגאַניזאַציע וואָס איז אינטערעסירט אין ניצן נאַטירלעך שפּראַך פּראַסעסינג אין זייער פּראַדזשעקס.
1. NLTK
מען קען טענהן אז Natural Language Toolkit (NLTK) איז די מערסט שטריך-רייַך געצייַג איך האָבן געקוקט אין.
כּמעט אַלע NLP טעקניקס זענען ימפּלאַמענאַד, אַרייַנגערעכנט קאַטאַגעריזיישאַן, טאָקעניזאַטיאָן, סטעמינג, טאַגינג, פּאַרסינג און סעמאַנטיק ריזאַנינג.
איר קענען אויסקלייַבן די גענוי אַלגערידאַם אָדער צוגאַנג איר ווילן צו נוצן ווייַל עס זענען אָפט עטלעכע ימפּלאַמאַנץ בנימצא פֿאַר יעדער.
פילע שפּראַכן זענען אויך געשטיצט. כאָטש עס איז גוט פֿאַר פּשוט סטראַקטשערז, די פאַקט אַז עס רעפּראַזענץ אַלע דאַטן ווי סטרינגס מאכט עס טשאַלאַנדזשינג צו צולייגן עטלעכע סאַפיסטאַקייטיד קייפּאַבילאַטיז.
ווען קאַמפּערד מיט אנדערע מכשירים, די ביבליאָטעק איז אויך אַ ביסל פויל.
אַלע טינגז, דאָס איז אַ ויסגעצייכנט מכשירים פֿאַר יקספּעראַמאַנטיישאַן, עקספּלעריישאַן און אַפּלאַקיישאַנז וואָס דאַרפן אַ זיכער מישן פון אַלגערידאַמז.
פּראָס
- עס איז די מערסט פאָלקס און פולשטענדיק NLP ביבליאָטעק מיט עטלעכע דריט אַדישאַנז.
- אין פאַרגלייַך מיט אנדערע לייברעריז, עס שטיצט רובֿ שפּראַכן.
קאָנס
- שווער צו פֿאַרשטיין און נוצן
- עס איז פּאַמעלעך
- קיין מאָדעלס פון נוראַל נעטוואָרקס
- עס צעטיילט בלויז די טעקסט אין זאצן אָן באַטראַכטן די סעמאַנטיקס
2. ספּאַסי
ספּאַסי איז די מערסט מסתּמא שפּיץ קאָנקורענט פון NLTK. כאָטש עס נאָר האט איין ימפּלאַמענטיישאַן פֿאַר יעדער NLP קאָמפּאָנענט, עס איז בכלל קוויקער.
אַדדיטיאָנאַללי, אַלץ איז רעפּריזענטיד ווי אַ כייפעץ אלא ווי אַ שטריקל, וואָס סימפּלאַפייז די צובינד פֿאַר דעוועלאָפּינג אַפּפּס.
מיט אַ דיפּער אָנכאַפּן פון דיין טעקסט דאַטן, איר קענען דערגרייכן מער.
דאָס אויך מאכט עס גרינגער צו פאַרבינדן מיט עטלעכע אנדערע פראַמעוואָרקס און דאַטן וויסנשאַפֿט מכשירים. אָבער קאַמפּערד מיט NLTK, SpaCy שטיצט נישט אַזוי פילע שפּראַכן.
עס פֿעיִקייטן פילע נעוראַל מאָדעלס פֿאַר פאַרשידענע אַספּעקץ פון שפּראַך פּראַסעסינג און אַנאַליסיס, ווי געזונט ווי אַ סטרייטפאָרווערד באַניצער צובינד מיט אַ קאַנדענסט קייט פון אָפּציעס און ויסגעצייכנט דאַקיומענטיישאַן.
אין אַדישאַן, SpaCy איז געבויט צו אַקאַמאַדייט ריזיק אַמאַונץ פון דאַטן און איז גאָר ונ דורך דאַקיומענטאַד.
עס אויך כולל אַ שעפע פון מאָדעלס פֿאַר נאַטירלעך שפּראַך פּראַסעסינג וואָס האָבן שוין טריינד, מאכן עס גרינגער צו לערנען, לערנען און נוצן נאַטירלעך שפּראַך פּראַסעסינג מיט SpaCy.
קוילעלדיק, דאָס איז אַ ויסגעצייכנט געצייַג פֿאַר נייַע אַפּפּס וואָס טאָן ניט דאַרפֿן אַ ספּעציפיש אופֿן און דאַרפֿן צו זיין פּערפאָרמאַנסע אין פּראָדוקציע.
פּראָס
- קאַמפּערד צו אנדערע זאכן, עס איז שנעל.
- לערנען און נוצן עס איז פּשוט.
- מאָדעלס זענען טריינד ניצן נעוראַל נעטוואָרקס
קאָנס
- ווייניקער אַדאַפּטאַבילאַטי אין פאַרגלייַך צו NLTK
3. גענסים
די מערסט עפעקטיוו און גרינג אַפּראָוטשיז צו אויסדריקן דאָקומענטן ווי סעמאַנטיק וועקטאָרס זענען אַטשיווד דורך ניצן די ספּעשאַלייזד אָפֿן-מקור פּיטהאָן פריימווערק באקאנט ווי Gensim.
Gensim איז באשאפן דורך די מחברים צו שעפּן רוי, אַנסטראַקטשערד קלאָר טעקסט ניצן אַ קייט פון מאַשין וויסן מעטהאָדס; דערפאר, עס איז אַ קלוג געדאַנק צו נוצן Gensim צו מאַכנ דזשאָבס ווי טעמע מאָדעלינג.
אין דערצו, Gensim געפינט יפעקטיוולי טעקסטואַל סימאַלעראַטיז, ינדעקסיז אינהאַלט און נאַוואַגייץ צווישן פאַרשידענע טעקסטן.
עס איז אַ העכסט ספּעשאַלייזד פּיטהאָן ביבליאָטעק פאָוקיסינג אויף טעמע מאָדעלינג טאַסקס ניצן לייטאַנט Dirichlet אַלאַקיישאַן און אנדערע לדאַ) מעטהאָדס.
אין דערצו, עס איז גאַנץ גוט צו געפֿינען טעקסטן וואָס זענען ענלעך צו איינער דעם אנדערן, ינדעקסינג טעקסטן און נאַוואַגייטינג איבער צייטונגען.
דעם געצייַג כאַנדאַלז מאַסיוו אַמאַונץ פון דאַטן יפישאַנטלי און געשווינד. דאָ זענען עטלעכע סטאַרטינג טוטאָריאַלז.
פּראָס
- פּשוט באַניצער צובינד
- עפעקטיוו נוצן פון געזונט-באקאנט אַלגערידאַמז
- אויף אַ גרופּע פון קאָמפּיוטערס, עס קענען טאָן לייטאַנט Dirichlet אַלאַקיישאַן און לייטאַנט סעמאַנטיק אַנאַליסיס.
קאָנס
- עס איז מערסטנס בדעה פֿאַר אַנסופּערווייזד טעקסט מאָדעלינג.
- עס פעלן אַ גאַנץ NLP רערנ - ליניע און זאָל זיין געוויינט אין קאַנדזשאַנגקשאַן מיט אנדערע לייברעריז ווי ספּאַסי אָדער NLTK.
4. טעקסטבלאָב
TextBlob איז אַ סאָרט פון NLTK פאַרלענגערונג.
דורך TextBlob, איר קענען אַקסעס פילע NLTK פאַנגקשאַנז גרינגער, און TextBlob ינקאָרפּערייץ פּאַטטער ביבליאָטעק קייפּאַבילאַטיז.
דאָס קען זיין אַ נוציק געצייַג צו נוצן בשעת לערנען אויב איר נאָר אָנהייבן, און עס קענען זיין געוויינט אין פּראָדוקציע פֿאַר אַפּלאַקיישאַנז וואָס טאָן ניט דאַרפן אַ פּלאַץ פון פאָרשטעלונג.
עס אָפפערס אַ פיל מער באַניצער-פרייַנדלעך און סטרייטפאָרווערד צובינד פֿאַר די זעלבע NLP פאַנגקשאַנז.
דאָס איז אַ גרויס אָפּציע פֿאַר נאַוואַסיז וואָס ווילן צו נעמען נלפּ טאַסקס ווי סענטימענט אַנאַליסיס, טעקסט קאַטאַגעריזיישאַן און טייל-פון-רעדע טאַגינג ווייַל די לערנען ויסבייג איז ווייניקער ווי מיט אנדערע אָפֿן מקור מכשירים.
טעקסטבלאָב איז וויידלי געניצט און ויסגעצייכנט פֿאַר קלענערער פּראַדזשעקס קוילעלדיק.
פּראָס
- דער באַניצער צובינד פון דער ביבליאָטעק איז פּשוט און קלאָר.
- עס אָפפערס שפּראַך לעגיטימאַציע און איבערזעצונג באַדינונגס ניצן Google Translate.
קאָנס
- אין פאַרגלייַך מיט אנדערע, עס איז פּאַמעלעך.
- קיין מאָדעלס פון נעוראַל נעטוואָרקס
- קיין וואָרט וועקטאָרס ינאַגרייטיד
5. OpenNLP
עס איז פּשוט צו ינקאָרפּערייט OpenNLP מיט אנדערע אַפּאַטשי פּראַדזשעקס ווי Apache Flink, Apache NiFi און Apache Spark ווייַל עס איז כאָוסטיד דורך די אַפּאַטשי וויקיפּעדיע.
עס איז אַ פולשטענדיק NLP געצייַג וואָס קענען זיין געוויינט פֿון די באַפֿעלן שורה אָדער ווי אַ ביבליאָטעק אין אַ אַפּלאַקיישאַן.
עס כולל אַלע די פּראָסט פּראַסעסינג קאַמפּאָונאַנץ פון די NLP.
אַדדיטיאָנאַללי, עס אָפפערס ברייט שפּראַך שטיצן. אויב איר נוצן Java, OpenNLP איז אַ שטאַרק געצייַג מיט אַ פּלאַץ פון קייפּאַבילאַטיז וואָס איז צוגעגרייט פֿאַר פּראָדוקציע ווערקלאָודז.
אין אַדישאַן צו געבן די מערסט טיפּיש נלפּ טאַסקס, אַזאַ ווי טאָקעניזאַטיאָן, זאַץ סעגמאַנטיישאַן און טייל-פון-רעדע טאַגינג, OpenNLP קענען זיין געוויינט צו שאַפֿן מער קאָמפּליצירט טעקסט פּראַסעסינג אַפּלאַקיישאַנז.
מאַקסימום ענטראָפּיע און פּערסעפּטרון-באזירט מאַשין לערנען זענען אויך אַרייַנגערעכנט.
פּראָס
- א מאָדעל טריינינג געצייַג מיט עטלעכע פֿעיִקייטן
- פאָוקיסיז אויף יקערדיק NLP טאַסקס און יקסעלז אין זיי, אַרייַנגערעכנט ענטיטי לעגיטימאַציע, פראַזע דיטעקשאַן און טאָקעניזאַטיאָן.
קאָנס
- פעלן סאַפיסטאַקייטיד קייפּאַבילאַטיז; אויב איר ווילן צו פאָרזעצן מיט JVM, מאַך צו CoreNLP איז דער ווייַטער נאַטירלעך שריט.
6. AllenNLP
AllenNLP איז ידעאַל פֿאַר געשעפט אַפּלאַקיישאַנז און דאַטן אַנאַליסיס זינט עס איז געבויט אויף PyTorch מכשירים און רעסורסן.
עס דעוועלאָפּס אין אַן אַלע-ענקאַמפּאַסינג געצייַג פֿאַר טעקסט אַנאַליסיס.
דאָס מאכט עס איינער פון די רשימה ס מער סאַפיסטאַקייטיד פּראַסעסינג מכשירים פֿאַר נאַטירלעך שפּראַך. בשעת איר דורכפירן די אנדערע טאַסקס ינדיפּענדאַנטלי, AllenNLP פּריפּראָסעססעס דאַטן מיט די פריי ספּאַסי אָפֿן מקור פּעקל.
AllenNLP ס שליסל סעלינג פונט איז ווי גרינג עס איז צו נוצן.
AllenNLP סטרימליינז די פּראַסעסינג פּראָצעס פון נאַטירלעך שפּראַך, אין קאַנטראַסט צו אנדערע NLP מגילה וואָס אַנטהאַלטן עטלעכע מאַדזשולז.
ווי אַ קאַנסאַקוואַנס, די רעזולטאַט רעזולטאַטן קיינמאָל פילן קאַנפיוזינג. עס איז אַ פאַנטאַסטיש געצייַג פֿאַר יענע אָן פיל וויסן.
פּראָס
- דעוועלאָפּעד אויף שפּיץ פון PyTorch
- ויסגעצייכנט פֿאַר יקספּלאָרינג און עקספּערימענטינג ניצן קאַטינג-ברעג מאָדעלס
- עס קענען זיין געוויינט ביידע קאמערשעל און אַקאַדעמיקלי
קאָנס
- ניט צונעמען פֿאַר גרויס-וואָג פּראַדזשעקס וואָס זענען דערווייַל אין פּראָדוקציע.
סאָף
קאָמפּאַניעס נוצן NLP טעקניקס צו עקסטראַקט ינסייץ פון אַנסטראַקטשערד טעקסט דאַטן אַזאַ ווי ימיילז, אָנליין באריכטן, געזעלשאַפטלעך מעדיע פּאָוסטינגז, און מער. עפֿן מקור מכשירים זענען פריי, אַדאַפּטאַבאַל און געבן דעוועלאָפּערס גאַנץ קוסטאָמיזאַטיאָן אָפּציעס.
אויף וואס ווארטסטו? ניצן זיי רעכט אַוועק און מאַכן עפּעס גלייבן.
מזל קאָדירונג!
לאָזן אַ ענטפֿערן