גיך אַדוואַנסיז אין קאַמפּיוטערייזד אָדער דיגיטאַל אינפֿאָרמאַציע האָבן ריזאַלטיד אין אַ ריזיק באַנד פון אינפֿאָרמאַציע און דאַטן. טעקסט דאַטאַבייסיז, וואָס זענען ריזיק זאַמלונגען פון דאָקומענטן פֿון קייפל קוואלן, אַרייַננעמען אַ היפּש סומע פון צוטריטלעך אינפֿאָרמאַציע.
טעקסט דאַטאַבייסיז זענען קאַנטיניואַסלי דעוועלאָפּינג רעכט צו דער רייזינג סומע פון אינפֿאָרמאַציע בנימצא אין עלעקטראָניש פאָרעם. מער ווי 80% פון הייַנטצייַטיק אינפֿאָרמאַציע איז אין די פאָרעם פון אַנסטראַקטשערד אָדער האַלב-סטראַקטשערד דאַטן.
טראַדיציאָנעל אינפֿאָרמאַציע ריטריוואַל אַפּראָוטשיז זענען שיין ינאַדאַקוואַט פֿאַר די טאָמיד-ינקריסינג באַנד פון טעקסט דאַטן. ווי אַ רעזולטאַט, טעקסט קלאַסאַפאַקיישאַן האט פארדינט אין פּאָפּולאַריטעט.
דער דערגייונג פון פּאַסיק פּאַטערנז און אַנאַליסיס פון טעקסט דאָקומענטן פֿון ריזיק וואַליומז פון דאַטן איז אַ שליסל שוועריקייט אין פאַקטיש-וועלט אַפּלאַקיישאַן פעלדער. עס איז געווען אַ קאָמפּלעקס און טייַער פּראָצעדור זינט מאַניואַלי סאָרטינג די דאַטן גענומען צייט און רעסורסן.
טעקסט קלאַססיפיקאַטיאָן מעטהאָדס האָבן געוויזן צו זיין אַ פאַנטאַסטיש ברירה פֿאַר שנעל, קאָס-יפעקטיוולי און סקאַלאַבלע טעקסט דאַטן סטרוקטור.
טעקסט קלאַסאַפאַקיישאַן מאָדעלס זענען אָנגעשטעלט דורך אַ ינקריסינג נומער פון קאָמפּאַניעס צו הצלחה שעפּן די טאָמיד-גראָוינג מבול פון אַנסטראַקטשערד דאַטן.
אין דעם פּאָסטן, מיר וועלן קוקן אין טעקסט קלאַסאַפאַקיישאַן, די בעסטער טעקסט קלאַסאַפאַקיישאַן מאָדעלס און פיל מער.
אַזוי, וואָס איז טעקסט קלאַסאַפאַקיישאַן?
טעקסט קלאַסאַפאַקיישאַן איז דער פּראָצעס פון אָרגאַנייזינג, סטראַקטשערינג און פילטערינג טעקסט אין איין אָדער מער קלאַסאַפאַקיישאַנז. טעקסט קלאַסאַפאַקיישאַן איז געניצט אין אַ פאַרשיידנקייַט פון קאַנטעקסץ, אַרייַנגערעכנט לעגאַל צייטונגען, מעדיציניש פאָרשונג און טעקעס, און אפילו יקערדיק פּראָדוקט יוואַליויישאַנז.
קאָמפּאַניעס צאָלן מיליאַנז צו עקסטראַקט ווי פילע ינסייץ ווי מעגלעך פון דאַטן.
עס איז קריטיש צו געפֿינען ינאַווייטיוו וועגן צו נוצן טעקסט / דאָקומענט דאַטן ווייַל זיי זענען פיל מער פאַרשפּרייט ווי אנדערע פארמען פון דאַטן. ווייַל דאַטן זענען ינכעראַנטלי אַנסטראַקטשערד און שעפעדיק, אָרגאַנייזינג עס אין דיידזשעסטאַבאַל וועגן קענען באטייטיק פאַרגרעסערן די ווערט.
בעסטער טעקסט קלאַסאַפאַקיישאַן מאָדעלס
1. Google Cloud NLP
Google Cloud NLP איז אַ גאַנג פון טעקסט אַנאַליסיס מכשירים וואָס קענען העלפֿן איר ידענטיפיצירן ינסייץ אין אַנסטראַקטשערד דאַטן. Google Cloud NLP (נאַטירלעך שפּראַך פּראַסעסינג) איז אַ ויסגעצייכנט ברירה פֿאַר געשעפטן וואָס איצט קראָם דאַטן אויף Google קלאָוד און ווילן צו ויסשטימען מיט Google אַפּפּס.
זיי צושטעלן גרייט-צו-נוצן מאָדעלס פֿאַר סענטימענט אַנאַליסיס, ענטיטי יקסטראַקשאַן, אינהאַלט קאַטאַגעריזיישאַן און סינטאַקס אַנאַליסיס.
פֿאַר בייַשפּיל, די אינהאַלט קאַטאַגעריזיישאַן געצייַג אַלאַוז איר צו קאַטאַגערייז דאָקומענטן אין איבער 600 פאַרשידענע גרופּעס.
אויב איר דאַרפן אַ קלאַסאַפאַקיישאַן מאָדעל פּאַסיק פֿאַר אַ ספּעציפיש נוצן פאַל, איר קענען נוצן AutoML Natural Language, וואָס אַלאַוז איר צו אַנטוויקלען קאַסטאַמייזד סאַלושאַנז מיט דיין אייגענע פאַר-דיפיינד קאַטעגאָריעס.
2. Amazon Comprehend
Amazon Comprehend איז גאָר כאַנדאַלד דורך Amazon, דעריבער קיין פּריוואַט סערווערס זענען פארלאנגט. דערצו, פאַר-טריינד אַפּיס זענען בנימצא, טראָץ דער פאַקט אַז AutoML אַלאַוז איר צו בויען דיין אייגענע טעקסט-מיינינג מאָדעלס.
עס גיט אַפּיס וואָס זענען פּשוט צו ינקאָרפּערייט אין דיין אַפּפּס.
אַפּיס פֿאַר סענטימענט אַנאַליסיס, שפּראַך לעגיטימאַציע און אַ מנהג קלאַסאַפאַקיישאַן אַפּי איז בנימצא צו אַרוישעלפן איר אין דעוועלאָפּינג טעקסט קלאַסאַפאַקיישאַן מאָדעלס טיילערד צו דיין געשעפט דאַרף.
צו בויען אַ מנהג מאָדעל, איר טאָן ניט דאַרפֿן קיין מאַשין וויסן דערפאַרונג אָדער היפּש קאָודינג אַבילאַטיז.
עס איז אַדוואַנטיידזשאַס פֿאַר געשעפטן וואָס ווילן געראטן ווייכווארג, פּשוט ינסטאַלירונג און פאַר-געבויט מאָדעלס.
3. MonkeyLearn
MonkeyLearn איז אַ סאַפיסטאַקייטיד טעקסט קאַטאַגעריזיישאַן געצייַג פֿאַר עוואַלואַטינג אַלע דיין אַנסטראַקטשערד טעקסט דאַטן, אַרייַנגערעכנט דאָקומענטן, יבערבליק ענטפֿערס, געזעלשאַפטלעך מעדיע, אָנליין באריכטן און קונה באַמערקונגען.
נאַטירלעך שפּראַך פּראַסעסינג (NLP) טעקניקס און סאַפיסטאַקייטיד מאַשין לערנען אַלגערידאַמז געבן די ווייכווארג צו לייענען טעקסטן ווי אַ מענטש. איר קענט זיין זיכער אַז דיין אַנאַליסיס וועט זיין פּינטלעך ווי אַ רעזולטאַט.
איר קענען גלייַך צופֿעליקער דאַטן אין MonkeyLearn אָדער געשווינד פאַרבינדן מיט Google שיץ, עקססעל, זענדעסק, זאַפּיער און אנדערע מגילה.
MonkeyLearn ס שטאַרק מאַשין לערנען מאכט עס פּשוט צו שאַפֿן דיין מאָדעל. און מיט זייער קליין קאָדירונג, איר קענען פֿאַרבינדונג אַפּיס אין אַלע הויפּט שפּראַכן.
4. היץ ינטעלליגענסע
היץ איז אַ וואָלקן דינסט פֿאַר אויף-פאָדערונג סייכל, וואָס אָפפערס קאַגניטיוו באַדינונגס אין פאַקטיש-צייט דורך אַ כייבריד וואָלקן פון מענטשן און אַי.
היץ כאַנדאַלז דיגיטאַל אַקטיוויטעטן אַרייַנגערעכנט דאַטן זאַמלונג, טעקסט קאַטאַגעריזיישאַן און מאַדעריישאַן, דאַטן לייבלינג, טשאַטבאָץ און שמועסן, בילד עדיטינג, און אַזוי אויף.
א פאַקטיש-צייט מענטש מאַסע פּראַסעסאַז נייַ טאַסקס, בשעת אַי איז געלערנט אויף די אלנגעזאמלט דאַטן.
אפילו אין די מערסט יידל און פּערפּלעקסינג דזשאָבס, די כייבריד טעכניק ינשורז הינטער-הויך אַקיעראַסי.
5. יבם וואַצאָן
IBM Watson איז אַ מולטי-וואָלקן פּלאַטפאָרמע וואָס כולל אַ פאַרשיידנקייַט פון אַי קייפּאַבילאַטיז פֿאַר קאַטאַגערייזינג פֿירמע דאַטן.
דעוועלאָפּערס קענען נוצן די נאַטירלעך שפּראַך קלאַססיפיער צו שאַפֿן מנהג קלאַסאַפאַקיישאַן מאָדעלס צו געפֿינען טעמעס אין דאַטן. איר קענען באַן אַ מאָדעל אין ווייניקער ווי 15 מינוט (קיין פריערדיק דערפאַרונג מיט מאַשין לערנען איז נייטיק) און געשווינד ינקאָרפּערייט מאָדעלס אין דיין אַפּפּס דורך די אַפּי.
וואַצאָן אויך אָפפערס אַ פאַר-געבויט טעקסט אַנאַליסיס לייזונג גערופֿן נאַטוראַל שפּראַך פארשטאנד, וואָס קענען זיין גענוצט צו אַנטדעקן סענטימענט, ימאָושאַנז און קלאַסאַפאַקיישאַנז אין טעקסט.
עס איז בעסטער פּאַסיק פֿאַר הויפּט קאָרפּעריישאַנז מיט אין-הויז ענדזשאַנירז וואָס ווילן צו אַנטוויקלען היפּער-ספּעשאַלייזד טעקסט מיינינג מאָדעלס.
אַפּפּליקאַטיאָנס
עס זענען פילע פאַרשידענע ניצט פֿאַר טעקסט קלאַסאַפאַקיישאַן. עטלעכע פּראָסט אַפּלאַקיישאַנז אַרייַננעמען:
- שפּראַך דערקענונג, ענלעך צו גוגל איבערטייטשער
- אַנאָנימע באַנוצערס עלטער און דזשענדער אידענטיטעט
- אָנליין אינהאַלט טאַגינג
- בליצפּאָסט ספּאַם דיטעקשאַן
- אָנליין אָפּשאַצונג סענטימענט אַנאַליסיס
- ספּיטש דערקענונג טעכנאָלאָגיע איז יוטאַלייזד אין ווירטואַל אַסיסטאַנץ אַזאַ ווי Siri און Alexa.
- דאָקומענטן מיט טעמע לאַבעלס, אַזאַ ווי פאָרשונג צייטונגען
סאָף
טעקסט קלאַסאַפאַקיישאַן מכשירים לאָזן איר צולייגן דאַטן לויט ונטערטעניק, סענטימענט, קאַוואָנע און מער.
זיי געבן איר צו אָטאַמייט צייט-קאַנסומינג פּראַסעסאַז אַזאַ ווי לייבלינג ינקאַמינג ימיילז און רוטינג קונה שטיצן ריקוועס, און אויך צושטעלן וויטאַל ינסייץ אין וואָס קאָנסומערס טראַכטן וועגן דיין פירמע.
טעקסט קלאַסאַפאַקיישאַן אָטאַמיישאַן איז גרינגער ווי איר טראַכטן, רעכט צו אָפֿן-מקור פראַמעוואָרקס און סאַאַס טעקנאַלאַדזשיז בנימצא דורך אַפּיס.
לאָזן אַ ענטפֿערן