נאַטירלעך שפּראַך פּראַסעסינג (NLP) איז וויטנאַסינג אַ נייַע כוואַליע פון ימפּרווומאַנץ. און, כאַגינג פאַסע דאַטאַסעץ זענען אין די פאָרפראַנט פון דעם גאַנג. אין דעם אַרטיקל, מיר וועלן קוקן אין די באַטייַט פון כאַגגינג פּנים דאַטאַסעץ.
מיר וועלן אויך זען ווי זיי קענען זיין געוויינט צו באַן און אַססעסס NLP מאָדעלס.
Hugging Face איז אַ פירמע וואָס סאַפּלייז דעוועלאָפּערס מיט אַ פאַרשיידנקייַט פון דאַטאַסעץ.
צי איר זענט אַ אָנהייבער אָדער אַ יקספּיריאַנסט NLP מומכע, די דאַטן צוגעשטעלט אויף Hugging Face וועט זיין נוציק פֿאַר איר. פאַרבינדן אונדז ווען מיר ויספאָרשן די פעלד פון NLP און לערנען וועגן די פּאָטענציעל פון כאַגגינג פּנים דאַטאַסעץ.
ערשטער, וואָס איז NLP?
נאַטירלעך שפּראַך פּראַסעסינג (NLP) איז אַ צווייַג פון קינסטלעך סייכל. עס שטודירט ווי קאָמפּיוטערס ינטעראַקט מיט מענטשלעך (נאַטירלעך) שפּראַכן. NLP ינטיילז קריייטינג מאָדעלס וואָס זענען ביכולת צו פֿאַרשטיין און ינטערפּריטיישאַן פון מענטשלעך שפּראַך. דעריבער, אַלגערידאַמז קענען דורכפירן טאַסקס אַזאַ ווי שפּראַך איבערזעצונג, סענטימענט אַנאַליסיס, און טעקסט פּראָדוקציע.
NLP איז געניצט אין אַ פאַרשיידנקייַט פון געביטן, אַרייַנגערעכנט קונה דינסט, פֿאַרקויף און כעלטקער. די אָביעקטיוו פון NLP איז צו לאָזן קאָמפּיוטערס צו טייַטשן און באַגרייַפן מענטש שפּראַך ווי עס איז געשריבן אָדער גערעדט אין אַ שטייגער ווי נאָענט צו די פון יומאַנז.
איבערבליק פון כאַגינג פּנים
כאַגינג פּנים איז אַ נאַטירלעך שפּראַך פּראַסעסינג (NLP) און מאַשין לערנען טעכנאָלאָגיע געשעפט. זיי צושטעלן אַ ברייט קייט פון רעסורסן צו אַרוישעלפן דעוועלאָפּערס אין דער אַנטוויקלונג פון די NLP שטח. זייער מערסט נאָוטווערדי פּראָדוקט איז די טראַנספאָרמערס ביבליאָטעק.
עס איז דיזיינד פֿאַר נאַטירלעך שפּראַך פּראַסעסינג אַפּלאַקיישאַנז. עס אויך גיט פאַר-טריינד מאָדעלס פֿאַר אַ פאַרשיידנקייַט פון NLP טאַסקס אַזאַ ווי שפּראַך איבערזעצונג און קשיא ענטפֿערן.
Hugging Face, אין אַדישאַן צו די טראַנספאָרמערס ביבליאָטעק, אָפפערס אַ פּלאַטפאָרמע פֿאַר ייַנטיילונג דאַטאַסעץ פֿאַר מאַשין לערנען. דעם מאכט עס מעגלעך צו געשווינד צוטריט הויך-קוואַליטעט דאַטאַסעץ פֿאַר טריינינג זייער מאָדעלס.
Hugging Face ס מיסיע איז צו מאַכן נאַטירלעך שפּראַך פּראַסעסינג (NLP) מער צוטריטלעך פֿאַר דעוועלאָפּערס.
מערסט פאָלקס כאַגגינג פּנים דאַטאַסעט
קאָרנעל פֿילם-דיאַלאָגס קאָרפּוס
דאָס איז אַ באַוווסט דאַטאַסעט פון Hugging Face. קאָרנעל פֿילם-דיאַלאָגס קאָרפּוס קאַמפּרייזיז דיאַלאָגז גענומען פֿון פֿילם סקרינפּלייז. נאַטירלעך שפּראַך פּראַסעסינג (NLP) מאָדעלס קענען זיין טריינד מיט דעם ברייט נומער פון טעקסט דאַטן.
מער ווי 220,579 דיאַלאָג ינקאַונטערז צווישן 10,292 פֿילם כאַראַקטער פּערז זענען אַרייַנגערעכנט אין דער זאַמלונג.
איר קענען נוצן דעם דאַטאַסעט פֿאַר פאַרשידן NLP טאַסקס. פֿאַר בייַשפּיל, איר קענען אַנטוויקלען שפּראַך שאַפונג און פראיעקטן. איר קענען אויך שאַפֿן דיאַלאָג סיסטעמען. ווייַל די שמועסן דעקן אַזאַ אַ ברייט קייט פון טעמעס. די דאַטאַבייס איז אויך וויידלי געניצט אין פאָרשונג פּראַדזשעקס.
דערפאר, דאָס איז אַ זייער נוציק געצייַג פֿאַר NLP ריסערטשערז און דעוועלאָפּערס.
OpenWebText Corpus
די OpenWebText Corpus איז אַ זאַמלונג פון אָנליין בלעטער וואָס איר קענען געפֿינען אויף די Hugging Face פּלאַטפאָרמע. דעם דאַטאַסעט כולל אַ ברייט קייט פון אָנליין בלעטער, אַזאַ ווי אַרטיקלען, בלאָגס און גרופּעס. אויסערדעם, די זענען אַלע אויסדערוויילט פֿאַר זייער הויך קוואַליטעט.
די דאַטאַסעט איז ספּעציעל ווערטפול פֿאַר טריינינג און אַססעססינג NLP מאָדעלס. דעריבער, איר קענען נוצן דעם דאַטאַסעט פֿאַר טאַסקס ווי איבערזעצונג און סאַמעריזיישאַן. איר קענט אויך דורכפירן סענטימענט אַנאַליסיס מיט דעם דאַטאַסעט וואָס איז אַ ריזיק אַסעט פֿאַר פילע אַפּלאַקיישאַנז.
די Hugging Face מאַנשאַפֿט קערייטיד די OpenWebText קאָרפּוס צו צושטעלן אַ הויך-קוואַליטעט מוסטער פֿאַר טריינינג. עס איז אַ גרויס דאַטאַסעט מיט מער ווי 570 גב פון טעקסט דאַטן.
BERT
BERT (ביידירעקטיאָנאַל ענקאָדער רעפּרעסענטאַטיאָנס פון טראַנספאָרמערס) איז אַ NLP מאָדעל. עס איז פאַר-טריינד און איז צוטריטלעך אויף די Hugging Face פּלאַטפאָרמע. BERT איז באשאפן דורך די Google AI שפּראַך מאַנשאַפֿט. אויך, עס איז טריינד אויף אַ וואַסט טעקסט דאַטאַסעט צו אָנכאַפּן דעם קאָנטעקסט פון ווערטער אין אַ פראַזע.
ווייַל BERT איז אַ טראַנספאָרמער-באזירט מאָדעל, עס קענען פּראָצעס די פול אַרייַנשרייַב סיקוואַנס אין אַמאָל אַנשטאָט פון איין וואָרט אין אַ צייַט. א טראַנספאָרמער-באזירט מאָדעל ניצט ופמערקזאַמקייַט מעקאַניזאַמז צו טייַטשן סאַקווענטשאַל אַרייַנשרייַב.
דער שטריך אַלאַוז BERT צו אָנכאַפּן דעם קאָנטעקסט פון ווערטער אין אַ פראַזע.
איר קענט נוצן BERT פֿאַר טעקסט קאַטאַגעריזיישאַן, שפּראַך פארשטאנד, געהייסן ענטיטי לעגיטימאַציע און קאָרעפערענסע האַכלאָטע, צווישן אנדערע NLP אַפּלאַקיישאַנז. אויך, עס איז וווילטויק אין דזשענערייטינג טעקסט און פארשטאנד פון מאַשין לייענען.
SQUAD
SQuAD (Stanford Question Answering Dataset) איז אַ דאַטאַבייס פון פֿראגן און ענטפֿערס. איר קענען נוצן עס צו באַן מאָדעלס פון מאַשין לייענען קאַמפּרעשאַן. די דאַטאַסעט כולל איבער 100,000 פֿראגן און רעספּאָנסעס אויף אַ פאַרשיידנקייַט פון טעמעס. SQuAD איז אַנדערש פון די פריערדיקע דאַטאַסעץ.
עס פאָוקיסיז אויף פֿראגן וואָס דאַרפן וויסן פון דעם טעקסט ס קאָנטעקסט אלא ווי בלויז וואָס ריכטן טערמינען.
ווי אַ רעזולטאַט, עס איז אַ ויסגעצייכנט מיטל פֿאַר קריייטינג און טעסטינג מאָדעלס פֿאַר קשיא-ענטפֿערן און אנדערע מאַשין-פארשטאנד טאַסקס. מענטשן שרייַבן די פֿראגן אין SQuAD אויך. דאָס גיט אַ הויך קוואַליטעט און קאָנסיסטענסי.
קוילעלדיק, SQuAD איז אַ ווערטפול מיטל פֿאַר NLP ריסערטשערז און דעוועלאָפּערס.
MNLI
MNLI, אָדער Multi-Genre Natural Language Inference, איז אַ דאַטאַסעט געניצט צו באַן און פּרובירן מאַשין לערנען מאָדעלס פֿאַר נאַטירלעך שפּראַך ינפעראַנס. דער ציל פון MNLI איז צו ידענטיפיצירן צי אַ געגעבן דערקלערונג איז אמת, פאַלש אָדער נייטראַל אין ליכט פון אן אנדער דערקלערונג.
MNLI איז אַנדערש פון פריערדיקע דאַטאַסעץ אין אַז עס קאָווערס אַ ברייט קייט פון טעקסטן פֿון פילע זשאַנראַז. די זשאַנראַז בייַטן פון בעלעטריסטיק צו נייַעס און רעגירונג צייטונגען. ווייַל פון דעם וועריאַביליטי, MNLI איז אַ מער רעפּריזענאַטיוו מוסטער פון פאַקטיש-וועלט טעקסט. עס איז עווידענטלי בעסער ווי פילע אנדערע נאַטירלעך שפּראַך ינפעראַנס דאַטאַסעץ.
מיט איבער 400,000 קאַסעס אין די דאַטאַסעט, MNLI גיט אַ באַטייטיק נומער פון ביישפילן פֿאַר טריינינג מאָדעלס. עס אויך כּולל באַמערקונגען פֿאַר יעדער מוסטער צו העלפן די מאָדעלס אין זייער לערנען.
לעצט טאָץ
צום סוף, Hugging Face דאַטאַסעץ זענען אַן ינוואַליאַבאַל מיטל פֿאַר NLP ריסערטשערז און דעוועלאָפּערס. Hugging Face גיט אַ פריימווערק פֿאַר NLP אַנטוויקלונג דורך ניצן אַ דייווערס גרופּע פון דאַטאַסעץ.
מיר טראַכטן די ביגאַסט דאַטאַסעט פון Hugging Face איז די OpenWebText Corpus.
די הויך-קוואַליטעט דאַטאַסעט כּולל איבער 570 גב פון טעקסט דאַטן. עס איז אַן ינוואַליאַבאַל מיטל פֿאַר טריינינג און יוואַליוייטינג NLP מאָדעלס. איר קענען פּרובירן ניצן OpenWebText און אנדערע אין דיין ווייַטער פּראַדזשעקס.
לאָזן אַ ענטפֿערן