Բնական լեզվի մշակումը (NLP) բարելավումների նոր ալիք է տեսնում: Եվ, Hugging Face տվյալների հավաքածուները այս միտման առաջնագծում են: Այս հոդվածում մենք կանդրադառնանք Գրկած դեմքի տվյալների հավաքածուների նշանակությանը:
Բացի այդ, մենք կտեսնենք, թե ինչպես դրանք կարող են օգտագործվել NLP մոդելները վերապատրաստելու և գնահատելու համար:
Hugging Face-ը ընկերություն է, որը ծրագրավորողներին տրամադրում է տվյալների մի շարք հավաքածուներ:
Անկախ նրանից, թե սկսնակ եք, թե փորձառու NLP մասնագետ, Hugging Face-ում ներկայացված տվյալները օգտակար կլինեն ձեզ համար: Միացեք մեզ, երբ մենք ուսումնասիրում ենք NLP-ի ոլորտը և իմանում Hugging Face տվյալների հավաքածուի ներուժի մասին:
Նախ, ինչ է NLP-ն:
Բնական լեզվի մշակումը (NLP) հանդիսանում է մասնաճյուղ Արհեստական բանականություն. Այն ուսումնասիրում է, թե ինչպես են համակարգիչները փոխազդում մարդկային (բնական) լեզուների հետ: NLP-ն ենթադրում է մարդկային լեզուն հասկանալու և մեկնաբանելու ունակ մոդելների ստեղծում: Այսպիսով, ալգորիթմները կարող են կատարել այնպիսի խնդիրներ, ինչպիսիք են լեզվի թարգմանությունը, զգայական վերլուծություն, և տեքստի արտադրություն։
NLP-ն օգտագործվում է մի շարք ոլորտներում՝ ներառյալ հաճախորդների սպասարկումը, մարքեթինգը և առողջապահությունը: NLP-ի նպատակն է թույլ տալ համակարգիչներին մեկնաբանել և հասկանալ մարդկային լեզուն այնպես, ինչպես այն գրված է կամ խոսվում է մարդկանց լեզվին մոտ:
Տեսություն Գրկելով դեմքը
Գրկելով դեմքը բնական լեզվի մշակման (NLP) և մեքենայական ուսուցման տեխնոլոգիաների բիզնես է: Նրանք տրամադրում են ռեսուրսների լայն շրջանակ՝ աջակցելու ծրագրավորողներին NLP-ի ոլորտը զարգացնելու գործում: Նրանց ամենաուշագրավ արտադրանքը Տրանսֆորմերների գրադարանն է:
Այն նախատեսված է բնական լեզվի մշակման հավելվածների համար: Նաև այն տրամադրում է նախապես պատրաստված մոդելներ NLP-ի մի շարք առաջադրանքների համար, ինչպիսիք են լեզվի թարգմանությունը և հարցերի պատասխանը:
Hugging Face-ը, բացի Տրանսֆորմերների գրադարանից, առաջարկում է մեքենայական ուսուցման տվյալների հավաքածուների փոխանակման հարթակ: Սա հնարավորություն է տալիս արագ մուտք գործել բարձր որակ տվյալների հավաքածուներ վերապատրաստման համար նրանց մոդելները։
Hugging Face-ի առաքելությունն է՝ բնական լեզվի մշակումը (NLP) ավելի մատչելի դարձնել մշակողների համար:
Ամենահայտնի գրկախառնված դեմքի տվյալների հավաքածուները
Cornell Movie-Dialogs Corpus
Սա Hugging Face-ի հայտնի տվյալների հավաքածու է: Cornell Movie-Dialogs Corpus-ը ներառում է երկխոսություններ՝ վերցված ֆիլմերի սցենարներից: Բնական լեզվի մշակման (NLP) մոդելները կարող են ուսուցանվել՝ օգտագործելով այս ծավալուն տեքստային տվյալները:
Հավաքածուում ներառված են ավելի քան 220,579 երկխոսություններ 10,292 ֆիլմերի հերոսների զույգերի միջև:
Դուք կարող եք օգտագործել այս տվյալների հավաքածուն NLP-ի մի շարք առաջադրանքների համար: Օրինակ, դուք կարող եք մշակել լեզվի ստեղծման և հարցուպատասխանի նախագծեր: Նաև կարող եք ստեղծել երկխոսության համակարգեր: քանի որ բանակցություններն ընդգրկում են թեմաների նման լայն շրջանակ: Տվյալների հավաքածուն լայնորեն օգտագործվել է նաև հետազոտական ծրագրերում:
Հետևաբար, սա շատ օգտակար գործիք է NLP հետազոտողների և մշակողների համար:
OpenWebText կորպուս
OpenWebText Corpus-ը առցանց էջերի հավաքածու է, որը կարող եք գտնել Hugging Face հարթակում: Այս տվյալների հավաքածուն ներառում է առցանց էջերի լայն շրջանակ, ինչպիսիք են հոդվածները, բլոգները և ֆորումները: Բացի այդ, սրանք բոլորն էլ ընտրվել են իրենց բարձր որակի համար։
Տվյալների հավաքածուն հատկապես արժեքավոր է NLP մոդելների վերապատրաստման և գնահատման համար: Այսպիսով, դուք կարող եք օգտագործել այս տվյալների հավաքածուն այնպիսի խնդիրների համար, ինչպիսիք են թարգմանությունը և ամփոփումը: Բացի այդ, դուք կարող եք կատարել տրամադրությունների վերլուծություն՝ օգտագործելով այս տվյալների հավաքածուն, որը հսկայական ակտիվ է բազմաթիվ ծրագրերի համար:
Hugging Face թիմը մշակել է OpenWebText Corpus-ը՝ մարզումների համար բարձրորակ նմուշ տրամադրելու համար: Դա մեծ տվյալների հավաքածու է, որն ունի ավելի քան 570 ԳԲ տեքստային տվյալներ:
ԲԵՐՏ
BERT-ը (երկուղղորդված կոդավորիչի ներկայացում տրանսֆորմատորներից) NLP մոդել է: Այն նախապես վերապատրաստվել է և հասանելի է Hugging Face հարթակում: BERT-ը ստեղծվել է Google AI Language թիմի կողմից: Նաև այն վերապատրաստվում է տեքստի հսկայական տվյալների բազայի վրա՝ արտահայտության մեջ բառերի համատեքստը հասկանալու համար:
Քանի որ BERT-ը տրանսֆորմատորի վրա հիմնված մոդել է, այն կարող է միանգամից մշակել ներածման ամբողջական հաջորդականությունը՝ միաժամանակ մեկ բառի փոխարեն: Տրանսֆորմատորի վրա հիմնված մոդելը օգտագործում է ուշադրության մեխանիզմներ հաջորդական մուտքագրումը մեկնաբանելու համար:
Այս հատկությունը թույլ է տալիս BERT-ին հասկանալ արտահայտության բառերի համատեքստը:
Դուք կարող եք օգտագործել BERT-ը տեքստի դասակարգման, լեզվի հասկանալու համար, անվանված սուբյեկտ նույնականացում և հանգուցալուծում, ի թիվս այլ NLP հավելվածների: Նաև այն օգտակար է տեքստ ստեղծելու և մեքենայական ընթերցանությունը հասկանալու համար:
SQUAD
SQuAD-ը (Stanford Question Answering Dataset) հարցերի և պատասխանների տվյալների բազա է: Դուք կարող եք օգտագործել այն՝ մեքենայական ընթերցանության ըմբռնման մոդելներ վարժեցնելու համար: Տվյալների հավաքածուն ներառում է ավելի քան 100,000 հարցեր և պատասխաններ տարբեր թեմաների վերաբերյալ: SQuAD-ը տարբերվում է նախորդ տվյալների հավաքածուներից:
Այն կենտրոնանում է հարցումների վրա, որոնք պահանջում են տեքստի համատեքստի իմացություն, այլ ոչ թե պարզապես համապատասխանող հիմնաբառեր:
Արդյունքում, այն հիանալի ռեսուրս է հարցուպատասխանի և մեքենայական ընկալման այլ առաջադրանքների համար մոդելներ ստեղծելու և փորձարկելու համար: Մարդիկ հարցերը գրում են նաև SQuAD-ում։ Սա ապահովում է որակի և հետևողականության բարձր աստիճան:
Ընդհանուր առմամբ, SQuAD-ը արժեքավոր ռեսուրս է NLP հետազոտողների և մշակողների համար:
MNLI
MNLI-ը կամ Multi-Genre Natural Language Inference-ը տվյալների բազա է, որն օգտագործվում է մարզելու և փորձարկելու համար մեքենայական ուսուցման մոդելներ բնական լեզվի եզրակացության համար. MNLI-ի նպատակն է պարզել՝ արդյոք տվյալ պնդումը ճշմարիտ է, կեղծ կամ չեզոք մեկ այլ հայտարարության լույսի ներքո:
MNLI-ն տարբերվում է նախորդ տվյալների հավաքածուներից նրանով, որ այն ներառում է բազմաթիվ ժանրերի տեքստերի լայն շրջանակ: Այս ժանրերը տարբեր են՝ գեղարվեստական գրականությունից մինչև լրատվական և պետական թերթեր: Այս փոփոխականության պատճառով MNLI-ն իրական աշխարհի տեքստի ավելի ներկայացուցչական նմուշ է: Այն ակնհայտորեն ավելի լավ է, քան բնական լեզվի բազմաթիվ այլ եզրակացությունների տվյալների հավաքածուներ:
Տվյալների շտեմարանում ավելի քան 400,000 դեպք ունենալով՝ MNLI-ն զգալի թվով օրինակներ է տրամադրում վերապատրաստման մոդելների համար: Այն նաև պարունակում է մեկնաբանություններ յուրաքանչյուր նմուշի համար, որպեսզի օգնի մոդելներին սովորել:
Վերջնական Մտքեր
Վերջապես, Hugging Face տվյալների հավաքածուները անգնահատելի ռեսուրս են NLP հետազոտողների և մշակողների համար: Hugging Face-ն ապահովում է NLP-ի զարգացման շրջանակ՝ օգտագործելով տվյալների հավաքածուների բազմազան խումբ:
Մենք կարծում ենք, որ Hugging Face-ի ամենամեծ տվյալների բազան OpenWebText Corpus-ն է:
Այս բարձրորակ տվյալների հավաքածուն պարունակում է ավելի քան 570 ԳԲ տեքստային տվյալներ: Այն անգնահատելի ռեսուրս է NLP մոդելների վերապատրաստման և գնահատման համար: Կարող եք փորձել օգտագործել OpenWebText-ը և մյուսները ձեր հաջորդ նախագծերում:
Թողնել գրառում