Tá tonn nua feabhsuithe le feiceáil i bPróiseáil Teanga Nádúrtha (NLP). Agus, tá tacair shonraí Hugging Face ar thús cadhnaíochta sa treocht seo. San Airteagal seo, féachfaimid ar an tábhacht a bhaineann le tacair shonraí Hugging Face.
Chomh maith leis sin, feicfimid conas is féidir iad a úsáid chun samhlacha NLP a oiliúint agus a mheasúnú.
Is cuideachta é Hugging Face a sholáthraíonn tacair shonraí éagsúla d’fhorbróirí.
Cibé an tosaitheoir nó speisialtóir NLP a bhfuil taithí agat, beidh na sonraí a chuirtear ar fáil ar Hugging Face úsáideach duit. Bí linn agus muid ag iniúchadh réimse an NLP agus ag foghlaim faoi na féidearthachtaí a bhaineann le tacair shonraí Hugging Face.
Ar an gcéad dul síos, Cad é NLP?
Is brainse de Phróiseáil Teanga Nádúrtha (NLP). hintleachta saorga. Déanann sé staidéar ar conas a idirghníomhaíonn ríomhairí le teangacha daonna (nádúrtha). Is éard atá i gceist le NLP samhlacha a chruthú a bheidh in ann teanga dhaonna a thuiscint agus a léirmhíniú. Mar sin, is féidir le halgartaim tabhairt faoi thascanna ar nós aistriúchán teanga, anailís meon, agus táirgeadh téacs.
Úsáidtear NLP i réimsí éagsúla, lena n-áirítear seirbhís do chustaiméirí, margaíocht agus cúram sláinte. Is é cuspóir an NLP ligean do ríomhairí teanga dhaonna a léirmhíniú agus a thuiscint mar a scríobhtar nó a labhraítear í ar bhealach atá chomh gar do theanga dhaoine.
Forbhreathnú ar Aghaidh Hugging
Aghaidh Hugging is gnó próiseála teanga nádúrtha (NLP) agus teicneolaíocht meaisínfhoghlama é. Soláthraíonn siad raon leathan acmhainní chun cabhrú le forbróirí réimse an NLP a chur chun cinn. Is é an táirge is suntasaí acu ná leabharlann na gClaochladáin.
Tá sé deartha le haghaidh feidhmeanna próiseála teanga nádúrtha. Chomh maith leis sin, cuireann sé múnlaí réamhoilte ar fáil do thascanna éagsúla NLP mar aistriúchán teanga agus freagra ceisteanna.
Cuireann Hugging Face, chomh maith leis an leabharlann Transformers, ardán ar fáil chun tacair sonraí meaisínfhoghlama a roinnt. Mar sin is féidir rochtain a fháil go tapa ar ardchaighdeán tacair shonraí le haghaidh oiliúna a samhlacha.
Is é misean Hugging Face próiseáil teanga nádúrtha (NLP) a dhéanamh níos inrochtana d’fhorbróirí.
Tacair Sonraí Aghaidh Hugging is Coitianta
Cornell Film Dialogs Corpus
Seo tacar sonraí aitheanta ó Hugging Face. Cuimsíonn Cornell Movie-Dialogs Corpus idirphlé a tógadh ó scripteanna scannáin. Féadfar múnlaí próiseála teanga nádúrtha (NLP) a oiliúint agus an méid fairsing sonraí téacs seo á úsáid.
Tá níos mó ná 220,579 teagmháil dialóige idir 10,292 péire carachtar scannáin san áireamh sa bhailiúchán.
Is féidir leat an tacar sonraí seo a úsáid le haghaidh tascanna éagsúla NLP. Mar shampla, is féidir leat tionscadail cruthú teanga agus freagraí ceisteanna a fhorbairt. Chomh maith leis sin, is féidir leat córais idirphlé a chruthú. mar go gclúdaíonn na cainteanna raon chomh leathan ábhar. Baineadh leas forleathan as an tacar sonraí freisin i dtionscadail taighde.
Mar sin, is uirlis an-úsáideach é seo do thaighdeoirí agus d’fhorbróirí NLP.
Corpas OpenWebText
Is bailiúchán de leathanaigh ar líne é an OpenWebText Corpus is féidir leat a fháil ar an ardán Hugging Face. Áiríonn an tacar sonraí seo raon leathan de leathanaigh ar líne, mar ailt, blaganna, agus fóraim. Thairis sin, roghnaíodh iad seo go léir as a n-ardchaighdeán.
Tá an tacar sonraí thar a bheith luachmhar chun samhlacha NLP a thraenáil agus a mheasúnú. Mar sin, is féidir leat an tacar sonraí seo a úsáid le haghaidh tascanna ar nós aistriúcháin agus achoimriú. Chomh maith leis sin, is féidir leat anailís sentiment a dhéanamh ag baint úsáide as an tacar sonraí seo atá ina acmhainn ollmhór do go leor feidhmchlár.
Choimeád foireann Hugging Face an OpenWebText Corpus chun sampla ardcháilíochta a sholáthar le haghaidh oiliúna. Is tacar sonraí mór é le níos mó ná 570GB de shonraí téacs.
BERT
Is samhail NLP é BERT (Léirithe Ionchódóra Déthreo ó Chlaochladáin). Tá sé réamhoilte agus tá sé inrochtana ar an ardán Hugging Face. Ba í foireann Google AI Language a chruthaigh BERT. Chomh maith leis sin, tá sé oilte ar thacar sonraí téacs ollmhór chun comhthéacs na bhfocal i frása a thuiscint.
Toisc gur samhail atá bunaithe ar chlaochladán é CRET, is féidir leis an seicheamh iomlán ionchuir a phróiseáil ag an am céanna in ionad focal amháin ag an am. Úsáideann múnla atá bunaithe ar chlaochladán meicníochtaí aird ionchur seicheamhach a léirmhíniú.
Cuireann an ghné seo ar chumas BERT comhthéacs na bhfocal i bhfrása a thuiscint.
Is féidir leat BERT a úsáid le haghaidh catagóiriú téacs, tuiscint teanga, eintiteas ainmnithe sainaithint, agus réiteach croí-chomhdhála, i measc feidhmchláir NLP eile. Chomh maith leis sin, tá sé tairbheach chun téacs a ghiniúint agus léitheoireacht meaisín a thuiscint.
SQuAD
Is bunachar sonraí de cheisteanna agus freagraí é SQuAD (Stanford Question Answering Dataset). Is féidir leat é a úsáid chun meaisín-samhlacha tuisceana a oiliúint. Áiríonn an tacar sonraí os cionn 100,000 ceist agus freagra ar ábhair éagsúla. Tá difríocht idir SQuAD agus tacair shonraí roimhe seo.
Díríonn sé ar cheisteanna a éilíonn eolas ar chomhthéacs an téacs seachas díreach eochairfhocail a mheaitseáil.
Mar thoradh air sin, is acmhainn iontach é chun samhlacha a chruthú agus a thástáil le haghaidh freagra ceisteanna agus tascanna eile a bhaineann le tuiscint meaisín. Scríobhann daoine na ceisteanna i SQuAD freisin. Soláthraíonn sé seo leibhéal ard cáilíochta agus comhsheasmhachta.
Tríd is tríd, is acmhainn luachmhar é SQuAD do thaighdeoirí agus d’fhorbróirí NLP.
MNLI
Is tacar sonraí é MNLI, nó Tátal Teanga Nádúrtha Ilchineálach, a úsáidtear chun oiliúint agus tástáil a dhéanamh samhlacha foghlama meaisín le haghaidh tátal teanga nádúrtha. Is é cuspóir an MNLI a aithint an bhfuil ráiteas tugtha fíor, bréagach nó neodrach i bhfianaise ráitis eile.
Tá MNLI difriúil le tacair shonraí roimhe seo sa mhéid is go gclúdaíonn sé raon leathan téacsanna ó go leor seánraí. Athraíonn na seánraí seo ó fhicsean go píosaí nuachta, agus páipéir rialtais. Mar gheall ar an éagsúlacht seo, is sampla níos ionadaí é MNLI de théacs ón bhfíorshaol. Is léir go bhfuil sé níos fearr ná go leor tacair sonraí tátal teanga nádúrtha eile.
Le níos mó ná 400,000 cás sa tacar sonraí, soláthraíonn MNLI líon suntasach samplaí do mhúnlaí oiliúna. Tá tráchtanna ann freisin do gach sampla chun cabhrú leis na múnlaí ina gcuid foghlama.
Smaointe Deiridh
Ar deireadh, is acmhainn fhíorluachmhar iad tacair shonraí Hugging Face do thaighdeoirí agus d’fhorbróirí NLP. Soláthraíonn Hugging Face creat d’fhorbairt NLP trí úsáid a bhaint as grúpa éagsúil tacar sonraí.
Is dóigh linn gurb é an OpenWebText Corpus an tacar sonraí is mó atá ag Hugging Face.
Tá os cionn 570GB de shonraí téacs sa tacar sonraí ardcháilíochta seo. Is acmhainn luachmhar é chun samhlacha NLP a thraenáil agus a mheasúnú. Is féidir leat triail a bhaint as OpenWebText agus cinn eile i do chéad tionscadal eile.
Leave a Reply