Tha Natural Language Processing (NLP) a’ faicinn tonn ùr de leasachaidhean. Agus, tha stòran-dàta Hugging Face aig fìor thoiseach a’ ghluasaid seo. San artaigil seo, seallaidh sinn ri cudromachd stòran-dàta Hugging Face.
Cuideachd, chì sinn mar a dh’fhaodar an cleachdadh gus modalan NLP a thrèanadh agus a mheasadh.
Is e companaidh a th’ ann an Hugging Face a bhios a’ toirt seachad grunn stòran-dàta do luchd-leasachaidh.
Ge bith a bheil thu nad neach-tòiseachaidh no nad eòlaiche eòlach NLP, bidh an dàta a chaidh a thoirt seachad air Hugging Face feumail dhut. Thig còmhla rinn fhad ‘s a bhios sinn a’ sgrùdadh raon NLP agus ag ionnsachadh mu chomas stòran-dàta Hugging Face.
An toiseach, Dè a th’ ann an NLP?
Tha Natural Language Processing (NLP) na mheur de Artificial Intelligence. Bidh e a’ sgrùdadh mar a bhios coimpiutairean ag eadar-obrachadh le cànanan daonna (nàdarra). Tha NLP a’ ciallachadh a bhith a’ cruthachadh mhodalan a tha comasach air cànan daonna a thuigsinn agus a mhìneachadh. Mar sin, faodaidh algorithms gnìomhan leithid eadar-theangachadh cànain a dhèanamh, mion-sgrùdadh faireachdainn, agus riochdachadh teacsa.
Tha NLP air a chleachdadh ann an grunn raointean, a’ gabhail a-steach seirbheis teachdaiche, margaidheachd, agus cùram slàinte. Is e amas NLP leigeil le coimpiutairean cànan daonna a mhìneachadh agus a thuigsinn mar a tha e sgrìobhte no ga bruidhinn ann an dòigh a tha cho faisg air cànan dhaoine.
Sealladh farsaing air Aghaidh aghaidh
Aghaidh aghaidh na ghnìomhachas giollachd cànain nàdarra (NLP) agus teicneòlas ionnsachaidh innealan. Bidh iad a’ tabhann raon farsaing de ghoireasan gus luchd-leasachaidh a chuideachadh ann a bhith ag adhartachadh raon NLP. Is e an toradh as ainmeil aca an leabharlann Transformers.
Tha e air a dhealbhadh airson tagraidhean giollachd cànain nàdarra. Cuideachd, tha e a’ toirt seachad modalan ro-thrèanadh airson grunn ghnìomhan NLP leithid eadar-theangachadh cànain agus freagairt cheistean.
Tha Hugging Face, a bharrachd air an leabharlann Transformers, a’ tabhann àrd-ùrlar airson a bhith a’ roinneadh stòran-dàta ionnsachadh innealan. Tha seo ga dhèanamh comasach faighinn gu luath de chàileachd àrd stòran-dàta airson trèanadh na modailean aca.
Is e rùn Hugging Face giollachd cànain nàdarra (NLP) a dhèanamh nas ruigsinniche do luchd-leasachaidh.
Na seataichean dàta aghaidh Hugging as mòr-chòrdte
Cornell Movie-Dialogs Corpus
Is e seo clàr-dàta ainmeil bho Hugging Face. Tha Cornell Movie-Dialogs Corpus a’ toirt a-steach còmhraidhean a chaidh a thogail bho scrionaichean film. Faodar modalan giollachd cànain nàdurrach (NLP) a thrèanadh a’ cleachdadh an ìre fharsaing seo de dhàta teacsa.
Tha còrr air 220,579 de choinneamhan còmhraidh eadar 10,292 paidhir charactaran film air an toirt a-steach don chruinneachadh.
Faodaidh tu an dàta seo a chleachdadh airson grunn ghnìomhan NLP. Mar eisimpleir, faodaidh tu pròiseactan cruthachadh cànain agus freagairt cheistean a leasachadh. Cuideachd, faodaidh tu siostaman còmhraidh a chruthachadh. oir tha na còmhraidhean a’ còmhdach raon cho farsaing de chuspairean. Tha an stòr-dàta cuideachd air a chleachdadh gu mòr ann am pròiseactan rannsachaidh.
Mar sin, tha seo na inneal air leth feumail airson luchd-rannsachaidh agus luchd-leasachaidh NLP.
Corpas OpenWebText
Tha an OpenWebText Corpus na chruinneachadh de dhuilleagan air-loidhne a lorgas tu air an àrd-ùrlar Hugging Face. Tha an stòr-dàta seo a’ toirt a-steach raon farsaing de dhuilleagan air-loidhne, leithid artaigilean, blogaichean, agus fòraman. A bharrachd air an sin, chaidh iad sin uile a thaghadh airson an càileachd àrd.
Tha an dàta gu sònraichte luachmhor airson trèanadh agus measadh mhodalan NLP. Mar sin, faodaidh tu an stòr-dàta seo a chleachdadh airson gnìomhan leithid eadar-theangachadh, agus geàrr-chunntas. Cuideachd, faodaidh tu mion-sgrùdadh faireachdainn a dhèanamh a’ cleachdadh an t-seata dàta seo a tha na mhaoin mhòr airson mòran thagraidhean.
Ghlèidh an sgioba Hugging Face an OpenWebText Corpus gus sampall àrd-inbhe a thoirt seachad airson trèanadh. Is e stòr-dàta mòr a th’ ann le barrachd air 570GB de dhàta teacsa.
BERT
Tha BERT (Riochdachaidhean dà-thaobhach Encoder bho Transformers) na mhodail NLP. Chaidh a thrèanadh ro-làimh agus gheibhear thuige air an àrd-ùrlar Hugging Face. Chaidh BERT a chruthachadh le sgioba Google AI Language. Cuideachd, tha e air a thrèanadh air stòr-dàta teacsa mòr gus greim fhaighinn air co-theacsa fhaclan ann an abairt.
Leis gur e modail stèidhichte air cruth-atharrachaidh a th’ ann am BERT, is urrainn dha an t-sreath cuir a-steach iomlan a phròiseasadh aig an aon àm an àite aon fhacal aig aon àm. Bidh modail stèidhichte air cruth-atharrachaidh a’ cleachdadh dòighean aire mìneachadh a thoirt a-steach sreath.
Leigidh am feart seo le BERT co-theacs fhaclan ann an abairt a thuigsinn.
Faodaidh tu BERT a chleachdadh airson seòrsachadh teacsa, tuigse cànain, eintiteas ainmichte comharrachadh, agus fuasgladh co-dhùnaidh, am measg thagraidhean NLP eile. Cuideachd, tha e buannachdail ann a bhith a’ gineadh teacsa agus a’ tuigsinn leughadh inneal.
SQuAD
Tha SQuAD (Stanford Question Answering Dataset) na stòr-dàta de cheistean is fhreagairtean. Faodaidh tu a chleachdadh gus modalan tuigse leughaidh inneal a thrèanadh. Tha an dàta a’ toirt a-steach còrr air 100,000 ceist agus freagairt air grunn chuspairean. Tha SQuAD diofraichte bho stòran-dàta roimhe.
Bidh e a’ cuimseachadh air ceistean a dh’ fheumas eòlas air co-theacs an teacsa seach a bhith dìreach a’ maidseadh prìomh fhaclan.
Mar thoradh air an sin, tha e na ghoireas air leth airson modalan a chruthachadh agus fheuchainn airson freagairt cheistean agus gnìomhan tuigse inneal eile. Bidh daoine a’ sgrìobhadh nan ceistean ann an SQuAD cuideachd. Tha seo a 'toirt seachad ìre àrd de chàileachd agus cunbhalachd.
Gu h-iomlan, tha SQuAD na ghoireas luachmhor dha luchd-rannsachaidh agus luchd-leasachaidh NLP.
MNLI
Tha MNLI, no Co-dhùnadh Cànain Nàdarra Ioma-ghnèitheach, na sheata-dàta a thathar a’ cleachdadh airson trèanadh agus deuchainn modalan ionnsachaidh innealan airson co-dhùnadh cànain nàdarra. Is e adhbhar MNLI faighinn a-mach a bheil aithris a chaidh a thoirt seachad fìor, meallta no neo-phàirteach mar thoradh air aithris eile.
Tha MNLI diofraichte bho stòran-dàta roimhe leis gu bheil e a’ còmhdach raon farsaing de theacsaichean bho iomadh gnè. Tha na gnèithean sin eadar-dhealaichte bho fhicsean gu pìosan naidheachd, agus pàipearan riaghaltais. Air sgàth an caochlaideachd seo, tha MNLI na shampall nas riochdaiche de theacsa fìor. Tha e follaiseach gu bheil e nas fheàrr na mòran dàta co-dhùnaidhean cànain nàdarra eile.
Le còrr air 400,000 cùis anns an t-seata dàta, tha MNLI a’ toirt seachad àireamh mhòr de eisimpleirean airson modalan trèanaidh. Tha beachdan ann cuideachd airson gach sampall gus na modailean a chuideachadh nan ionnsachadh.
Final Thoughts
Mu dheireadh, tha stòran-dàta Hugging Face nan goireas luachmhor dha luchd-rannsachaidh agus luchd-leasachaidh NLP. Tha Hugging Face a’ toirt seachad frèam airson leasachadh NLP le bhith a’ cleachdadh buidheann eadar-mheasgte de stòran-dàta.
Tha sinn den bheachd gur e an OpenWebText Corpus an stòr-dàta as motha aig Hugging Face.
Anns an t-seata dàta àrd-inbhe seo tha còrr air 570GB de dhàta teacsa. Tha e na ghoireas luachmhor airson trèanadh agus luachadh mhodalan NLP. Faodaidh tu feuchainn ri OpenWebText agus feadhainn eile a chleachdadh anns na h-ath phròiseactan agad.
Leave a Reply