Natūralios kalbos apdorojimas (NLP) yra naujos patobulinimų bangos liudininkas. Be to, Hugging Face duomenų rinkiniai yra šios tendencijos priešakyje. Šiame straipsnyje apžvelgsime Hugging Face duomenų rinkinių reikšmę.
Taip pat pamatysime, kaip jie gali būti naudojami mokant ir vertinant NLP modelius.
Hugging Face yra įmonė, kuri kūrėjams tiekia įvairius duomenų rinkinius.
Nesvarbu, ar esate pradedantysis, ar patyręs NLP specialistas, Hugging Face pateikti duomenys jums bus naudingi. Prisijunkite prie mūsų, kai tyrinėjame NLP sritį ir sužinokite apie Hugging Face duomenų rinkinių potencialą.
Pirma, kas yra NLP?
Natūralios kalbos apdorojimas (NLP) yra šaka dirbtinis intelektas. Ji tiria, kaip kompiuteriai sąveikauja su žmonių (natūraliomis) kalbomis. NLP apima modelių, galinčių suprasti ir interpretuoti žmogaus kalbą, kūrimą. Taigi, algoritmai gali atlikti tokias užduotis kaip kalbos vertimas, nuotaikos analizė, ir teksto gamyba.
NLP naudojamas įvairiose srityse, įskaitant klientų aptarnavimą, rinkodarą ir sveikatos priežiūrą. NLP tikslas yra leisti kompiuteriams interpretuoti ir suprasti žmonių kalbą, kuri yra parašyta ar kalbama taip, kaip yra žmonių.
Apžvalga Apsikabinęs veidas
Apsikabinęs veidas yra natūralios kalbos apdorojimo (NLP) ir mašininio mokymosi technologijų verslas. Jie teikia platų išteklių spektrą, padedantį kūrėjams plėtoti NLP sritį. Labiausiai vertas dėmesio jų produktas yra „Transformerių“ biblioteka.
Jis skirtas natūralios kalbos apdorojimo programoms. Be to, joje pateikiami iš anksto parengti įvairių NLP užduočių modeliai, pvz., kalbos vertimas ir atsakymas į klausimus.
Hugging Face, be Transformerių bibliotekos, siūlo platformą dalytis mašininio mokymosi duomenų rinkiniais. Tai leidžia greitai pasiekti aukštos kokybės mokymo duomenų rinkiniai jų modeliai.
Hugging Face misija yra padaryti natūralios kalbos apdorojimą (NLP) prieinamesnį kūrėjams.
Populiariausi apkabinimo veido duomenų rinkiniai
Kornelio filmų dialogų korpusas
Tai gerai žinomas Hugging Face duomenų rinkinys. Cornell Movie-Dialogs Corpus sudaro dialogai, paimti iš filmų scenarijų. Natūralios kalbos apdorojimo (NLP) modeliai gali būti mokomi naudojant šį didelį teksto duomenų kiekį.
Į kolekciją įtraukta daugiau nei 220,579 10,292 dialogų susitikimų tarp XNUMX XNUMX filmų personažų porų.
Šį duomenų rinkinį galite naudoti įvairioms NLP užduotims atlikti. Pavyzdžiui, galite kurti kalbos kūrimo ir atsakymų į klausimus projektus. Taip pat galite sukurti dialogo sistemas. nes pokalbiai apima tokį platų temų spektrą. Duomenų rinkinys taip pat buvo plačiai naudojamas mokslinių tyrimų projektuose.
Taigi tai yra labai naudinga priemonė NLP tyrėjams ir kūrėjams.
OpenWebText korpusas
OpenWebText Corpus yra internetinių puslapių rinkinys, kurį galite rasti Hugging Face platformoje. Šis duomenų rinkinys apima daugybę internetinių puslapių, tokių kaip straipsniai, tinklaraščiai ir forumai. Be to, jie visi buvo pasirinkti dėl aukštos kokybės.
Duomenų rinkinys ypač vertingas mokant ir vertinant NLP modelius. Taigi šį duomenų rinkinį galite naudoti tokioms užduotims kaip vertimas ir apibendrinimas. Be to, galite atlikti nuotaikų analizę naudodami šį duomenų rinkinį, kuris yra didžiulis daugelio programų turtas.
„Hugging Face“ komanda kuravo „OpenWebText Corpus“, kad pateiktų aukštos kokybės pavyzdį mokymams. Tai didelis duomenų rinkinys, kuriame yra daugiau nei 570 GB teksto duomenų.
ETRI
BERT (Bidirectional Encoder Representations from Transformers) yra NLP modelis. Jis buvo iš anksto apmokytas ir pasiekiamas Hugging Face platformoje. BERT sukūrė Google AI kalbos komanda. Be to, jis yra išmokytas naudoti didelį teksto duomenų rinkinį, kad suvoktų žodžių kontekstą frazėje.
Kadangi BERT yra transformatoriaus modelis, jis gali apdoroti visą įvesties seką vienu metu, o ne vieną žodį vienu metu. Naudojamas transformatoriaus modelis dėmesio mechanizmai interpretuoti nuoseklią įvestį.
Ši funkcija leidžia BERT suvokti žodžių kontekstą frazėje.
Galite naudoti BERT teksto skirstymui į kategorijas, kalbos supratimui, pavadintas subjektas identifikavimas ir pagrindinės nuorodos skiriamoji geba, be kitų NLP programų. Be to, tai naudinga kuriant tekstą ir suprantant mašininį skaitymą.
SQUAD
SQuAD (Stanford Question Answering Dataset) yra klausimų ir atsakymų duomenų bazė. Galite naudoti jį mokydami mašininio skaitymo supratimo modelius. Duomenų rinkinyje yra daugiau nei 100,000 XNUMX klausimų ir atsakymų įvairiomis temomis. SQuAD skiriasi nuo ankstesnių duomenų rinkinių.
Jame daugiausia dėmesio skiriama užklausoms, kurioms reikia žinoti teksto kontekstą, o ne tik atitikti raktinius žodžius.
Todėl tai puikus šaltinis kuriant ir testuojant modelius, skirtus atsakyti į klausimus ir atlikti kitas mašininio supratimo užduotis. Žmonės taip pat rašo klausimus SQuAD. Tai užtikrina aukštą kokybės ir nuoseklumo laipsnį.
Apskritai, SQuAD yra vertingas šaltinis NLP tyrinėtojams ir kūrėjams.
MNLI
MNLI arba kelių žanrų natūralios kalbos išvada yra duomenų rinkinys, naudojamas mokyti ir išbandyti mašinų mokymosi modeliai natūralios kalbos išvadoms. MNLI tikslas yra nustatyti, ar duotas teiginys yra teisingas, klaidingas ar neutralus, atsižvelgiant į kitą teiginį.
MNLI skiriasi nuo ankstesnių duomenų rinkinių tuo, kad apima platų tekstų spektrą iš daugelio žanrų. Šie žanrai skiriasi nuo grožinės literatūros iki naujienų ir vyriausybės laikraščių. Dėl šio kintamumo MNLI yra labiau reprezentatyvus realaus pasaulio teksto pavyzdys. Akivaizdu, kad tai geriau nei daugelis kitų natūralios kalbos išvadų duomenų rinkinių.
Duomenų rinkinyje yra daugiau nei 400,000 XNUMX atvejų, todėl MNLI pateikia daugybę mokymo modelių pavyzdžių. Jame taip pat yra komentarų apie kiekvieną pavyzdį, kad padėtų modeliams mokytis.
Baigiamosios mintys
Galiausiai Hugging Face duomenų rinkiniai yra neįkainojamas šaltinis NLP tyrėjams ir kūrėjams. Hugging Face suteikia pagrindą NLP kūrimui, naudojant įvairią duomenų rinkinių grupę.
Manome, kad didžiausias Hugging Face duomenų rinkinys yra „OpenWebText Corpus“.
Šiame aukštos kokybės duomenų rinkinyje yra daugiau nei 570 GB teksto duomenų. Tai neįkainojamas NLP modelių mokymo ir vertinimo šaltinis. Kituose projektuose galite pabandyti naudoti OpenWebText ir kitus.
Palikti atsakymą