Obdelava naravnega jezika (NLP) je priča novemu valu izboljšav. In podatkovni nizi Hugging Face so v ospredju tega trenda. V tem članku si bomo ogledali pomen podatkovnih nizov Hugging Face.
Videli bomo tudi, kako jih je mogoče uporabiti za urjenje in ocenjevanje NLP modelov.
Hugging Face je podjetje, ki razvijalcem dobavlja različne nabore podatkov.
Ne glede na to, ali ste začetnik ali izkušen strokovnjak za NLP, vam bodo podatki na Hugging Face koristili. Pridružite se nam, ko raziskujemo področje NLP in spoznavamo potencial podatkovnih nizov Hugging Face.
Prvič, kaj je NLP?
Obdelava naravnega jezika (NLP) je veja Umetna inteligenca. Preučuje, kako računalniki komunicirajo s človeškimi (naravnimi) jeziki. NLP vključuje ustvarjanje modelov, ki so sposobni razumeti in interpretirati človeški jezik. Zato lahko algoritmi opravljajo naloge, kot so prevajanje jezika, Analiza klime, in izdelava besedil.
NLP se uporablja na različnih področjih, vključno s storitvami za stranke, trženjem in zdravstvenim varstvom. Cilj NLP je omogočiti računalnikom interpretacijo in razumevanje človeškega jezika, kot je napisan ali govorjen, na način, ki je čim bolj podoben človeškemu.
Pregled Objemni obraz
Objemni obraz je podjetje za obdelavo naravnega jezika (NLP) in tehnologijo strojnega učenja. Zagotavljajo široko paleto virov za pomoč razvijalcem pri razvoju področja NLP. Njihov najbolj omembe vreden izdelek je knjižnica Transformers.
Zasnovan je za aplikacije za obdelavo naravnega jezika. Zagotavlja tudi vnaprej usposobljene modele za različne naloge NLP, kot sta prevajanje jezikov in odgovarjanje na vprašanja.
Hugging Face poleg knjižnice Transformers ponuja platformo za skupno rabo naborov podatkov strojnega učenja. To omogoča hiter dostop do visoke kakovosti nabori podatkov za usposabljanje njihovi modeli.
Poslanstvo Hugging Face je narediti obdelavo naravnega jezika (NLP) bolj dostopno za razvijalce.
Najbolj priljubljeni nizi podatkov o objemajočih se obrazih
Cornell Movie-Dialogs Corpus
To je dobro znan nabor podatkov iz Hugging Face. Cornell Movie-Dialogs Corpus vsebuje dialoge, vzete iz filmskih scenarijev. Modele za obdelavo naravnega jezika (NLP) je mogoče učiti z uporabo te obsežne količine besedilnih podatkov.
V zbirko je vključenih več kot 220,579 dialogov med 10,292 pari filmskih likov.
Ta nabor podatkov lahko uporabite za različne NLP naloge. Na primer, lahko razvijete ustvarjanje jezikov in projekte odgovarjanja na vprašanja. Ustvarite lahko tudi dialogne sisteme. ker pogovori pokrivajo tako širok spekter tem. Nabor podatkov je bil tudi v veliki meri uporabljen v raziskovalnih projektih.
Zato je to zelo uporabno orodje za raziskovalce in razvijalce NLP.
Korpus OpenWebText
OpenWebText Corpus je zbirka spletnih strani, ki jih najdete na platformi Hugging Face. Ta nabor podatkov vključuje široko paleto spletnih strani, kot so članki, blogi in forumi. Poleg tega so bili vsi izbrani zaradi svoje visoke kakovosti.
Nabor podatkov je še posebej dragocen za usposabljanje in ocenjevanje NLP modelov. Zato lahko ta nabor podatkov uporabite za naloge, kot sta prevajanje in povzemanje. Prav tako lahko izvedete analizo razpoloženja s tem naborom podatkov, ki je velika prednost za številne aplikacije.
Ekipa Hugging Face je pripravila korpus OpenWebText, da bi zagotovila visokokakovosten vzorec za usposabljanje. To je velik nabor podatkov z več kot 570 GB besedilnih podatkov.
BERTI
BERT (Bidirectional Encoder Representations from Transformers) je NLP model. Predhodno je bil usposobljen in je dostopen na platformi Hugging Face. BERT je ustvarila skupina Google AI Language. Poleg tega se usposablja na obsežnem naboru besedilnih podatkov, da dojame kontekst besed v frazi.
Ker je BERT model, ki temelji na transformatorju, lahko obdela celotno vhodno zaporedje naenkrat namesto ene besede naenkrat. Model, ki temelji na transformatorju, uporablja mehanizmi pozornosti za interpretacijo zaporednega vnosa.
Ta funkcija omogoča BERT-u, da razume kontekst besed v frazi.
BERT lahko uporabite za kategorizacijo besedila, razumevanje jezika, imenovana entiteta identifikacijo in reševanje koreference med drugimi aplikacijami NLP. Prav tako je koristen pri ustvarjanju besedila in razumevanju strojnega branja.
SQUAD
SQuAD (Stanford Question Answering Dataset) je baza podatkov vprašanj in odgovorov. Uporabite ga lahko za urjenje modelov strojnega branja in razumevanja. Nabor podatkov vključuje več kot 100,000 vprašanj in odgovorov o različnih temah. SQuAD se razlikuje od prejšnjih naborov podatkov.
Osredotoča se na poizvedbe, ki zahtevajo poznavanje konteksta besedila, ne pa le na ujemanje ključnih besed.
Posledično je odličen vir za ustvarjanje in testiranje modelov za odgovarjanje na vprašanja in druga opravila strojnega razumevanja. Tudi ljudje pišejo vprašanja v SQuAD. To zagotavlja visoko stopnjo kakovosti in doslednosti.
Na splošno je SQuAD dragocen vir za raziskovalce in razvijalce NLP.
MNLI
MNLI ali Multi-Genre Natural Language Inference je nabor podatkov, ki se uporablja za usposabljanje in testiranje modeli strojnega učenja za sklepanje o naravnem jeziku. Namen MNLI je ugotoviti, ali je dana izjava resnična, napačna ali nevtralna glede na drugo izjavo.
MNLI se od prejšnjih naborov podatkov razlikuje po tem, da zajema širok spekter besedil iz številnih žanrov. Ti žanri se razlikujejo od leposlovja do novic in vladnih časopisov. Zaradi te variabilnosti je MNLI bolj reprezentativen vzorec besedila iz resničnega sveta. Očitno je boljši od mnogih drugih nizov podatkov o sklepanju naravnega jezika.
Z več kot 400,000 primeri v naboru podatkov MNLI zagotavlja veliko število primerov za modele usposabljanja. Vsebuje tudi komentarje za vsak vzorec za pomoč modelom pri učenju.
Končna thoughts
Nenazadnje so podatkovni nizi Hugging Face neprecenljiv vir za raziskovalce in razvijalce NLP. Hugging Face zagotavlja okvir za razvoj NLP z uporabo raznolike skupine naborov podatkov.
Menimo, da je največji nabor podatkov Hugging Face korpus OpenWebText.
Ta visokokakovosten nabor podatkov vsebuje več kot 570 GB besedilnih podatkov. Je neprecenljiv vir za usposabljanje in ocenjevanje NLP modelov. V naslednjih projektih lahko poskusite uporabiti OpenWebText in druge.
Pustite Odgovori