El processament del llenguatge natural (NLP) està assistint a una nova onada de millores. I els conjunts de dades Hugging Face estan a l'avantguarda d'aquesta tendència. En aquest article, veurem la importància dels conjunts de dades Hugging Face.
A més, veurem com es poden utilitzar per entrenar i avaluar models de PNL.
Hugging Face és una empresa que subministra als desenvolupadors una varietat de conjunts de dades.
Tant si sou un principiant com un especialista en PNL amb experiència, les dades proporcionades a Hugging Face us seran útils. Uneix-te a nosaltres mentre explorem el camp de la PNL i aprenem sobre el potencial dels conjunts de dades Hugging Face.
En primer lloc, què és la PNL?
El processament del llenguatge natural (PNL) és una branca de intel·ligència artificial. Estudia com els ordinadors interactuen amb els llenguatges humans (naturals). La PNL implica crear models capaços d'entendre i interpretar el llenguatge humà. Per tant, els algorismes poden dur a terme tasques com ara la traducció d'idiomes, anàlisi del sentiment, i producció de textos.
La PNL s'utilitza en diverses àrees, com ara servei al client, màrqueting i assistència sanitària. L'objectiu de la PNL és permetre als ordinadors interpretar i comprendre el llenguatge humà tal com s'escriu o es parla d'una manera tan semblant a la dels humans.
Visió general de Cara abraçada
Cara abraçada és un negoci de processament del llenguatge natural (PNL) i tecnologia d'aprenentatge automàtic. Proporcionen una àmplia gamma de recursos per ajudar els desenvolupadors a millorar l'àrea de la PNL. El seu producte més destacat és la biblioteca Transformers.
Està dissenyat per a aplicacions de processament del llenguatge natural. A més, ofereix models pre-entrenats per a una varietat de tasques de PNL, com ara la traducció d'idiomes i la resposta a preguntes.
Hugging Face, a més de la biblioteca Transformers, ofereix una plataforma per compartir conjunts de dades d'aprenentatge automàtic. Això fa possible accedir ràpidament a alta qualitat conjunts de dades per a la formació els seus models.
La missió d'Hugging Face és fer que el processament del llenguatge natural (PNL) sigui més accessible per als desenvolupadors.
Conjunts de dades d'abraçades més populars
Cornell Movie-Dialogs Corpus
Aquest és un conjunt de dades conegut de Hugging Face. Cornell Movie-Dialogs Corpus inclou diàlegs extrets de guions de pel·lícules. Els models de processament del llenguatge natural (PNL) es poden entrenar utilitzant aquesta gran quantitat de dades de text.
A la col·lecció s'inclouen més de 220,579 trobades de diàleg entre 10,292 parells de personatges de pel·lícules.
Podeu utilitzar aquest conjunt de dades per a una varietat de tasques de PNL. Per exemple, podeu desenvolupar projectes de creació lingüística i de resposta a preguntes. A més, podeu crear sistemes de diàleg. perquè les xerrades cobreixen un ventall tan ampli de temes. El conjunt de dades també s'ha utilitzat àmpliament en projectes de recerca.
Per tant, aquesta és una eina molt útil per als investigadors i desenvolupadors de PNL.
OpenWebText Corpus
L'OpenWebText Corpus és una col·lecció de pàgines en línia que podeu trobar a la plataforma Hugging Face. Aquest conjunt de dades inclou una àmplia gamma de pàgines en línia, com ara articles, blocs i fòrums. A més, tots ells van ser escollits per la seva gran qualitat.
El conjunt de dades és especialment valuós per entrenar i avaluar models de PNL. Per tant, podeu utilitzar aquest conjunt de dades per a tasques com la traducció i el resum. A més, podeu realitzar anàlisis de sentiments mitjançant aquest conjunt de dades, que és un gran actiu per a moltes aplicacions.
L'equip d'Hugging Face va comissariar l'OpenWebText Corpus per proporcionar una mostra d'alta qualitat per a la formació. És un gran conjunt de dades amb més de 570 GB de dades de text.
BERT
BERT (Bidirectional Encoder Representations from Transformers) és un model de PNL. S'ha entrenat prèviament i és accessible a la plataforma Hugging Face. BERT va ser creat per l'equip de Google AI Language. A més, s'entrena en un ampli conjunt de dades de text per comprendre el context de les paraules d'una frase.
Com que BERT és un model basat en transformadors, pot processar la seqüència d'entrada completa alhora en lloc d'una paraula a la vegada. S'utilitza un model basat en transformadors mecanismes d'atenció per interpretar l'entrada seqüencial.
Aquesta característica permet a BERT comprendre el context de les paraules d'una frase.
Podeu utilitzar BERT per a la categorització de text, la comprensió del llenguatge, entitat nomenada identificació i resolució de coreferència, entre altres aplicacions de PNL. A més, és beneficiós per generar text i entendre la lectura automàtica.
SQUAD
SQuAD (Stanford Question Answering Dataset) és una base de dades de preguntes i respostes. Podeu utilitzar-lo per entrenar models de comprensió lectora automàtica. El conjunt de dades inclou més de 100,000 preguntes i respostes sobre diversos temes. SQuAD difereix dels conjunts de dades anteriors.
Se centra en les consultes que requereixen coneixement del context del text en lloc de simplement concordar paraules clau.
Com a resultat, és un recurs excel·lent per crear i provar models per a tasques de preguntes i respostes i altres tasques de comprensió de la màquina. Els humans també escriuen les preguntes a SQuAD. Això proporciona un alt grau de qualitat i consistència.
En general, SQuAD és un recurs valuós per als investigadors i desenvolupadors de PNL.
MNLI
MNLI, o Multi-Genre Natural Language Inference, és un conjunt de dades que s'utilitza per entrenar i provar models d’aprenentatge automàtic per a la inferència del llenguatge natural. El propòsit de MNLI és identificar si una afirmació determinada és vertadera, falsa o neutral a la llum d'una altra afirmació.
MNLI es diferencia dels conjunts de dades anteriors perquè cobreix una àmplia gamma de textos de molts gèneres. Aquests gèneres varien des de ficció fins a notícies i diaris governamentals. A causa d'aquesta variabilitat, MNLI és una mostra més representativa del text del món real. Evidentment, és millor que molts altres conjunts de dades d'inferència de llenguatge natural.
Amb més de 400,000 casos al conjunt de dades, MNLI ofereix un nombre important d'exemples per a models d'entrenament. També conté comentaris per a cada mostra per ajudar els models en el seu aprenentatge.
Consideracions finals
Finalment, els conjunts de dades Hugging Face són un recurs inestimable per als investigadors i desenvolupadors de PNL. Hugging Face proporciona un marc per al desenvolupament de PNL utilitzant un grup divers de conjunts de dades.
Creiem que el conjunt de dades més gran d'Hugging Face és OpenWebText Corpus.
Aquest conjunt de dades d'alta qualitat conté més de 570 GB de dades de text. És un recurs inestimable per formar i avaluar models de PNL. Podeu provar d'utilitzar OpenWebText i altres en els vostres propers projectes.
Deixa un comentari