Natural Language Processing (NLP) e bona leqhubu le lecha la ntlafatso. 'Me, li-dataset tsa Hugging Face li ka pele ho mokhoa ona. Sehloohong sena, re tla sheba bohlokoa ba Hugging Face datasets.
Hape, re tla bona hore na li ka sebelisoa joang ho koetlisa le ho lekola mefuta ea NLP.
Hugging Face ke k'hamphani e fanang ka bahlahisi ka mefuta e fapaneng ea li-database.
Hore na o motho ea qalang kapa setsebi sa NLP se nang le boiphihlelo, lintlha tse fanoeng ho Hugging Face li tla u tsoela molemo. Eba le rona ha re ntse re hlahloba karolo ea NLP le ho ithuta ka bokhoni ba li-dataset tsa Hugging Face.
Taba ea pele, NLP ke eng?
Natural Language Processing (NLP) ke lekala la bohlale ba maiketsetso. E ithuta ka moo likhomphutha li sebelisanang le lipuo tsa batho (tsa tlhaho). NLP e kenyelletsa ho theha mehlala e khonang ho utloisisa le ho toloka puo ea batho. Kahoo, li-algorithms li ka etsa mesebetsi e kang phetolelo ea puo, maikutlo a maikutlo, le tlhahiso ea mongolo.
NLP e sebelisoa libakeng tse fapaneng, ho kenyeletsoa litšebeletso tsa bareki, papatso le tlhokomelo ea bophelo bo botle. Sepheo sa NLP ke ho lumella likhomphutha ho hlalosa le ho utloisisa puo ea batho kamoo e ngotsoeng kapa e buuoang ka mokhoa o haufi le oa batho.
Kakaretso ea Sefahleho se hakileng
Sefahleho se hakileng ke khoebo ea puo ea tlhaho (NLP) le khoebo ea theknoloji ea ho ithuta ka mochini. Ba fana ka lisebelisoa tse fapaneng ho thusa bahlahisi ho ntšetsa pele sebaka sa NLP. Sehlahisoa sa bona se hlokomelehang haholo ke laebrari ea Transformers.
E etselitsoe lits'ebetso tsa ts'ebetso ea puo ea tlhaho. Hape, e fana ka mehlala e koetlisitsoeng esale pele bakeng sa mesebetsi e fapaneng ea NLP joalo ka phetolelo ea puo le likarabo tsa lipotso.
Hugging Face, ntle le laeborari ea Transformers, e fana ka sethala sa ho arolelana lisebelisoa tsa ho ithuta ka mochini. Sena se etsa hore ho khonehe ho fihlella boleng bo phahameng ka potlako li-datasets tsa koetliso mehlala ea bona.
Morero oa Hugging Face ke ho etsa hore ts'ebetso ea puo ea tlhaho (NLP) e fumanehe habonolo bakeng sa bahlahisi.
Li-datasets tse tsebahalang haholo tsa Hugging Face
Cornell Movie-Dialogs Corpus
Ena ke pokello ea data e tsebahalang ho tsoa ho Hugging Face. Cornell Movie-Dialogs Corpus e na le lipuisano tse nkiloeng lipapaling tsa lifilimi. Meetso ea Tlhaho ea Puo ea Tlhaho (NLP) e ka koetlisoa ho sebelisoa palo ena e pharalletseng ea data ea mongolo.
Likopano tse fetang 220,579 lipakeng tsa libapali tsa lifilimi tse 10,292 li kenyellelitsoe pokellong.
U ka sebelisa dataset ena bakeng sa mesebetsi e fapaneng ea NLP. Mohlala, o ka nts'etsapele liporojeke tsa ho theha puo le ho araba lipotso. Hape, o ka etsa litsamaiso tsa lipuisano. hobane lipuo li akaretsa lihlooho tse ngata hakana. Dataset e boetse e sebelisoa haholo mererong ea lipatlisiso.
Kahoo, sena ke sesebelisoa sa bohlokoa haholo ho bafuputsi le bahlahisi ba NLP.
OpenWebText Corpus
OpenWebText Corpus ke pokello ea maqephe a marang-rang ao u ka a fumanang sethaleng sa Hugging Face. Lethathamo lena le kenyelletsa maqephe a mangata a marang-rang, joalo ka lingoliloeng, li-blogs le liforamu. Ho feta moo, tsena kaofela li ne li khethetsoe boleng ba tsona bo phahameng.
Lenane la data le bohlokoa haholo bakeng sa ho koetlisa le ho lekola mefuta ea NLP. Kahoo, o ka sebelisa pokello ea data ena bakeng sa mesebetsi e kang phetolelo, le kakaretso. Hape, o ka etsa tlhahlobo ea maikutlo o sebelisa dataset ena e leng letlotlo le leholo bakeng sa lits'ebetso tse ngata.
Sehlopha sa Hugging Face se hlophisitse OpenWebText Corpus ho fana ka sampole ea boleng bo holimo bakeng sa koetliso. Ke dataset e kholo e nang le data e fetang 570GB ea mongolo.
BOTLE
BERT (Bidirectional Encoder Representations ho tloha Transformers) ke mohlala oa NLP. E se e koetlisitsoe esale pele 'me e fumaneha sethaleng sa Hugging Face. BERT e entsoe ke sehlopha sa Puo ea Google AI. Hape, e koetlisetsoa lethathamong le leholo la lingoloa ho utloisisa moelelo oa mantsoe polelong.
Hobane BERT ke mohlala o thehiloeng ho li-transformer, e ka sebetsana le tatellano e felletseng ea ho kenya hang ho fapana le lentsoe le le leng ka nako. Moetso o thehiloeng ho transformer o sebelisoa mekhoa ea tlhokomelo ho toloka ho kenya ka tatellano.
Karolo ena e thusa BERT ho utloisisa moelelo oa mantsoe polelong.
U ka sebelisa BERT bakeng sa likarolo tsa mongolo, kutloisiso ea puo, lebitso la mokgatlo boitsebahatso, le tharollo ea mantlha, har'a lits'ebetso tse ling tsa NLP. Hape, e na le thuso ho hlahiseng mongolo le ho utloisisa ho bala ka mochini.
SQUAD
SQUAD (Stanford Questions Answering Dataset) ke pokello ea lipotso le likarabo. U ka e sebelisa ho koetlisa mekhoa ea kutloisiso ea ho bala mochini. Phatlalatso e kenyelletsa lipotso le likarabo tse fetang 100,000 lihloohong tse fapaneng. SQUAD e fapane le li-dataset tse fetileng.
E shebana le lipotso tse hlokang tsebo ea moelelo oa sengoloa ho fapana le ho nyallana mantsoe a sehlooho feela.
Ka lebaka leo, ke mohloli o babatsehang oa ho theha le ho hlahloba mehlala ea likarabo tsa lipotso le mesebetsi e meng ea ho utloisisa mochine. Batho le bona ba ngola lipotso ho SQUAD. Sena se fana ka boemo bo phahameng ba boleng le botsitso.
Ka kakaretso, SQuAD ke sesebelisoa sa bohlokoa bakeng sa bafuputsi le bahlahisi ba NLP.
MNLI
MNLI, kapa Multi-Genre Natural Language Inference, ke dataset e sebelisetsoang ho koetlisa le ho etsa liteko mehlala ea ho ithuta mochini bakeng sa tlhaloso ea puo ea tlhaho. Sepheo sa MNLI ke ho tseba hore na polelo e fanoeng ke 'nete, bohata, kapa ha e nke lehlakore ho latela polelo e 'ngoe.
MNLI e fapana le li-dataset tsa nakong e fetileng kaha e akaretsa mefuta e mengata ea litemana tse tsoang mefuteng e mengata. Mefuta ena e fapana ho ea ka lipale tse iqapetsoeng ho ea ho tse ling, le lipampiri tsa mmuso. Ka lebaka la phapang ena, MNLI ke mohlala o emelang haholoanyane oa sengoloa sa lefatše la 'nete. Ho hlakile hore e betere ho feta liphatlalatso tse ling tse ngata tsa puo ea tlhaho.
Ka linyeoe tse fetang 400,000 lethathamong la data, MNLI e fana ka mehlala e mengata ea mehlala ea koetliso. E boetse e na le litlhaloso bakeng sa sampole ka 'ngoe ho thusa mehlala thutong ea bona.
Mehopolo ea ho qetela
Qetellong, li-dataset tsa Hugging Face ke sesebelisoa sa bohlokoa bakeng sa bafuputsi le bahlahisi ba NLP. Hugging Face e fana ka moralo oa nts'etsopele ea NLP ka ho sebelisa lihlopha tse fapaneng tsa li-database.
Re nahana hore datha e kholo ka ho fetisisa ea Hugging Face ke OpenWebText Corpus.
Dataset ena ea boleng bo holimo e na le lintlha tse fetang 570GB tsa mongolo. Ke sesebelisoa sa bohlokoahali sa ho koetlisa le ho lekola mefuta ea NLP. U ka leka ho sebelisa OpenWebText le tse ling mererong ea hau e latelang.
Leave a Reply