Pêvajoya Zimanê Xwezayî (NLP) şahidê pêlek nû ya çêtirbûnê ye. Û, Daneyên Hugging Face li pêşiya vê meylê ne. Di vê gotarê de, em ê li girîngiya danehevên Hugging Face binêrin.
Di heman demê de, em ê bibînin ka ew çawa dikarin ji bo perwerdekirin û nirxandina modelên NLP-ê werin bikar anîn.
Hugging Face pargîdaniyek e ku pêşdebiran cûrbecûr danehevan peyda dike.
Ma hûn destpêkek an pisporek NLP-ya pispor bin, daneyên ku li ser Hugging Face têne peyda kirin dê ji we re bikar bînin. Tevlî me bibin gava ku em qada NLP-ê vedikolin û li ser potansiyela danehevên Hugging Face fêr dibin.
Pêşîn, NLP çi ye?
Pêvajoya Zimanê Xwezayî (NLP) şaxek e çêkirî. Ew lêkolîn dike ka komputer çawa bi zimanên mirovan (xwezayî) re têkilî dikin. NLP diafirîne modelên ku bikaribin zimanê mirovan fêm bikin û şîrove bikin. Ji ber vê yekê, algorîtma dikarin karên wekî wergera zimanî bikin, analîzê, û hilberîna nivîsê.
NLP di warên cûrbecûr de, tevî karûbarê xerîdar, kirrûbirra, û lênihêrîna tenduristî tê bikar anîn. Armanca NLP ev e ku rê bide komputeran ku zimanê mirovî wekî ku tê nivîsandin an axaftin bi rengekî ku nêzîkê zimanê mirovan tê şîrovekirin û têgihîştin.
Pêşkêşkirina of Rûyê Hugging
Rûyê Hugging karsaziyek teknolojiya fêrbûna makîneyê (NLP) û hilberîna zimanê xwezayî ye. Ew cûrbecûr çavkaniyan peyda dikin da ku ji pêşdebiran re di pêşdebirina qada NLP de bibin alîkar. Berhema wan a herî balkêş pirtûkxaneya Transformers e.
Ew ji bo sepanên pêvajoya zimanê xwezayî hatiye çêkirin. Di heman demê de, ew ji bo cûrbecûr karên NLP yên wekî wergera ziman û bersiva pirsê modelên pêş-perwerdekirî peyda dike.
Hugging Face, ji bilî pirtûkxaneya Transformers, platformek ji bo parvekirina daneyên fêrbûna makîneyê pêşkêşî dike. Ev dihêle ku meriv zû bigihîje kalîteya bilind daneyên ji bo perwerdehiyê modelên wan.
Mîsyona Hugging Face ev e ku pêvajokirina zimanê xwezayî (NLP) ji bo pêşdebiran bêtir bigihîje.
Daneyên Rûyê Hemêzkirina Herî Populer
Cornell Movie-Dialogs Corpus
Ev danegehek naskirî ye ji Hugging Face. Cornell Movie-Dialogs Corpus diyalogên ku ji senaryoyên fîlman hatine girtin pêk tê. Dibe ku modelên pêvajoyek zimanê xwezayî (NLP) bi karanîna vê mîqdara berfireh a daneya nivîsê were perwerde kirin.
Zêdetirî 220,579 hevdîtinên diyalogê yên di navbera 10,292 cotên karakterên fîlimê de di berhevokê de hene.
Hûn dikarin vê databasê ji bo cûrbecûr karên NLP bikar bînin. Mînakî, hûn dikarin projeyên afirandina ziman û bersivdayîna pirsê pêş bixin. Her weha, hûn dikarin pergalên diyalogê biafirînin. ji ber ku gotûbêj mijareke wisa berfireh digre nava xwe. Daneyên di projeyên lêkolînê de jî bi berfirehî hatine bikar anîn.
Ji ber vê yekê, ev ji bo lêkolîner û pêşdebiran NLP amûrek pir bikêr e.
OpenWebText Corpus
OpenWebText Corpus berhevokek rûpelên serhêl e ku hûn dikarin li ser platforma Hugging Face bibînin. Ev danehev gelek rûpelên serhêl, wekî gotar, blog û foruman vedihewîne. Wekî din, ev hemî ji bo kalîteya xwe ya bilind hatine hilbijartin.
Daneyên bi taybetî ji bo perwerdekirin û nirxandina modelên NLP-ê bi qîmet e. Ji ber vê yekê, hûn dikarin vê databasê ji bo karên wekî werger, û kurtkirin bikar bînin. Di heman demê de, hûn dikarin bi karanîna vê databasê ku ji bo gelek serlêdanan sermayek mezin e, analîza hestê bikin.
Tîma Hugging Face korpusa OpenWebText kir ku ji bo perwerdehiyê nimûneyek kalîteya bilind peyda bike. Ew danehevek mezin e ku ji zêdetirî 570 GB daneyên nivîsê hene.
Bert
BERT (Nûnerên Encodera Dualî ji Transformers) modelek NLP ye. Ew pêş-perwerde bûye û li ser platforma Hugging Face tê gihîştin. BERT ji hêla tîmê Zimanê Google AI ve hatî çêkirin. Di heman demê de, ew li ser danûstendinek nivîsê ya berfireh tê perwerde kirin da ku çarçoweya peyvan di hevokekê de bigire.
Ji ber ku BERT modelek veguherîner-based e, ew dikare li şûna yek peyvê di carekê de rêzika têketina tevahî bi yekcarî pêvajoyê bike. Modelek veguherîner-based bikar tîne mekanîzmayên balê ji bo ketina pey hev şîrove bike.
Ev taybetmendî rê dide BERT ku naveroka peyvan di hevokekê de bigire.
Hûn dikarin BERT-ê ji bo kategorîzekirina nivîsê, têgihîştina ziman bikar bînin, saziyek binavkirî Nasname, û çareseriya bingehîn, di nav serîlêdanên din ên NLP de. Di heman demê de, ew di hilberîna nivîsê û têgihiştina xwendina makîneyê de sûdmend e.
SQuAD
SQuAD (Stanford Question Answering Dataset) databasek pirs û bersivan e. Hûn dikarin wê bikar bînin ku modelên têgihîştina xwendina makîneyê perwerde bikin. Di danezanê de zêdetirî 100,000 pirs û bersiv li ser mijarên cihêreng hene. SQuAD ji daneyên berê cuda ye.
Ew li ser pirsên ku hewceyê zanîna çarçoweya nivîsê ne li şûna peyvên sereke yên lihevhatinê disekine.
Wekî encamek, ew çavkaniyek hêja ye ji bo afirandina û ceribandina modelên ji bo pirs-bersivdan û karên din ên têgihîştina makîneyê. Mirov pirsan di SQuAD de jî dinivîsin. Ev astek bilind a kalîteyê û hevgirtî peyda dike.
Bi tevahî, SQuAD ji bo lêkolîner û pêşdebirên NLP çavkaniyek hêja ye.
MNLI
MNLI, an Encama Zimanê Xwezayî ya Pir-Genre, databasek e ku ji bo perwerdekirin û ceribandinê tê bikar anîn modelên fêrbûna makîneyê ji bo encamdana zimanê xwezayî. Armanca MNLI ew e ku nas bike ka daxuyaniyek hatî dayîn rast e, xelet, an bêalî ye di ronahiya gotinek din de.
MNLI ji danehevên berê cuda dibe ku ew ji gelek celebên cûrbecûr cûrbecûr nivîsan vedihewîne. Van celeb ji çîrokan heya nûçeyên nûçeyan, û kaxezên hukûmetê diguhezin. Ji ber vê guhêrbariyê, MNLI nimûneyek nunertiya nivîsa cîhana rastîn e. Eşkere ye ku ew ji gelek daneyên din ên encamên zimanê xwezayî çêtir e.
Li gel zêdetirî 400,000 bûyer di danezanê de, MNLI ji bo modelên perwerdehiyê hejmareke girîng mînakan peyda dike. Di heman demê de ji bo her nimûne şîroveyan vedihewîne da ku di fêrbûna modelan de bibe alîkar.
Thoughts Final
Di dawiyê de, danûstendinên Hugging Face ji bo lêkolîner û pêşdebirên NLP çavkaniyek bêhempa ye. Hugging Face ji bo pêşkeftina NLP-ê bi karanîna komek cûrbecûr daneyên danûstendinê ve çarçoveyek peyda dike.
Em difikirin ku daneheva herî mezin a Hugging Face OpenWebText Corpus e.
Ev databasa kalîteya bilind zêdetirî 570 GB daneyên nivîsê dihewîne. Ew ji bo perwerdekirin û nirxandina modelên NLP çavkaniyek bêhempa ye. Hûn dikarin di projeyên xwe yên paşîn de OpenWebText û yên din bikar bînin.
Leave a Reply