Ny Natural Language Processing (NLP) dia mahita onjam-pandrosoana vaovao. Ary, ny angon-drakitra Hugging Face no lohalaharana amin'ity fironana ity. Ato amin'ity lahatsoratra ity dia hojerentsika ny maha-zava-dehibe ny angon-drakitra Hugging Face.
Ho hitantsika ihany koa ny fomba azo ampiasaina hanofanana sy hanombanana ny modely NLP.
Ny Hugging Face dia orinasa mamatsy ireo mpamorona angona isan-karazany.
Na vao manomboka ianao na manam-pahaizana manokana momba ny NLP, ny angon-drakitra omena ao amin'ny Hugging Face dia hanampy anao. Miaraha aminay rehefa mandinika ny sehatry ny NLP izahay ary mianatra momba ny mety ho an'ny angona Hugging Face.
Voalohany, inona ny NLP?
Ny Natural Language Processing (NLP) dia sampan'ny fahaizana artifisialy. Mandalina ny fifandraisan'ny ordinatera amin'ny fitenin'olombelona (voajanahary) izy io. Ny NLP dia mitaky famoronana modely afaka mahatakatra sy mandika ny tenin'olombelona. Noho izany, ny algorithm dia afaka manao asa toy ny fandikana fiteny, famakafakana ny fahatsapana, ary famokarana lahatsoratra.
NLP dia ampiasaina amin'ny sehatra isan-karazany, ao anatin'izany ny serivisy mpanjifa, ny varotra ary ny fitsaboana. Ny tanjon'ny NLP dia ny hamela ny solosaina handika sy hahatakatra ny fitenin'olombelona araka izay voasoratra na lazaina amin'ny fomba akaiky ny an'ny olombelona.
Famintinana momba ny Mamihina tarehy
Mamihina tarehy dia orinasa fanodinana fiteny voajanahary (NLP) sy teknolojia fianarana milina. Izy ireo dia manome loharano maro isan-karazany hanampiana ireo mpamorona amin'ny fampandrosoana ny sehatry ny NLP. Ny vokatra manan-danja indrindra dia ny tranomboky Transformers.
Izy io dia natao ho an'ny fampiharana fanodinana fiteny voajanahary. Ary koa, manome modely efa voaofana ho an'ny asa NLP isan-karazany toy ny fandikana fiteny sy famaliana fanontaniana.
Ny Hugging Face, ankoatry ny tranomboky Transformers, dia manolotra sehatra iray hizarana ny angona fianarana milina. Izany dia ahafahana miditra haingana amin'ny kalitao avo lenta angon-drakitra ho an'ny fampiofanana ireo modely.
Ny tanjon'ny Hugging Face dia ny hahatonga ny fanodinana fiteny voajanahary (NLP) ho mora idiran'ny mpamorona.
Angon-drakitra mamihina tarehy malaza indrindra
Cornell Movie-Dialogs Corpus
Ity dia angona fanta-daza avy amin'ny Hugging Face. Cornell Movie-Dialogs Corpus dia ahitana fifanakalozan-kevitra nalaina tamin'ny horonan-tsary. Ny maodely fanodinana fiteny voajanahary (NLP) dia azo ampiofanina amin'ny fampiasana angona lahatsoratra be dia be.
Maherin'ny 220,579 ny fihaonana eo amin'ny mpilalao sarimihetsika 10,292 miaraka amin'ny fanangonana.
Azonao atao ny mampiasa ity angon-drakitra ity ho an'ny asa NLP isan-karazany. Ohatra, azonao atao ny mamolavola tetikasa famoronana fiteny sy famaliana fanontaniana. Azonao atao ihany koa ny mamorona rafitra fifanakalozan-kevitra. satria ny lahateny dia mirakitra lohahevitra midadasika toy izany. Ny angona angona koa dia nampiasaina betsaka tamin'ny tetikasa fikarohana.
Noho izany, fitaovana tena ilaina ho an'ny mpikaroka sy mpamorona NLP ity.
OpenWebText Corpus
Ny OpenWebText Corpus dia fitambarana pejy an-tserasera izay azonao jerena ao amin'ny sehatra Hugging Face. Ity tahirin-kevitra ity dia ahitana pejy an-tserasera marobe, toy ny lahatsoratra, bilaogy, ary forum. Ankoatra izany, ireo rehetra ireo dia voafidy noho ny kalitaony.
Ny angon-drakitra dia sarobidy indrindra amin'ny fanofanana sy fanombanana ny modely NLP. Noho izany, azonao atao ny mampiasa an'ity angon-drakitra ity ho an'ny asa toy ny fandikana, sy ny famintinana. Azonao atao ihany koa ny manao famakafakana fihetseham-po amin'ny fampiasana an'ity data data ity izay tombony lehibe ho an'ny fampiharana maro.
Ny ekipa Hugging Face dia nanamboatra ny OpenWebText Corpus mba hanomezana santionany avo lenta ho an'ny fiofanana. Izy io dia angon-drakitra lehibe misy angona lahatsoratra mihoatra ny 570GB.
Bert
BERT (Bidirectional Encoder Representations from Transformers) dia modely NLP. Efa voaofana mialoha izy io ary azo idirana amin'ny sehatra Hugging Face. BERT dia noforonin'ny ekipan'ny Google AI Language. Ankoatra izany, dia voaofana amin'ny angon-drakitra lahatsoratra midadasika mba hahazoana ny teny manodidina ny teny ao anaty fehezanteny iray.
Satria modely mifototra amin'ny mpanova ny BERT, dia afaka manodina ny filaharan'ny fidirana feno indray mandeha fa tsy teny iray isaky ny mandeha. Mampiasa modely amin'ny transformer mekanika fifantohana handikana ny fidirana misesy.
Ity endri-javatra ity dia ahafahan'i BERT mahazo ny tontolon'ny teny ao anaty fehezanteny iray.
Azonao atao ny mampiasa BERT amin'ny fanasokajiana lahatsoratra, fahatakarana ny fiteny, enti-milaza famantarana, ary famahana coreference, ankoatry ny fampiharana NLP hafa. Ary koa, mahasoa amin'ny famoronana lahatsoratra sy fahatakarana ny famakiana milina.
andiana
SQuAD (Stanford Question Answering Dataset) dia angon-drakitra misy fanontaniana sy valiny. Azonao atao ny mampiasa azy io mba hampiofana modely fahatakarana ny famakiana milina. Ahitana fanontaniana sy valiny mihoatra ny 100,000 momba ny lohahevitra isan-karazany ny angona. SQuAD dia tsy mitovy amin'ny angona teo aloha.
Mifantoka amin'ny fanontaniana mila fahalalana momba ny tontolon'ny lahatsoratra izy io fa tsy teny fanalahidy mifanandrify fotsiny.
Vokatr'izany dia loharano tena tsara izy io amin'ny famoronana sy fitsapana modely ho an'ny famaliana fanontaniana sy asa hafa takatry ny milina. Manoratra ny fanontaniana ao amin'ny SQuAD koa ny olombelona. Izany dia manome kalitao avo lenta sy tsy miovaova.
Amin'ny ankapobeny, SQuAD dia loharano sarobidy ho an'ny mpikaroka sy mpamorona NLP.
MNLI
MNLI, na Multi-Genre Natural Language Inference, dia angon-drakitra ampiasaina hanofanana sy hitsapana modely fianarana milina ho an'ny fanatsoahan-kevitra amin'ny fiteny voajanahary. Ny tanjon'ny MNLI dia ny hamantatra raha marina, diso, na tsy miandany ny fanambarana iray raha jerena ny fanambarana iray hafa.
Ny MNLI dia tsy mitovy amin'ny angon-drakitra teo aloha satria mirakitra lahatsoratra marobe avy amin'ny karazana maro. Ireo karazana ireo dia samy hafa amin'ny tantara foronina mankany amin'ny vaovao, ary ny taratasin'ny governemanta. Noho io fiovaovana io, ny MNLI dia santionany misolo tena kokoa amin'ny lahatsoratra tena izy. Mazava ho azy fa tsara kokoa noho ny angon-drakitra momba ny fiteny voajanahary hafa.
Miaraka amin'ny tranga 400,000 mahery ao amin'ny angon-drakitra, ny MNLI dia manome ohatra marobe ho an'ny modely fanofanana. Misy fanehoan-kevitra ho an'ny santionany tsirairay ihany koa izy io mba hanampiana ireo modely amin'ny fianarany.
Final Thoughts
Farany, ny angon-drakitra Hugging Face dia loharano sarobidy ho an'ny mpikaroka sy mpamorona NLP. Ny Hugging Face dia manome rafitra ho an'ny fampivoarana NLP amin'ny alàlan'ny fampiasana vondron'ny angon-drakitra isan-karazany.
Heverinay fa ny angon-drakitra lehibe indrindra an'i Hugging Face dia ny OpenWebText Corpus.
Ity angona avo lenta ity dia misy angona lahatsoratra mihoatra ny 570GB. Loharanom-pitaovana tena sarobidy ho an'ny fanofanana sy fanombanana ny maodely NLP izy io. Azonao atao ny manandrana mampiasa OpenWebText sy ny hafa amin'ny tetikasanao manaraka.
Leave a Reply