Fa'asologa o Gagana Faanatura (NLP) o lo'o molimauina se galu fou o fa'aleleia. Ma, o fa'amaumauga a le Hugging Face o lo'o ta'imua i lenei faiga. I lenei tusiga, o le a tatou vaʻavaʻai i le taua o faʻamaumauga o le Hugging Face.
E le gata i lea, o le a tatou vaʻavaʻai pe faʻapefea ona faʻaaogaina e toleni ma iloilo faʻataʻitaʻiga NLP.
O le Hugging Face o se kamupani e tuʻuina atu i le au atinaʻe le tele o faʻamaumauga.
Pe o oe o se tagata amata poʻo se tagata tomai faapitoa i le NLP, o faʻamatalaga o loʻo tuʻuina atu ile Hugging Face o le a aoga ia te oe. Auai ma matou a'o matou su'esu'eina le fanua o le NLP ma a'oa'o e uiga i le gafatia o fa'amaumauga o le Hugging Face.
Muamua, O le a le NLP?
Natural Language Processing (NLP) ose lala o Atamai fa'apitoa. E su'esu'e pe fa'afefea ona fegalegaleai komepiuta ma gagana a tagata (natura). O le NLP e aofia ai le fatuina o faʻataʻitaʻiga e mafai ona malamalama ma faʻamatalaina gagana a tagata. O lea la, e mafai e algorithms ona faia galuega e pei o le faaliliuga o le gagana, auiliiliga lagona, ma le gaosiga o tusitusiga.
O loʻo faʻaaogaina le NLP i vaega eseese, e aofia ai auaunaga a tagata faatau, maketiina, ma le soifua maloloina. O le fa'amoemoe o le NLP o le fa'ataga lea o komepiuta e fa'amatala ma malamalama i le gagana a le tagata e pei ona tusia pe tautalagia i se auala e latalata i le tagata.
Aotelega o Opo opo
Opo opo ose fa'agaioiga gagana fa'anatura (NLP) ma pisinisi fa'atekonolosi a'oa'oga masini. Latou te tuʻuina atu le tele o punaoa e fesoasoani ai i atinaʻe i le faʻalauteleina o le vaega o le NLP. O la latou oloa sili ona mata'ina o le faletusi Transformers.
Ua mamanuina mo le fa'aogaina o gagana fa'anatura. E le gata i lea, o loʻo tuʻuina atu ai faʻataʻitaʻiga muaʻi aʻoaʻoina mo le tele o galuega NLP e pei o le faʻaliliuga gagana ma le taliina o fesili.
Hugging Face, fa'aopoopo i le faletusi Transformers, e ofoina atu se fa'avae mo le fa'asoaina o fa'amaumauga e a'oa'oina ai masini. O lea e mafai ai ona vave maua le tulaga maualuga fa'amaumauga mo a'oa'oga latou fa'ata'ita'iga.
O le misiona a Hugging Face o le fa'afaigofieina o gagana fa'anatura (NLP) mo tagata atia'e.
Sili ona Ta'uta'ua Fusiga Fa'amaumauga o Mata
Cornell Movie-Dialogs Corpus
Ole fa'amaumauga lauiloa lea mai le Hugging Face. Cornell Movie-Dialogs Corpus o lo'o aofia ai fa'atalanoaga na maua mai ata tifaga. E mafai ona a'oa'oina fa'ata'ita'iga ole gagana fa'anatura (NLP) e fa'aoga ai le tele o fa'amaumauga o tusitusiga.
E sili atu i le 220,579 fa'atalanoaga i le va o le 10,292 ta'i ata tifaga o lo'o aofia i le aoina.
E mafai ona e faʻaogaina lenei faʻamaumauga mo le tele o galuega NLP. Mo se fa'ata'ita'iga, e mafai ona e atia'e le fa'atupuina o le gagana ma galuega tali fesili. E le gata i lea, e mafai ona e fatuina faiga faʻatalanoa. aua o lauga e aofia ai le tele o mataupu eseese. Ua fa'aaogaina tele fo'i fa'amaumauga i galuega su'esu'e.
O le mea lea, o se meafaigaluega sili ona aoga mo tagata suʻesuʻe ma atinaʻe NLP.
OpenWebText Corpus
O le OpenWebText Corpus ose fa'aputuga o itulau i luga ole laiga e mafai ona e mauaina ile luga ole Hugging Face platform. O lenei fa'amaumauga e aofia ai le tele o itulau i luga ole laiga, e pei o tala, blogs, ma fa'asalalauga. E le gata i lea, o nei mea uma na filifilia mo lo latou tulaga maualuga.
Ole fa'amaumauga e sili ona taua mo a'oa'oga ma su'esu'ega fa'ata'ita'iga NLP. O lea la, e mafai ona e fa'aogaina lenei fa'amaumauga mo galuega e pei o le fa'aliliuga, ma le aotelega. E le gata i lea, e mafai ona e faia suʻesuʻega lagona e faʻaaoga ai lenei faʻamaumauga o se aseta tele mo le tele o talosaga.
O le 'au Hugging Face na fa'atulagaina le OpenWebText Corpus e maua ai se fa'ata'ita'iga maualuga mo a'oa'oga. O se faʻamaumauga tele ma sili atu nai lo le 570GB o faʻamaumauga o tusitusiga.
PETA
BERT (Bidirectional Encoder Representations from Transformers) o se faʻataʻitaʻiga NLP. Ua uma ona a'oa'oina ma e mafai ona maua i luga o le tulaga o le Hugging Face. BERT na faia e le Google AI Language team. E le gata i lea, o loʻo aʻoaʻoina i luga o le tele o faʻamaumauga o tusitusiga e malamalama ai i le uiga o upu i se fuaitau.
Talu ai o le BERT o se fa'ata'ita'iga fa'avae-transformer, e mafai ona fa'agasolo le fa'asologa fa'aulu atoa i le taimi e tasi nai lo le tasi le upu i le taimi. O se fa'ata'ita'iga fa'avae transformer fa'aaogaina faiga fa'alogo e fa'amatala fa'asologa fa'asologa.
O lenei vaega e mafai ai e BERT ona malamalama i le talaaga o upu i se fuaitau.
E mafai ona e faʻaogaina le BERT mo le faʻavasegaina o tusitusiga, malamalama i le gagana, igoa fa'alapotopotoga faʻamatalaga, ma faʻatonuga faʻamaonia, faʻatasi ai ma isi talosaga NLP. E le gata i lea, e aoga i le fatuina o tusitusiga ma malamalama i le faitau masini.
SQUA
SQuAD (Stanford Question Answering Dataset) ose fa'amaumauga o fesili ma tali. E mafai ona e fa'aogaina e a'oa'o ai fa'ata'ita'iga malamalama i le faitau tusi. O fa'amaumauga e aofia ai le silia ma le 100,000 fesili ma tali i mataupu eseese. SQuAD e ese mai fa'amaumauga muamua.
E taula'i i fesili e mana'omia ai le malamalama i le anotusi o le tusitusiga nai lo le na'o le fa'atusaina o upu autu.
O se taunuuga, o se punaoa sili mo le fatuina ma le suʻeina o faʻataʻitaʻiga mo fesili-tali ma isi galuega-malamalama i masini. E tusia foi e tagata fesili ile SQuAD. O lenei mea e maua ai se maualuga maualuga o le tulaga lelei ma le tumau.
I le aotelega, o le SQuAD o se punaoa taua mo tagata suʻesuʻe ma atinaʻe NLP.
MNLI
MNLI, poʻo le Multi-Genre Natural Language Inference, o se faʻamaumauga e faʻaaogaina e toleni ma suʻega masini aʻoaʻo faʻataʻitaʻiga mo le fa'ai'uga o le gagana fa'anatura. O le fa'amoemoe o le MNLI o le fa'ailoaina pe moni, sese, pe fa'aitutū se fa'amatalaga e tusa ai ma se isi fa'amatalaga.
O le MNLI e ese mai faʻamaumauga muamua ona o loʻo aofia ai le tele o tusitusiga mai le tele o ituaiga. O nei ituaiga e eseese mai tala fatu i tala fou, ma pepa a le malo. Ona o lenei fesuiaiga, o le MNLI o se faʻataʻitaʻiga sili atu o faʻataʻitaʻiga o tusitusiga moni o le lalolagi. E manino lava e sili atu nai lo le tele o isi fa'amaumauga o fa'amatalaga fa'anatura gagana.
Faatasi ai ma le sili atu i le 400,000 mataupu i le dataset, MNLI e maua ai se numera tele o faʻataʻitaʻiga mo faʻataʻitaʻiga aʻoaʻoga. O lo'o iai fo'i fa'amatalaga mo fa'ata'ita'iga ta'itasi e fesoasoani i fa'ata'ita'iga i a latou a'oa'oga.
Mafaufauga mulimuli
Ma le mea mulimuli, o faʻamaumauga o le Hugging Face o se punaoa taua mo NLP suʻesuʻe ma atinaʻe. O le Hugging Face e maua ai se faʻavae mo le atinaʻeina o le NLP e ala i le faʻaaogaina o se vaega eseese o faʻamaumauga.
Matou te manatu o le faʻamaumauga sili a Hugging Face o le OpenWebText Corpus.
O lenei fa'amaumauga maualuga e aofia ai le 570GB o fa'amaumauga o tusitusiga. O se punaoa taua mo aʻoaʻoga ma iloiloga faʻataʻitaʻiga NLP. E mafai ona e taumafai e fa'aoga OpenWebText ma isi i au galuega e sosoo ai.
Tuua se tali