Ṣiṣẹda Ede Adayeba (NLP) n jẹri igbi tuntun ti awọn ilọsiwaju. Ati pe, Awọn iwe data ti oju famọra wa ni iwaju aṣa yii. Ninu nkan yii, a yoo wo pataki ti awọn datasets Face Face.
Paapaa, a yoo rii bii wọn ṣe le ṣe ikẹkọ ati ṣe ayẹwo awọn awoṣe NLP.
Face famọra jẹ ile-iṣẹ ti o pese awọn olupolowo pẹlu ọpọlọpọ awọn ipilẹ data.
Boya o jẹ alakọbẹrẹ tabi alamọja NLP ti o ni iriri, data ti a pese lori Oju Famọ yoo jẹ iwulo fun ọ. Darapọ mọ wa bi a ṣe ṣawari aaye ti NLP ati kọ ẹkọ nipa agbara ti awọn datasetoju Oju oju.
Ni akọkọ, Kini NLP?
Ṣiṣẹda Ede Adayeba (NLP) jẹ ẹka ti oye atọwọda. O ṣe iwadi bi awọn kọnputa ṣe nlo pẹlu awọn ede eniyan (adayeba). NLP kan ṣiṣẹda awọn awoṣe ti o lagbara lati ni oye ati itumọ ede eniyan. Nitorinaa, awọn algoridimu le ṣe awọn iṣẹ ṣiṣe bii itumọ ede, igbekale ero, ati iṣelọpọ ọrọ.
NLP ni a lo ni ọpọlọpọ awọn agbegbe, pẹlu iṣẹ alabara, titaja, ati ilera. Idi ti NLP ni lati gba awọn kọnputa laaye lati tumọ ati loye ede eniyan bi o ti kọ tabi sọ ni ọna ti o sunmọ ti eniyan.
Akopọ ti Idoju Iwari
Idoju Iwari jẹ iṣẹ-ṣiṣe ede adayeba (NLP) ati iṣowo imọ ẹrọ ẹrọ. Wọn pese ọpọlọpọ awọn orisun lati ṣe iranlọwọ fun awọn idagbasoke ni ilọsiwaju agbegbe ti NLP. Ọja wọn ti o ṣe akiyesi julọ ni ile-ikawe Ayirapada.
O jẹ apẹrẹ fun awọn ohun elo ṣiṣe ede adayeba. Paapaa, o pese awọn awoṣe ti ikẹkọ tẹlẹ fun ọpọlọpọ awọn iṣẹ ṣiṣe NLP gẹgẹbi itumọ ede ati idahun ibeere.
Oju Famọra, ni afikun si ile-ikawe Ayirapada, nfunni ni ipilẹ kan fun pinpin awọn iwe data ikẹkọ ẹrọ. Eyi jẹ ki o ṣee ṣe lati wọle si didara giga ni iyara datasets fun ikẹkọ awọn awoṣe wọn.
Iṣẹ apinfunni Face Face ni lati jẹ ki ṣiṣiṣẹ ede abinibi (NLP) diẹ sii ni iraye si fun awọn idagbasoke.
Julọ Gbajumo famọra Oju Datasets
Cornell Movie-Dialogs Corpus
Eyi jẹ ipilẹ data ti a mọ daradara lati Oju Famọra. Cornell Movie-Dialogs Corpus ni awọn ijiroro ti o ya lati awọn ere iboju fiimu. Awọn awoṣe sisẹ ede Adayeba (NLP) le jẹ ikẹkọ ni lilo iye nla ti data ọrọ yii.
Diẹ sii ju awọn alabapade ifọrọwerọ 220,579 laarin awọn orisii ohun kikọ fiimu 10,292 wa ninu ikojọpọ.
O le lo ipilẹ data yii fun ọpọlọpọ awọn iṣẹ ṣiṣe NLP. Fun apẹẹrẹ, o le ṣe agbekalẹ ẹda ede ati awọn iṣẹ akanṣe idahun ibeere. Bakannaa, o le ṣẹda awọn ọna ṣiṣe ibaraẹnisọrọ. nítorí pé àwọn ọ̀rọ̀-ìsọ̀rọ̀ náà ṣàkópọ̀ àwọn kókó ọ̀rọ̀ tí ó gbòòrò bẹ́ẹ̀. A ti lo awọn data ti o pọju ni awọn iṣẹ ṣiṣe iwadi.
Nitorinaa, eyi jẹ ohun elo ti o wulo pupọ fun awọn oniwadi NLP ati awọn idagbasoke.
ṢiiWebText Corpus
OpenWebText Corpus jẹ akojọpọ awọn oju-iwe ori ayelujara ti o le rii lori iru ẹrọ Oju-ara Hugging. Eto data yii pẹlu ọpọlọpọ awọn oju-iwe ori ayelujara, gẹgẹbi awọn nkan, awọn bulọọgi, ati awọn apejọ. Ni afikun, gbogbo wọn ni a yan fun didara giga wọn.
Ipilẹ data jẹ pataki pataki fun ikẹkọ ati iṣiro awọn awoṣe NLP. Nitorinaa, o le lo eto data yii fun awọn iṣẹ ṣiṣe bii itumọ, ati akopọ. Paapaa, o le ṣe itupalẹ itara nipa lilo iwe data yii eyiti o jẹ dukia nla fun ọpọlọpọ awọn ohun elo.
Ẹgbẹ Hugging Face ṣe itọju OpenWebText Corpus lati pese apẹẹrẹ didara ga fun ikẹkọ. O jẹ dataset nla pẹlu diẹ ẹ sii ju 570GB ti data ọrọ.
BERT
BERT (Awọn Aṣoju Encoder Bidirectional lati Awọn Ayirapada) jẹ awoṣe NLP kan. O ti ni ikẹkọ ṣaaju ati pe o wa lori pẹpẹ Oju-ọna Hugging. BERT ni a ṣẹda nipasẹ ẹgbẹ Ede Google AI. Paapaa, o ti ni ikẹkọ lori ipilẹ data ọrọ ti o tobi pupọ lati ni oye agbegbe awọn ọrọ ninu gbolohun ọrọ kan.
Nitori BERT jẹ awoṣe ti o da lori transformer, o le ṣe ilana ilana titẹ sii ni kikun ni ẹẹkan dipo ọrọ kan ni akoko kan. Awoṣe-orisun transformer nlo awọn ilana akiyesi lati tumọ titẹ sii lẹsẹsẹ.
Ẹya yii n jẹ ki BERT ni oye ọrọ-ọrọ ninu gbolohun ọrọ kan.
O le lo BERT fun isọri ọrọ, oye ede, ti a npè ni nkankan idanimọ, ati ipinnu ipilẹ, laarin awọn ohun elo NLP miiran. Paapaa, o jẹ anfani ni ti ipilẹṣẹ ọrọ ati oye kika ẹrọ.
SQuAD
SQuAD (Idahun Idahun ibeere Stanford) jẹ ibi ipamọ data ti awọn ibeere ati awọn idahun. O le lo lati ṣe ikẹkọ awọn awoṣe oye kika ẹrọ. Ipilẹ data naa pẹlu awọn ibeere to ju 100,000 ati awọn idahun lori ọpọlọpọ awọn akọle. SQuAD yato si awọn ipilẹ data iṣaaju.
O dojukọ awọn ibeere ti o nilo imọ ti ọrọ-ọrọ dipo kiki awọn koko-ọrọ ibaamu nikan.
Bi abajade, o jẹ orisun ti o tayọ fun ṣiṣẹda ati idanwo awọn awoṣe fun idahun ibeere ati awọn iṣẹ-ṣiṣe oye ẹrọ miiran. Awọn eniyan kọ awọn ibeere ni SQuAD daradara. Eyi pese iwọn giga ti didara ati aitasera.
Lapapọ, SQuAD jẹ orisun ti o niyelori fun awọn oniwadi NLP ati awọn idagbasoke.
MNLI
MNLI, tabi Itọka Ede Adayeba Olona-Iru, jẹ data ti a lo lati ṣe ikẹkọ ati idanwo awọn awoṣe ẹkọ ẹrọ fun atọwọdọwọ ede adayeba. Idi ti MNLI ni lati ṣe idanimọ boya alaye ti a fun jẹ otitọ, eke, tabi didoju ni ina ti alaye miiran.
MNLI yato si awọn ipilẹ data iṣaaju ni pe o bo ọpọlọpọ awọn ọrọ lati ọpọlọpọ awọn oriṣi. Awọn oriṣi wọnyi yatọ lati itan-akọọlẹ si awọn ege iroyin, ati awọn iwe ijọba. Nitori iyipada yii, MNLI jẹ apẹẹrẹ aṣoju diẹ sii ti ọrọ-aye gidi. O han gbangba pe o dara julọ ju ọpọlọpọ awọn ipilẹ data itọsi ede adayeba miiran.
Pẹlu awọn ọran to ju 400,000 ninu dataset, MNLI n pese nọmba pataki ti awọn apẹẹrẹ fun awọn awoṣe ikẹkọ. O tun ni awọn asọye fun ayẹwo kọọkan lati ṣe iranlọwọ fun awọn awoṣe ninu ẹkọ wọn.
ik ero
Lakotan, awọn ipilẹ data oju oju jẹ orisun ti ko niyelori fun awọn oniwadi NLP ati awọn idagbasoke. Oju famọra n pese ilana kan fun idagbasoke NLP nipa lilo ẹgbẹ oniruuru ti awọn data.
A ro pe iwe data ti o tobi julọ ti Face Face ni OpenWebText Corpus.
Iṣeduro data ti o ni agbara giga ni diẹ sii ju 570GB ti data ọrọ ninu. O jẹ orisun ti ko niyelori fun ikẹkọ ati iṣiro awọn awoṣe NLP. O le gbiyanju lilo OpenWebText ati awọn miiran ninu awọn iṣẹ akanṣe atẹle rẹ.
Fi a Reply