Mae Natural Language Processing (NLP) yn dyst i don newydd o welliannau. Ac, mae setiau data Hugging Face ar flaen y gad yn y duedd hon. Yn yr erthygl hon, byddwn yn edrych ar arwyddocâd setiau data Hugging Face.
Hefyd, byddwn yn gweld sut y gellir eu defnyddio i hyfforddi ac asesu modelau NLP.
Mae Hugging Face yn gwmni sy'n cyflenwi amrywiaeth o setiau data i ddatblygwyr.
P'un a ydych chi'n ddechreuwr neu'n arbenigwr NLP profiadol, bydd y data a ddarperir ar Hugging Face o ddefnydd i chi. Ymunwch â ni wrth i ni archwilio maes NLP a dysgu am botensial setiau data Hugging Face.
Yn gyntaf, Beth yw NLP?
Mae Prosesu Iaith Naturiol (NLP) yn gangen o deallusrwydd artiffisial. Mae'n astudio sut mae cyfrifiaduron yn rhyngweithio ag ieithoedd dynol (naturiol). Mae NLP yn golygu creu modelau sy'n gallu deall a dehongli iaith ddynol. Felly, gall algorithmau gyflawni tasgau fel cyfieithu iaith, dadansoddiad teimlad, a chynhyrchu testun.
Defnyddir NLP mewn amrywiaeth o feysydd, gan gynnwys gwasanaeth cwsmeriaid, marchnata a gofal iechyd. Amcan NLP yw caniatáu i gyfrifiaduron ddehongli a deall iaith ddynol wrth iddi gael ei hysgrifennu neu ei siarad mewn modd sydd mor agos at iaith bodau dynol.
Trosolwg o Wyneb Hugging
Wyneb Hugging yn fusnes prosesu iaith naturiol (NLP) a thechnoleg dysgu peirianyddol. Maent yn darparu ystod eang o adnoddau i gynorthwyo datblygwyr i hyrwyddo maes NLP. Eu cynnyrch mwyaf nodedig yw llyfrgell y Transformers.
Fe'i cynlluniwyd ar gyfer cymwysiadau prosesu iaith naturiol. Hefyd, mae'n darparu modelau sydd wedi'u hyfforddi ymlaen llaw ar gyfer amrywiaeth o dasgau NLP fel cyfieithu iaith ac ateb cwestiynau.
Mae Hugging Face, yn ogystal â'r llyfrgell Transformers, yn cynnig llwyfan ar gyfer rhannu setiau data peiriant-ddysgu. Mae hyn yn ei gwneud hi'n bosibl cael mynediad cyflym o ansawdd uchel setiau data ar gyfer hyfforddiant eu modelau.
Cenhadaeth Hugging Face yw gwneud prosesu iaith naturiol (NLP) yn fwy hygyrch i ddatblygwyr.
Setiau Data Hugging Face Mwyaf Poblogaidd
Cornell Movie-Dialogs Corpus
Mae hon yn set ddata adnabyddus gan Hugging Face. Mae Cornell Movie-Dialogs Corpus yn cynnwys deialogau a gymerwyd o sgriptiau ffilm. Gellir hyfforddi modelau prosesu iaith naturiol (NLP) gan ddefnyddio'r swm helaeth hwn o ddata testun.
Mae mwy na 220,579 o gyfarfyddiadau deialog rhwng 10,292 o barau cymeriad ffilm wedi'u cynnwys yn y casgliad.
Gallwch ddefnyddio'r set ddata hon ar gyfer amrywiaeth o dasgau NLP. Er enghraifft, gallwch ddatblygu prosiectau creu iaith ac ateb cwestiynau. Hefyd, gallwch chi greu systemau deialog. oherwydd bod y sgyrsiau'n cwmpasu ystod mor eang o bynciau. Mae'r set ddata hefyd wedi'i defnyddio'n helaeth mewn prosiectau ymchwil.
Felly, mae hwn yn offeryn defnyddiol iawn i ymchwilwyr a datblygwyr NLP.
Corpws OpenWebText
Mae'r OpenWebText Corpus yn gasgliad o dudalennau ar-lein y gallwch ddod o hyd iddynt ar y platfform Hugging Face. Mae'r set ddata hon yn cynnwys ystod eang o dudalennau ar-lein, megis erthyglau, blogiau a fforymau. Yn ogystal, dewiswyd y rhain i gyd oherwydd eu hansawdd uchel.
Mae'r set ddata yn arbennig o werthfawr ar gyfer hyfforddi ac asesu modelau NLP. Felly, gallwch ddefnyddio'r set ddata hon ar gyfer tasgau fel cyfieithu, a chrynhoi. Hefyd, gallwch chi berfformio dadansoddiad teimlad gan ddefnyddio'r set ddata hon sy'n ased enfawr i lawer o gymwysiadau.
Curadodd tîm Hugging Face yr OpenWebText Corpus i ddarparu sampl o ansawdd uchel ar gyfer hyfforddiant. Mae'n set ddata fawr gyda mwy na 570GB o ddata testun.
BERT
Mae BERT (Cynrychiolaethau Amgodiwr Deugyfeiriadol gan Drawsnewidwyr) yn fodel NLP. Mae wedi'i hyfforddi ymlaen llaw ac mae'n hygyrch ar y platfform Hugging Face. Crëwyd BERT gan dîm Google AI Language. Hefyd, mae wedi'i hyfforddi ar set ddata testun helaeth i amgyffred cyd-destun geiriau mewn ymadrodd.
Gan fod BERT yn fodel sy'n seiliedig ar drawsnewidydd, gall brosesu'r dilyniant mewnbwn llawn ar unwaith yn lle un gair ar y tro. Mae model sy'n seiliedig ar drawsnewidydd yn defnyddio mecanweithiau sylw dehongli mewnbwn dilyniannol.
Mae'r nodwedd hon yn galluogi BERT i amgyffred cyd-destun geiriau mewn ymadrodd.
Gallwch ddefnyddio BERT ar gyfer categoreiddio testun, deall iaith, endid a enwir adnabod, a datrysiad craiddedd, ymhlith cymwysiadau NLP eraill. Hefyd, mae'n fuddiol wrth gynhyrchu testun a deall darllen peiriant.
SQuAD
Cronfa ddata o gwestiynau ac atebion yw SQuAD (Stanford Question Answering Dataset). Gallwch ei ddefnyddio i hyfforddi modelau darllen a deall peiriannau. Mae'r set ddata yn cynnwys dros 100,000 o gwestiynau ac ymatebion ar amrywiaeth o bynciau. Mae SQuAD yn wahanol i setiau data blaenorol.
Mae'n canolbwyntio ar ymholiadau sy'n gofyn am wybodaeth am gyd-destun y testun yn hytrach na chyfateb geiriau allweddol yn unig.
O ganlyniad, mae'n adnodd ardderchog ar gyfer creu a phrofi modelau ar gyfer ateb cwestiynau a thasgau deall peirianyddol eraill. Mae bodau dynol yn ysgrifennu'r cwestiynau yn SQuAD hefyd. Mae hyn yn darparu lefel uchel o ansawdd a chysondeb.
Yn gyffredinol, mae SQuAD yn adnodd gwerthfawr i ymchwilwyr a datblygwyr NLP.
MNLI
Mae MNLI, neu Aml-Genre Natural Language Inference, yn set ddata a ddefnyddir i hyfforddi a phrofi modelau dysgu peiriannau am gasgliad iaith naturiol. Pwrpas MNLI yw nodi a yw datganiad a roddir yn wir, yn anwir neu'n niwtral yng ngoleuni datganiad arall.
Mae MNLI yn wahanol i setiau data blaenorol gan ei fod yn cwmpasu ystod eang o destunau o lawer o genres. Mae'r genres hyn yn amrywio o ffuglen i ddarnau newyddion, a phapurau'r llywodraeth. Oherwydd yr amrywioldeb hwn, mae MNLI yn sampl mwy cynrychioliadol o destun byd go iawn. Mae'n amlwg ei fod yn well na llawer o setiau data casglu iaith naturiol eraill.
Gyda dros 400,000 o achosion yn y set ddata, mae MNLI yn darparu nifer sylweddol o enghreifftiau ar gyfer modelau hyfforddi. Mae hefyd yn cynnwys sylwadau ar gyfer pob sampl i gynorthwyo'r modelau yn eu dysgu.
Thoughts Terfynol
Yn olaf, mae setiau data Hugging Face yn adnodd amhrisiadwy i ymchwilwyr a datblygwyr NLP. Mae Hugging Face yn darparu fframwaith ar gyfer datblygu NLP trwy ddefnyddio grŵp amrywiol o setiau data.
Rydyn ni'n meddwl mai set ddata fwyaf Hugging Face yw'r OpenWebText Corpus.
Mae'r set ddata ansawdd uchel hon yn cynnwys dros 570GB o ddata testun. Mae'n adnodd amhrisiadwy ar gyfer hyfforddi a gwerthuso modelau NLP. Gallwch geisio defnyddio OpenWebText ac eraill yn eich prosiectau nesaf.
Gadael ymateb