Коркарди забони табиӣ (NLP) шоҳиди мавҷи нави беҳбудиҳо мебошад. Ва маҷмӯи маълумотҳои Hugging Face дар сафи пеши ин тамоюл қарор доранд. Дар ин мақола, мо аҳамияти маҷмӯи додаҳои Hugging Faceро дида мебароем.
Инчунин, мо мебинем, ки чӣ гуна онҳоро барои омӯзиш ва арзёбии моделҳои NLP истифода бурдан мумкин аст.
Hugging Face як ширкатест, ки таҳиягаронро бо маҷмӯи гуногуни маълумот таъмин мекунад.
Новобаста аз он ки шумо шурӯъкунандагон ҳастед ё мутахассиси ботаҷрибаи NLP, маълумоте, ки дар Hugging Face оварда шудааст, барои шумо муфид хоҳад буд. Вақте ки мо соҳаи NLP-ро меомӯзем ва дар бораи потенсиали маҷмӯаҳои Hugging Face маълумот мегирем, ба мо ҳамроҳ шавед.
Аввалан, NLP чист?
Коркарди забони табиӣ (NLP) як шохаи аст мағзи маслуӣ. Он меомӯзад, ки чӣ гуна компютерҳо бо забонҳои инсонӣ (табиӣ) ҳамкорӣ мекунанд. NLP эҷоди моделҳоеро дар бар мегирад, ки қобилияти фаҳмидан ва тафсири забони инсониро доранд. Аз ин рӯ, алгоритмҳо метавонанд чунин вазифаҳоро иҷро кунанд, ба монанди тарҷумаи забон, таҳлили таҳлил, ва истеҳсоли матн.
NLP дар соҳаҳои гуногун, аз ҷумла хизматрасонӣ ба мизоҷон, маркетинг ва тандурустӣ истифода мешавад. Ҳадафи NLP ин аст, ки ба компютерҳо имкон медиҳад, ки забони инсониро тавре тафсир ва дарк кунанд, зеро он ба тарзе, ки ба забони одамон наздик аст, навишта шудааст ё гуфта мешавад.
Шарҳи Оғӯш Рӯй
Оғӯш Рӯй коркарди забони табиӣ (NLP) ва технологияи омӯзиши мошинсозӣ мебошад. Онҳо доираи васеи захираҳоро барои кӯмак ба таҳиягарон дар рушди минбаъдаи соҳаи NLP таъмин мекунанд. Маҳсулоти аз ҳама ҷолиби онҳо китобхонаи Transformers мебошад.
Он барои барномаҳои коркарди забони табиӣ пешбинӣ шудааст. Инчунин, он моделҳои қаблан омӯзонидашударо барои вазифаҳои гуногуни NLP, аз қабили тарҷумаи забон ва ҷавоб додан ба саволҳо пешниҳод мекунад.
Hugging Face, ба ғайр аз китобхонаи Transformers, платформаи мубодилаи маҷмӯаҳои омӯзиши мошинро пешниҳод мекунад. Ин имкон медиҳад, ки зуд ба сифати баланд дастрас шавед маҷмӯи маълумот барои омӯзиш моделҳои онҳо.
Ҳадафи Hugging Face ин аст, ки коркарди забони табииро (NLP) барои таҳиягарон дастрастар кунад.
Маҷмӯи маъмултарин маҷмӯаҳои рӯи оғӯш
Корнелл Movie-Dialogs Corpus
Ин маҷмӯаи маълумоти маъруф аз Hugging Face аст. Корнелл Movie-Dialogs Corpus муколамаҳоеро дар бар мегирад, ки аз сценарияҳои филм гирифта шудаанд. Моделҳои коркарди забони табиӣ (NLP) метавонанд бо истифода аз ин миқдори зиёди маълумоти матнӣ омӯзонида шаванд.
Ба маҷмӯа зиёда аз 220,579 вохӯрии муколамаи байни 10,292 ҷуфти қаҳрамонҳои филм дохил карда шудаанд.
Шумо метавонед ин маҷмӯаи маълумотро барои вазифаҳои гуногуни NLP истифода баред. Масалан, шумо метавонед лоиҳаҳои эҷоди забон ва ба саволҳо ҷавоб диҳед. Инчунин, шумо метавонед системаҳои муколама эҷод кунед. зеро сухбатхо чунин доираи васеи мавзуъхоро дар бар мегиранд. Маҷмӯи маълумот инчунин дар лоиҳаҳои тадқиқотӣ васеъ истифода шудааст.
Аз ин рӯ, ин як воситаи хеле муфид барои муҳаққиқон ва таҳиягарони NLP мебошад.
Корпуси OpenWebText
OpenWebText Corpus маҷмӯи саҳифаҳои онлайн аст, ки шумо метавонед дар платформаи Hugging Face пайдо кунед. Ин маҷмӯаи маълумот доираи васеи саҳифаҳои онлайнро дар бар мегирад, ба монанди мақолаҳо, блогҳо ва форумҳо. Илова бар ин, ҳамаи инҳо барои сифати баланди худ интихоб карда шуданд.
Маҷмӯи додаҳо махсусан барои омӯзиш ва арзёбии моделҳои NLP арзишманд аст. Аз ин рӯ, шумо метавонед ин маҷмӯаи маълумотро барои вазифаҳое ба мисли тарҷума ва ҷамъбаст истифода баред. Инчунин, шумо метавонед бо истифода аз ин маҷмӯаи маълумот таҳлили эҳсосотро анҷом диҳед, ки барои бисёр барномаҳо дороии бузург аст.
Дастаи Hugging Face корпуси OpenWebText-ро таҳия кардааст, то намунаи баландсифатро барои омӯзиш пешниҳод кунад. Ин маҷмӯаи маълумоти калон бо зиёда аз 570 ГБ маълумоти матнӣ мебошад.
БЕРТ
BERT (Намояндагии рамзгузори дуҷониба аз Transformers) як модели NLP мебошад. Он пешакӣ омӯзонида шудааст ва дар платформаи Hugging Face дастрас аст. BERT аз ҷониби дастаи Google AI Language сохта шудааст. Инчунин, он дар маҷмӯаи васеи матн барои фаҳмидани контексти калимаҳо дар ибора таълим дода мешавад.
Азбаски BERT модели ба трансформатор асосёфта аст, он метавонад пайдарпайии пурраи вурудро якбора ба ҷои як калима дар як вақт коркард кунад. Модели дар асоси трансформатор истифодашаванда механизмҳои таваҷҷӯҳ барои шарҳ додани вуруди пайдарпай.
Ин хусусият ба БЕРТ имкон медиҳад, ки контексти калимаҳоро дар як ибора дарк кунад.
Шумо метавонед BERT-ро барои гурӯҳбандии матн, фаҳмиши забон, субъекти номбаршуда муайянкунӣ ва ҳалли аслӣ, дар байни дигар барномаҳои NLP. Инчунин, он дар тавлиди матн ва фаҳмидани хониши мошин муфид аст.
SQUAD
SQuAD (Stanford Question Answering Dataset) як пойгоҳи додаҳои саволҳо ва ҷавобҳо мебошад. Шумо метавонед онро барои омӯзонидани моделҳои фаҳмиши хониши мошин истифода баред. Маҷмӯи маълумот зиёда аз 100,000 XNUMX савол ва посухҳоро дар мавзӯъҳои гуногун дар бар мегирад. SQuAD аз маҷмӯи додаҳои қаблӣ фарқ мекунад.
Он ба дархостҳое нигаронида шудааст, ки дониши контексти матнро талаб мекунанд, на танҳо мувофиқ кардани калимаҳои калидӣ.
Дар натиҷа, он як манбаи олӣ барои эҷод ва санҷиши моделҳо барои ҷавоб додан ба саволҳо ва дигар вазифаҳои дарки мошин мебошад. Одамон инчунин саволҳоро дар SQuAD менависанд. Ин дараҷаи баланди сифат ва пайвастагиро таъмин мекунад.
Умуман, SQuAD як манбаи арзишманд барои муҳаққиқон ва таҳиягарони NLP мебошад.
МНЛИ
MNLI, ё хулосаи бисёржанри забони табиӣ, маҷмӯи маълумотест, ки барои омӯзиш ва санҷиш истифода мешавад моделҳои омӯзиши мошинҳо барои хулосабарории забони табиӣ. Мақсади MNLI муайян кардани он аст, ки оё изҳороти додашуда дар партави изҳороти дигар дуруст, бардурӯғ ё бетараф аст.
MNLI аз маҷмӯи додаҳои қаблӣ бо он фарқ мекунад, ки он доираи васеи матнҳоро аз бисёр жанрҳо фаро мегирад. Ин жанрҳо аз бадеӣ то порчаҳои хабарӣ ва ҳуҷҷатҳои ҳукуматӣ фарқ мекунанд. Аз сабаби ин тағирёбанда, MNLI намунаи бештари матни воқеии ҷаҳон аст. Ин бешубҳа аз бисёр дигар маҷмӯаҳои маълумоти табиии забони табиӣ беҳтар аст.
Бо зиёда аз 400,000 парвандаҳо дар маҷмӯаи додаҳо, MNLI шумораи зиёди мисолҳоро барои моделҳои омӯзишӣ пешкаш мекунад. Он инчунин шарҳҳоро барои ҳар як намуна дар бар мегирад, то ба моделҳо дар омӯзиши онҳо кӯмак расонад.
Thoughts хотимавӣ
Ниҳоят, маҷмӯи маълумотҳои Hugging Face як манбаи бебаҳо барои муҳаққиқон ва таҳиягарони NLP мебошанд. Hugging Face барои рушди NLP бо истифода аз як гурӯҳи гуногуни маҷмӯаҳои додаҳо замина фароҳам меорад.
Мо фикр мекунем, ки бузургтарин маҷмӯаи Hugging Face ин Corpus OpenWebText аст.
Ин маҷмӯаи маълумоти баландсифат зиёда аз 570 ГБ маълумоти матниро дар бар мегирад. Ин як манбаи бебаҳо барои омӯзиш ва арзёбии моделҳои NLP мебошад. Шумо метавонед кӯшиш кунед, ки OpenWebText ва дигаронро дар лоиҳаҳои навбатии худ истифода баред.
Дин ва мазҳаб