බදාගෙන මුහුණු දත්ත කට්ටල: එන්එල්පී විභවය අගුළු හැරීම

ස්වාභාවික භාෂා සැකසුම් (NLP) වැඩිදියුණු කිරීමේ නව රැල්ලක් දක්නට ලැබේ. තවද, Hugging Face දත්ත කට්ටල මෙම ප්‍රවණතාවයේ ඉදිරියෙන්ම සිටී. මෙම ලිපියෙන් අපි Hugging Face දත්ත කට්ටලවල වැදගත්කම දෙස බලමු.

එසේම, NLP ආකෘති පුහුණු කිරීමට සහ තක්සේරු කිරීමට ඒවා භාවිතා කළ හැකි ආකාරය අපි බලමු.

Hugging Face යනු සංවර්ධකයින්ට විවිධ දත්ත කට්ටල සපයන සමාගමකි.

ඔබ ආරම්භකයකු හෝ පළපුරුදු NLP විශේෂඥයෙකු වුවද, Hugging Face හි ලබා දී ඇති දත්ත ඔබට ප්‍රයෝජනවත් වනු ඇත. අපි NLP ක්ෂේත්‍රය ගවේෂණය කරන විට සහ Hugging Face දත්ත කට්ටලවල විභවයන් ගැන ඉගෙන ගන්නා විට අප හා එක් වන්න.

පළමුව, NLP යනු කුමක්ද?

ස්වභාවික භාෂා සැකසුම් (NLP) යනු එහි ශාඛාවකි කෘතිම බුද්ධිය. එය පරිගණක මානව (ස්වාභාවික) භාෂා සමඟ අන්තර්ක්‍රියා කරන ආකාරය අධ්‍යයනය කරයි. NLP යනු මිනිස් භාෂාව තේරුම් ගැනීමට සහ අර්ථ නිරූපණය කිරීමට හැකි ආකෘති නිර්මාණය කිරීමයි. එබැවින්, ඇල්ගොරිතමවලට භාෂා පරිවර්තනය වැනි කාර්යයන් සිදු කළ හැක, මනෝ විශ්ලේෂණයකි, සහ පෙළ නිෂ්පාදනය.

NLP පාරිභෝගික සේවා, අලෙවිකරණය සහ සෞඛ්‍ය සේවා ඇතුළු විවිධ ක්ෂේත්‍රවල භාවිතා වේ. NLP හි පරමාර්ථය වන්නේ පරිගණකයට මිනිසුන්ගේ භාෂාවට සමීපව ලියා ඇති හෝ කතා කරන ආකාරයට මිනිස් භාෂාව අර්ථ නිරූපණය කිරීමට සහ තේරුම් ගැනීමට ඉඩ දීමයි.

පිළිබඳ දළ විශ්ලේෂණය වැළඳ ගැනීමේ මුහුණ

වැළඳ ගැනීමේ මුහුණ යනු ස්වභාවික භාෂා සැකසුම් (NLP) සහ යන්ත්‍ර ඉගෙනුම් තාක්ෂණ ව්‍යාපාරයකි. NLP හි ප්‍රදේශය ඉදිරියට ගෙන යාම සඳහා සංවර්ධකයින්ට සහාය වීම සඳහා ඔවුන් පුළුල් පරාසයක සම්පත් සපයයි. ඔවුන්ගේ වඩාත්ම කැපී පෙනෙන නිෂ්පාදනය වන්නේ ට්‍රාන්ස්ෆෝමර් පුස්තකාලයයි.

එය ස්වභාවික භාෂා සැකසුම් යෙදුම් සඳහා නිර්මාණය කර ඇත. එසේම, එය භාෂා පරිවර්තනය සහ ප්‍රශ්නවලට පිළිතුරු සැපයීම වැනි විවිධ NLP කාර්යයන් සඳහා පූර්ව-පුහුණු ආකෘති සපයයි.

Hugging Face, Transformers පුස්තකාලයට අමතරව, යන්ත්‍ර ඉගෙනීමේ දත්ත කට්ටල බෙදාගැනීම සඳහා වේදිකාවක් ඉදිරිපත් කරයි. මෙය ඉක්මනින් උසස් තත්ත්වයේ ප්රවේශ වීමට හැකි වේ පුහුණුව සඳහා දත්ත කට්ටල ඔවුන්ගේ ආකෘති.

Hugging Face හි මෙහෙවර වන්නේ ස්වභාවික භාෂා සැකසුම් (NLP) සංවර්ධකයින් සඳහා වඩාත් ප්‍රවේශ විය හැකි කිරීමයි.

වඩාත් ජනප්‍රිය වැළඳගැනීමේ මුහුණු දත්ත කට්ටල

Cornell Movie-Dialogs Corpus

මෙය Hugging Face හි ප්‍රසිද්ධ දත්ත කට්ටලයකි. Cornell Movie-Dialogs Corpus චිත්‍රපට තිරනාටක වලින් ලබාගත් දෙබස් වලින් සමන්විත වේ. ස්වභාවික භාෂා සැකසුම් (NLP) ආකෘති මෙම විස්තීර්ණ පෙළ දත්ත භාවිතයෙන් පුහුණු කළ හැක.

චිත්‍රපට චරිත යුගල 220,579ක් අතර සංවාද හමුවීම් 10,292කට වැඩි ප්‍රමාණයක් එකතුවට ඇතුළත් වේ.

ඔබට විවිධ NLP කාර්යයන් සඳහා මෙම දත්ත කට්ටලය භාවිතා කළ හැක. උදාහරණයක් ලෙස, ඔබට භාෂා නිර්මාණය සහ ප්‍රශ්න-පිළිතුරු ව්‍යාපෘති සංවර්ධනය කළ හැකිය. එසේම, ඔබට සංවාද පද්ධති නිර්මාණය කළ හැකිය. මක්නිසාද යත් එම සාකච්ඡා පුළුල් පරාසයක මාතෘකා ආවරණය කරන බැවිනි. දත්ත කට්ටලය පර්යේෂණ ව්‍යාපෘති සඳහා ද පුළුල් ලෙස භාවිතා කර ඇත.

එබැවින්, මෙය NLP පර්යේෂකයන් සහ සංවර්ධකයින් සඳහා ඉතා ප්රයෝජනවත් මෙවලමකි.

OpenWebText Corpus

OpenWebText Corpus යනු ඔබට Hugging Face වේදිකාවේ සොයා ගත හැකි සබැඳි පිටු එකතුවකි. මෙම දත්ත කට්ටලයට ලිපි, බ්ලොග් සහ සංසද වැනි පුළුල් පරාසයක සබැඳි පිටු ඇතුළත් වේ. මීට අමතරව, මේ සියල්ල උසස් තත්ත්වයේ සඳහා තෝරාගෙන ඇත.

NLP ආකෘති පුහුණු කිරීම සහ තක්සේරු කිරීම සඳහා දත්ත කට්ටලය විශේෂයෙන් වැදගත් වේ. එබැවින්, ඔබට පරිවර්තනය සහ සාරාංශ කිරීම වැනි කාර්යයන් සඳහා මෙම දත්ත කට්ටලය භාවිතා කළ හැක. එසේම, බොහෝ යෙදුම් සඳහා විශාල වත්කමක් වන මෙම දත්ත කට්ටලය භාවිතයෙන් ඔබට හැඟීම් විශ්ලේෂණය කළ හැකිය.

Hugging Face කණ්ඩායම පුහුණුව සඳහා උසස් තත්ත්වයේ නියැදියක් සැපයීම සඳහා OpenWebText Corpus පාලනය කරන ලදී. එය 570GB ට වැඩි පෙළ දත්ත සහිත විශාල දත්ත කට්ටලයකි.

බර්ට්

BERT (Transformers වෙතින් ද්විපාර්ශ්වික සංකේතාකක නියෝජන) යනු NLP ආකෘතියකි. එය පෙර පුහුණු කර ඇති අතර Hugging Face වේදිකාවට පිවිසිය හැකිය. BERT Google AI භාෂා කණ්ඩායම විසින් නිර්මාණය කරන ලදී. එසේම, එය වාක්‍ය ඛණ්ඩයක ඇති වචනවල සන්දර්භය ග්‍රහණය කර ගැනීම සඳහා විශාල පෙළ දත්ත කට්ටලයක් මත පුහුණු කර ඇත.

BERT යනු ට්‍රාන්ස්ෆෝමර් පාදක ආකෘතියක් වන බැවින්, එය වරකට එක් වචනයක් වෙනුවට සම්පූර්ණ ආදාන අනුක්‍රමය එකවර ක්‍රියාවට නැංවිය හැක. ට්රාන්ස්ෆෝමර් මත පදනම් වූ ආකෘතියක් භාවිතා කරයි අවධානය යොමු කිරීමේ යාන්ත්රණ අනුක්‍රමික ආදානය අර්ථ නිරූපණය කිරීමට.

මෙම විශේෂාංගය වාක්‍ය ඛණ්ඩයක ඇති වචනවල සන්දර්භය ග්‍රහණය කර ගැනීමට BERT හට හැකියාව ලබා දෙයි.

ඔබට පෙළ වර්ගීකරණය, භාෂා අවබෝධය සඳහා BERT භාවිතා කළ හැක, නම් කරන ලද ආයතනය අනෙකුත් NLP යෙදුම් අතර හඳුනාගැනීම සහ මූලික විභේදනය. එසේම, එය පෙළ ජනනය කිරීමට සහ යන්ත්‍ර කියවීම අවබෝධ කර ගැනීමට ප්‍රයෝජනවත් වේ.

SQuAD

SQuAD (Stanford Question Answering Dataset) යනු ප්‍රශ්න සහ පිළිතුරු වල දත්ත සමුදායකි. යන්ත්‍ර කියවීමේ අවබෝධතා ආකෘති පුහුණු කිරීමට ඔබට එය භාවිතා කළ හැකිය. දත්ත කට්ටලයට විවිධ මාතෘකා පිළිබඳ ප්‍රශ්න සහ ප්‍රතිචාර 100,000 කට වඩා ඇතුළත් වේ. SQuAD පෙර දත්ත කට්ටලවලට වඩා වෙනස් වේ.

එය හුදෙක් මූල පද ගැලපීමට වඩා පෙළ සන්දර්භය පිළිබඳ දැනුම අවශ්‍ය විමසුම් කෙරෙහි අවධානය යොමු කරයි.

එහි ප්‍රතිඵලයක් වශයෙන්, එය ප්‍රශ්න-පිළිතුරු සැපයීම සහ අනෙකුත් යන්ත්‍ර-තේරුම්ගැනීමේ කාර්යයන් සඳහා ආකෘති නිර්මාණය කිරීම සහ පරීක්ෂා කිරීම සඳහා විශිෂ්ට සම්පතකි. SQuAD වලත් ප්‍රශ්න ලියන්නේ මිනිස්සු. මෙය උසස් තත්ත්වයේ සහ අනුකූලතාවයක් සපයයි.

සමස්තයක් වශයෙන්, SQuAD යනු NLP පර්යේෂකයන් සහ සංවර්ධකයින් සඳහා වටිනා සම්පතකි.

MNLI

MNLI, හෝ බහු-ප්‍රභේද ස්වභාවික භාෂා අනුමාන, පුහුණු කිරීමට සහ පරීක්ෂා කිරීමට භාවිතා කරන දත්ත කට්ටලයකි යන්ත්‍ර ඉගෙනුම් ආකෘති ස්වභාවික භාෂා නිගමනය සඳහා. MNLI හි අරමුණ වන්නේ ලබා දී ඇති ප්‍රකාශයක් වෙනත් ප්‍රකාශයක ආලෝකයෙන් සත්‍ය, අසත්‍ය හෝ මධ්‍යස්ථද යන්න හඳුනා ගැනීමයි.

MNLI පෙර දත්ත කට්ටලවලට වඩා වෙනස් වන්නේ එය බොහෝ ප්‍රභේදයන්ගෙන් පුළුල් පරාසයක පෙළ ආවරණය කරයි. මෙම ප්‍රභේද ප්‍රබන්ධ වලින් ප්‍රවෘත්ති කෑලි සහ රජයේ පත්‍රිකා දක්වා වෙනස් වේ. මෙම විචල්‍යතාවය නිසා, MNLI යනු සැබෑ ලෝක පෙළෙහි වඩාත් නියෝජිත නියැදියකි. එය පැහැදිලිවම වෙනත් බොහෝ ස්වභාවික භාෂා අනුමාන දත්ත කට්ටලවලට වඩා හොඳ ය.

දත්ත කට්ටලය තුළ අවස්ථා 400,000කට වඩා වැඩි ගණනක් සහිතව, MNLI විසින් පුහුණු ආකෘති සඳහා සැලකිය යුතු උදාහරණ ගණනාවක් සපයයි. එහි එක් එක් නියැදිය සඳහා ඔවුන්ගේ ඉගෙනීමේ දී ආදර්ශ සඳහා අදහස් අඩංගු වේ.

සමාප්ති අදහස්

අවසාන වශයෙන්, Hugging Face දත්ත කට්ටල යනු NLP පර්යේෂකයන් සහ සංවර්ධකයින් සඳහා අගනා සම්පතකි. Hugging Face විවිධ දත්ත කට්ටල සමූහයක් භාවිතා කරමින් NLP සංවර්ධනය සඳහා රාමුවක් සපයයි.

අපි හිතන්නේ Hugging Face හි විශාලතම දත්ත කට්ටලය OpenWebText Corpus වේ.

මෙම උසස් තත්ත්වයේ දත්ත කට්ටලයේ 570GB ට වැඩි පෙළ දත්ත අඩංගු වේ. එය NLP ආකෘති පුහුණු කිරීම සහ ඇගයීම සඳහා අගනා සම්පතකි. ඔබට ඔබේ මීළඟ ව්‍යාපෘතිවල OpenWebText සහ අනෙකුත් ඒවා භාවිත කිරීමට උත්සාහ කළ හැක.

මුහුණේ දත්ත කට්ටල වැළඳගැනීම: NLP විභවය අගුළු හැරීම

පළමුව, NLP යනු කුමක්ද?

පිළිබඳ දළ විශ්ලේෂණය වැළඳ ගැනීමේ මුහුණ

වඩාත් ජනප්‍රිය වැළඳගැනීමේ මුහුණු දත්ත කට්ටල

Cornell Movie-Dialogs Corpus

OpenWebText Corpus

බර්ට්

SQuAD

MNLI

සමාප්ති අදහස්

අප ගැන ඉල්කේ කැන්ඩන් බෙන්ගි

HashDork පිළිබඳ තවත් ලිපි:

ඔබේ AI හි මායාවන් අඩු කරන්නේ කෙසේද?

Colossyan vs Heygen

මෙම අනාගත තාක්ෂණික පුවත් පත්‍රිකාව නරක නැත

මුහුණේ දත්ත කට්ටල වැළඳගැනීම: NLP විභවය අගුළු හැරීම

පළමුව, NLP යනු කුමක්ද?

පිළිබඳ දළ විශ්ලේෂණය වැළඳ ගැනීමේ මුහුණ

වඩාත් ජනප්‍රිය වැළඳගැනීමේ මුහුණු දත්ත කට්ටල

Cornell Movie-Dialogs Corpus

OpenWebText Corpus

බර්ට්

SQuAD

MNLI

සමාප්ති අදහස්

අප ගැන ඉල්කේ කැන්ඩන් බෙන්ගි

HashDork පිළිබඳ තවත් ලිපි:

ඔබේ AI හි මායාවන් අඩු කරන්නේ කෙසේද?

සමාජ මාධ්‍ය සඳහා හොඳම AI මෙවලම් 10 ක්

Colossyan vs Heygen

හොඳම AI සජීවිකරණ වීඩියෝ සාදන්නා මෙවලම් 10 ක්

කියවන්නා අන්තර්ක්රියාව

ඔබමයි ඊ-මේල් මගින් පිලිතුරු දෙන්න අවලංගු කරන්න

මෙම අනාගත තාක්ෂණික පුවත් පත්‍රිකාව නරක නැත

ඔබමයි