ස්වාභාවික භාෂා සැකසුම් (NLP) වැඩිදියුණු කිරීමේ නව රැල්ලක් දක්නට ලැබේ. තවද, Hugging Face දත්ත කට්ටල මෙම ප්රවණතාවයේ ඉදිරියෙන්ම සිටී. මෙම ලිපියෙන් අපි Hugging Face දත්ත කට්ටලවල වැදගත්කම දෙස බලමු.
එසේම, NLP ආකෘති පුහුණු කිරීමට සහ තක්සේරු කිරීමට ඒවා භාවිතා කළ හැකි ආකාරය අපි බලමු.
Hugging Face යනු සංවර්ධකයින්ට විවිධ දත්ත කට්ටල සපයන සමාගමකි.
ඔබ ආරම්භකයකු හෝ පළපුරුදු NLP විශේෂඥයෙකු වුවද, Hugging Face හි ලබා දී ඇති දත්ත ඔබට ප්රයෝජනවත් වනු ඇත. අපි NLP ක්ෂේත්රය ගවේෂණය කරන විට සහ Hugging Face දත්ත කට්ටලවල විභවයන් ගැන ඉගෙන ගන්නා විට අප හා එක් වන්න.
පළමුව, NLP යනු කුමක්ද?
ස්වභාවික භාෂා සැකසුම් (NLP) යනු එහි ශාඛාවකි කෘතිම බුද්ධිය. එය පරිගණක මානව (ස්වාභාවික) භාෂා සමඟ අන්තර්ක්රියා කරන ආකාරය අධ්යයනය කරයි. NLP යනු මිනිස් භාෂාව තේරුම් ගැනීමට සහ අර්ථ නිරූපණය කිරීමට හැකි ආකෘති නිර්මාණය කිරීමයි. එබැවින්, ඇල්ගොරිතමවලට භාෂා පරිවර්තනය වැනි කාර්යයන් සිදු කළ හැක, මනෝ විශ්ලේෂණයකි, සහ පෙළ නිෂ්පාදනය.
NLP පාරිභෝගික සේවා, අලෙවිකරණය සහ සෞඛ්ය සේවා ඇතුළු විවිධ ක්ෂේත්රවල භාවිතා වේ. NLP හි පරමාර්ථය වන්නේ පරිගණකයට මිනිසුන්ගේ භාෂාවට සමීපව ලියා ඇති හෝ කතා කරන ආකාරයට මිනිස් භාෂාව අර්ථ නිරූපණය කිරීමට සහ තේරුම් ගැනීමට ඉඩ දීමයි.
පිළිබඳ දළ විශ්ලේෂණය වැළඳ ගැනීමේ මුහුණ
වැළඳ ගැනීමේ මුහුණ යනු ස්වභාවික භාෂා සැකසුම් (NLP) සහ යන්ත්ර ඉගෙනුම් තාක්ෂණ ව්යාපාරයකි. NLP හි ප්රදේශය ඉදිරියට ගෙන යාම සඳහා සංවර්ධකයින්ට සහාය වීම සඳහා ඔවුන් පුළුල් පරාසයක සම්පත් සපයයි. ඔවුන්ගේ වඩාත්ම කැපී පෙනෙන නිෂ්පාදනය වන්නේ ට්රාන්ස්ෆෝමර් පුස්තකාලයයි.
එය ස්වභාවික භාෂා සැකසුම් යෙදුම් සඳහා නිර්මාණය කර ඇත. එසේම, එය භාෂා පරිවර්තනය සහ ප්රශ්නවලට පිළිතුරු සැපයීම වැනි විවිධ NLP කාර්යයන් සඳහා පූර්ව-පුහුණු ආකෘති සපයයි.
Hugging Face, Transformers පුස්තකාලයට අමතරව, යන්ත්ර ඉගෙනීමේ දත්ත කට්ටල බෙදාගැනීම සඳහා වේදිකාවක් ඉදිරිපත් කරයි. මෙය ඉක්මනින් උසස් තත්ත්වයේ ප්රවේශ වීමට හැකි වේ පුහුණුව සඳහා දත්ත කට්ටල ඔවුන්ගේ ආකෘති.
Hugging Face හි මෙහෙවර වන්නේ ස්වභාවික භාෂා සැකසුම් (NLP) සංවර්ධකයින් සඳහා වඩාත් ප්රවේශ විය හැකි කිරීමයි.
වඩාත් ජනප්රිය වැළඳගැනීමේ මුහුණු දත්ත කට්ටල
Cornell Movie-Dialogs Corpus
මෙය Hugging Face හි ප්රසිද්ධ දත්ත කට්ටලයකි. Cornell Movie-Dialogs Corpus චිත්රපට තිරනාටක වලින් ලබාගත් දෙබස් වලින් සමන්විත වේ. ස්වභාවික භාෂා සැකසුම් (NLP) ආකෘති මෙම විස්තීර්ණ පෙළ දත්ත භාවිතයෙන් පුහුණු කළ හැක.
චිත්රපට චරිත යුගල 220,579ක් අතර සංවාද හමුවීම් 10,292කට වැඩි ප්රමාණයක් එකතුවට ඇතුළත් වේ.
ඔබට විවිධ NLP කාර්යයන් සඳහා මෙම දත්ත කට්ටලය භාවිතා කළ හැක. උදාහරණයක් ලෙස, ඔබට භාෂා නිර්මාණය සහ ප්රශ්න-පිළිතුරු ව්යාපෘති සංවර්ධනය කළ හැකිය. එසේම, ඔබට සංවාද පද්ධති නිර්මාණය කළ හැකිය. මක්නිසාද යත් එම සාකච්ඡා පුළුල් පරාසයක මාතෘකා ආවරණය කරන බැවිනි. දත්ත කට්ටලය පර්යේෂණ ව්යාපෘති සඳහා ද පුළුල් ලෙස භාවිතා කර ඇත.
එබැවින්, මෙය NLP පර්යේෂකයන් සහ සංවර්ධකයින් සඳහා ඉතා ප්රයෝජනවත් මෙවලමකි.
OpenWebText Corpus
OpenWebText Corpus යනු ඔබට Hugging Face වේදිකාවේ සොයා ගත හැකි සබැඳි පිටු එකතුවකි. මෙම දත්ත කට්ටලයට ලිපි, බ්ලොග් සහ සංසද වැනි පුළුල් පරාසයක සබැඳි පිටු ඇතුළත් වේ. මීට අමතරව, මේ සියල්ල උසස් තත්ත්වයේ සඳහා තෝරාගෙන ඇත.
NLP ආකෘති පුහුණු කිරීම සහ තක්සේරු කිරීම සඳහා දත්ත කට්ටලය විශේෂයෙන් වැදගත් වේ. එබැවින්, ඔබට පරිවර්තනය සහ සාරාංශ කිරීම වැනි කාර්යයන් සඳහා මෙම දත්ත කට්ටලය භාවිතා කළ හැක. එසේම, බොහෝ යෙදුම් සඳහා විශාල වත්කමක් වන මෙම දත්ත කට්ටලය භාවිතයෙන් ඔබට හැඟීම් විශ්ලේෂණය කළ හැකිය.
Hugging Face කණ්ඩායම පුහුණුව සඳහා උසස් තත්ත්වයේ නියැදියක් සැපයීම සඳහා OpenWebText Corpus පාලනය කරන ලදී. එය 570GB ට වැඩි පෙළ දත්ත සහිත විශාල දත්ත කට්ටලයකි.
බර්ට්
BERT (Transformers වෙතින් ද්විපාර්ශ්වික සංකේතාකක නියෝජන) යනු NLP ආකෘතියකි. එය පෙර පුහුණු කර ඇති අතර Hugging Face වේදිකාවට පිවිසිය හැකිය. BERT Google AI භාෂා කණ්ඩායම විසින් නිර්මාණය කරන ලදී. එසේම, එය වාක්ය ඛණ්ඩයක ඇති වචනවල සන්දර්භය ග්රහණය කර ගැනීම සඳහා විශාල පෙළ දත්ත කට්ටලයක් මත පුහුණු කර ඇත.
BERT යනු ට්රාන්ස්ෆෝමර් පාදක ආකෘතියක් වන බැවින්, එය වරකට එක් වචනයක් වෙනුවට සම්පූර්ණ ආදාන අනුක්රමය එකවර ක්රියාවට නැංවිය හැක. ට්රාන්ස්ෆෝමර් මත පදනම් වූ ආකෘතියක් භාවිතා කරයි අවධානය යොමු කිරීමේ යාන්ත්රණ අනුක්රමික ආදානය අර්ථ නිරූපණය කිරීමට.
මෙම විශේෂාංගය වාක්ය ඛණ්ඩයක ඇති වචනවල සන්දර්භය ග්රහණය කර ගැනීමට BERT හට හැකියාව ලබා දෙයි.
ඔබට පෙළ වර්ගීකරණය, භාෂා අවබෝධය සඳහා BERT භාවිතා කළ හැක, නම් කරන ලද ආයතනය අනෙකුත් NLP යෙදුම් අතර හඳුනාගැනීම සහ මූලික විභේදනය. එසේම, එය පෙළ ජනනය කිරීමට සහ යන්ත්ර කියවීම අවබෝධ කර ගැනීමට ප්රයෝජනවත් වේ.
SQuAD
SQuAD (Stanford Question Answering Dataset) යනු ප්රශ්න සහ පිළිතුරු වල දත්ත සමුදායකි. යන්ත්ර කියවීමේ අවබෝධතා ආකෘති පුහුණු කිරීමට ඔබට එය භාවිතා කළ හැකිය. දත්ත කට්ටලයට විවිධ මාතෘකා පිළිබඳ ප්රශ්න සහ ප්රතිචාර 100,000 කට වඩා ඇතුළත් වේ. SQuAD පෙර දත්ත කට්ටලවලට වඩා වෙනස් වේ.
එය හුදෙක් මූල පද ගැලපීමට වඩා පෙළ සන්දර්භය පිළිබඳ දැනුම අවශ්ය විමසුම් කෙරෙහි අවධානය යොමු කරයි.
එහි ප්රතිඵලයක් වශයෙන්, එය ප්රශ්න-පිළිතුරු සැපයීම සහ අනෙකුත් යන්ත්ර-තේරුම්ගැනීමේ කාර්යයන් සඳහා ආකෘති නිර්මාණය කිරීම සහ පරීක්ෂා කිරීම සඳහා විශිෂ්ට සම්පතකි. SQuAD වලත් ප්රශ්න ලියන්නේ මිනිස්සු. මෙය උසස් තත්ත්වයේ සහ අනුකූලතාවයක් සපයයි.
සමස්තයක් වශයෙන්, SQuAD යනු NLP පර්යේෂකයන් සහ සංවර්ධකයින් සඳහා වටිනා සම්පතකි.
MNLI
MNLI, හෝ බහු-ප්රභේද ස්වභාවික භාෂා අනුමාන, පුහුණු කිරීමට සහ පරීක්ෂා කිරීමට භාවිතා කරන දත්ත කට්ටලයකි යන්ත්ර ඉගෙනුම් ආකෘති ස්වභාවික භාෂා නිගමනය සඳහා. MNLI හි අරමුණ වන්නේ ලබා දී ඇති ප්රකාශයක් වෙනත් ප්රකාශයක ආලෝකයෙන් සත්ය, අසත්ය හෝ මධ්යස්ථද යන්න හඳුනා ගැනීමයි.
MNLI පෙර දත්ත කට්ටලවලට වඩා වෙනස් වන්නේ එය බොහෝ ප්රභේදයන්ගෙන් පුළුල් පරාසයක පෙළ ආවරණය කරයි. මෙම ප්රභේද ප්රබන්ධ වලින් ප්රවෘත්ති කෑලි සහ රජයේ පත්රිකා දක්වා වෙනස් වේ. මෙම විචල්යතාවය නිසා, MNLI යනු සැබෑ ලෝක පෙළෙහි වඩාත් නියෝජිත නියැදියකි. එය පැහැදිලිවම වෙනත් බොහෝ ස්වභාවික භාෂා අනුමාන දත්ත කට්ටලවලට වඩා හොඳ ය.
දත්ත කට්ටලය තුළ අවස්ථා 400,000කට වඩා වැඩි ගණනක් සහිතව, MNLI විසින් පුහුණු ආකෘති සඳහා සැලකිය යුතු උදාහරණ ගණනාවක් සපයයි. එහි එක් එක් නියැදිය සඳහා ඔවුන්ගේ ඉගෙනීමේ දී ආදර්ශ සඳහා අදහස් අඩංගු වේ.
සමාප්ති අදහස්
අවසාන වශයෙන්, Hugging Face දත්ත කට්ටල යනු NLP පර්යේෂකයන් සහ සංවර්ධකයින් සඳහා අගනා සම්පතකි. Hugging Face විවිධ දත්ත කට්ටල සමූහයක් භාවිතා කරමින් NLP සංවර්ධනය සඳහා රාමුවක් සපයයි.
අපි හිතන්නේ Hugging Face හි විශාලතම දත්ත කට්ටලය OpenWebText Corpus වේ.
මෙම උසස් තත්ත්වයේ දත්ත කට්ටලයේ 570GB ට වැඩි පෙළ දත්ත අඩංගු වේ. එය NLP ආකෘති පුහුණු කිරීම සහ ඇගයීම සඳහා අගනා සම්පතකි. ඔබට ඔබේ මීළඟ ව්යාපෘතිවල OpenWebText සහ අනෙකුත් ඒවා භාවිත කිරීමට උත්සාහ කළ හැක.
ඔබමයි