இயற்கை மொழி செயலாக்கம் (NLP) ஒரு புதிய அலை மேம்பாடுகளைக் கண்டு வருகிறது. மேலும், ஹக்கிங் ஃபேஸ் டேட்டாசெட்கள் இந்தப் போக்கில் முன்னணியில் உள்ளன. இந்தக் கட்டுரையில், ஹக்கிங் ஃபேஸ் டேட்டாசெட்களின் முக்கியத்துவத்தைப் பார்ப்போம்.
மேலும், NLP மாதிரிகளைப் பயிற்றுவிப்பதற்கும் மதிப்பீடு செய்வதற்கும் அவை எவ்வாறு பயன்படுத்தப்படலாம் என்பதைப் பார்ப்போம்.
ஹக்கிங் ஃபேஸ் என்பது டெவலப்பர்களுக்கு பல்வேறு தரவுத்தொகுப்புகளை வழங்கும் ஒரு நிறுவனமாகும்.
நீங்கள் ஒரு தொடக்கநிலை அல்லது அனுபவம் வாய்ந்த NLP நிபுணராக இருந்தாலும், ஹக்கிங் ஃபேஸில் வழங்கப்பட்ட தரவு உங்களுக்குப் பயன்படும். NLP துறையில் நாங்கள் ஆராய்ந்து, ஹக்கிங் ஃபேஸ் டேட்டாசெட்களின் திறனைப் பற்றி அறிந்துகொள்ள எங்களுடன் சேருங்கள்.
முதலில், NLP என்றால் என்ன?
இயற்கை மொழி செயலாக்கம் (NLP) என்பது ஒரு கிளை ஆகும் செயற்கை நுண்ணறிவு. மனித (இயற்கை) மொழிகளுடன் கணினிகள் எவ்வாறு தொடர்பு கொள்கின்றன என்பதை இது ஆய்வு செய்கிறது. NLP என்பது மனித மொழியைப் புரிந்துகொள்ளும் மற்றும் விளக்கும் திறன் கொண்ட மாதிரிகளை உருவாக்குகிறது. எனவே, அல்காரிதம்கள் மொழி மொழிபெயர்ப்பு போன்ற பணிகளை மேற்கொள்ளலாம், உணர்வு பகுப்பாய்வு, மற்றும் உரை தயாரிப்பு.
வாடிக்கையாளர் சேவை, சந்தைப்படுத்தல் மற்றும் சுகாதாரம் உள்ளிட்ட பல்வேறு பகுதிகளில் NLP பயன்படுத்தப்படுகிறது. NLP இன் நோக்கம், கணினிகள் மனித மொழியை மனிதர்களுக்கு நெருக்கமான முறையில் எழுதப்பட்ட அல்லது பேசும் விதத்தில் புரிந்து கொள்ள அனுமதிப்பதாகும்.
கண்ணோட்டம் முகத்தை கட்டிப்பிடிப்பது
முகத்தை கட்டிப்பிடிப்பது ஒரு இயற்கை மொழி செயலாக்கம் (NLP) மற்றும் இயந்திர கற்றல் தொழில்நுட்ப வணிகமாகும். NLP இன் பகுதியை மேலும் மேம்படுத்த டெவலப்பர்களுக்கு உதவுவதற்கு அவை பரந்த அளவிலான வளங்களை வழங்குகின்றன. அவர்களின் மிகவும் குறிப்பிடத்தக்க தயாரிப்பு டிரான்ஸ்ஃபார்மர்ஸ் நூலகம்.
இது இயற்கை மொழி செயலாக்க பயன்பாடுகளுக்காக வடிவமைக்கப்பட்டுள்ளது. மேலும், இது மொழி மொழிபெயர்ப்பு மற்றும் கேள்வி பதில் போன்ற பல்வேறு NLP பணிகளுக்கு முன் பயிற்சி பெற்ற மாதிரிகளை வழங்குகிறது.
ஹக்கிங் ஃபேஸ், டிரான்ஸ்ஃபார்மர்ஸ் லைப்ரரிக்கு கூடுதலாக, இயந்திர கற்றல் தரவுத்தொகுப்புகளைப் பகிர்வதற்கான தளத்தை வழங்குகிறது. இது உயர்தரத்தை விரைவாக அணுகுவதை சாத்தியமாக்குகிறது பயிற்சிக்கான தரவுத்தொகுப்புகள் அவர்களின் மாதிரிகள்.
ஹக்கிங் ஃபேஸின் நோக்கம் இயற்கை மொழி செயலாக்கத்தை (என்எல்பி) டெவலப்பர்களுக்கு அணுகக்கூடியதாக மாற்றுவதாகும்.
மிகவும் பிரபலமான ஹக்கிங் ஃபேஸ் டேட்டாசெட்கள்
கார்னெல் திரைப்படம்-டயலாக்ஸ் கார்பஸ்
இது ஹக்கிங் ஃபேஸில் இருந்து நன்கு அறியப்பட்ட தரவுத்தொகுப்பு. கார்னெல் மூவி-டயலாக்ஸ் கார்பஸ் திரைப்படத் திரைக்கதைகளிலிருந்து எடுக்கப்பட்ட உரையாடல்களைக் கொண்டுள்ளது. இயற்கை மொழி செயலாக்க (NLP) மாதிரிகள் இந்த விரிவான உரைத் தரவைப் பயன்படுத்தி பயிற்சியளிக்கப்படலாம்.
220,579 திரைப்பட கதாபாத்திர ஜோடிகளுக்கு இடையே 10,292 க்கும் மேற்பட்ட உரையாடல்கள் சேகரிப்பில் சேர்க்கப்பட்டுள்ளன.
பல்வேறு NLP பணிகளுக்கு இந்தத் தரவுத்தொகுப்பைப் பயன்படுத்தலாம். எடுத்துக்காட்டாக, நீங்கள் மொழி உருவாக்கம் மற்றும் கேள்வி-பதில் திட்டங்களை உருவாக்கலாம். மேலும், நீங்கள் உரையாடல் அமைப்புகளை உருவாக்கலாம். ஏனெனில் பேச்சுக்கள் பரந்த அளவிலான தலைப்புகளை உள்ளடக்கியது. தரவுத்தொகுப்பு ஆராய்ச்சி திட்டங்களிலும் விரிவாகப் பயன்படுத்தப்படுகிறது.
எனவே, இது NLP ஆராய்ச்சியாளர்கள் மற்றும் டெவலப்பர்களுக்கு மிகவும் பயனுள்ள கருவியாகும்.
OpenWebText கார்பஸ்
OpenWebText Corpus என்பது ஹக்கிங் ஃபேஸ் தளத்தில் நீங்கள் காணக்கூடிய ஆன்லைன் பக்கங்களின் தொகுப்பாகும். இந்த தரவுத்தொகுப்பில் கட்டுரைகள், வலைப்பதிவுகள் மற்றும் மன்றங்கள் போன்ற பரந்த அளவிலான ஆன்லைன் பக்கங்கள் உள்ளன. கூடுதலாக, இவை அனைத்தும் அவற்றின் உயர் தரத்திற்காக தேர்ந்தெடுக்கப்பட்டன.
என்எல்பி மாதிரிகளைப் பயிற்றுவிப்பதற்கும் மதிப்பிடுவதற்கும் தரவுத்தொகுப்பு குறிப்பாக மதிப்புமிக்கது. எனவே, மொழிபெயர்ப்பு மற்றும் சுருக்கம் போன்ற பணிகளுக்கு இந்தத் தரவுத்தொகுப்பைப் பயன்படுத்தலாம். மேலும், பல பயன்பாடுகளுக்கு மிகப்பெரிய சொத்தாக இருக்கும் இந்தத் தரவுத்தொகுப்பைப் பயன்படுத்தி நீங்கள் உணர்வுப் பகுப்பாய்வைச் செய்யலாம்.
ஹக்கிங் ஃபேஸ் குழுவானது, ஓபன்வெப்டெக்ஸ்ட் கார்பஸைப் பயிற்சிக்காக உயர்தர மாதிரியை வழங்குவதற்காகத் தேர்ந்தெடுத்தது. இது 570GB க்கும் அதிகமான உரைத் தரவைக் கொண்ட பெரிய தரவுத்தொகுப்பாகும்.
பெர்ட்
BERT (டிரான்ஸ்ஃபார்மர்களில் இருந்து இருதரப்பு குறியாக்கி பிரதிநிதித்துவம்) என்பது ஒரு NLP மாதிரி. இது முன் பயிற்சியளிக்கப்பட்டது மற்றும் ஹக்கிங் ஃபேஸ் பிளாட்பார்மில் அணுகக்கூடியது. BERT ஆனது Google AI மொழி குழுவால் உருவாக்கப்பட்டது. மேலும், ஒரு சொற்றொடரில் உள்ள சொற்களின் சூழலைப் புரிந்துகொள்ள இது ஒரு பரந்த உரை தரவுத்தொகுப்பில் பயிற்சியளிக்கப்படுகிறது.
BERT ஒரு மின்மாற்றி அடிப்படையிலான மாதிரியாக இருப்பதால், ஒரு நேரத்தில் ஒரு வார்த்தைக்குப் பதிலாக முழு உள்ளீட்டு வரிசையையும் ஒரே நேரத்தில் செயலாக்க முடியும். மின்மாற்றி அடிப்படையிலான மாதிரி பயன்படுத்துகிறது கவனம் வழிமுறைகள் தொடர் உள்ளீட்டை விளக்குவதற்கு.
இந்த அம்சம் BERT ஐ ஒரு சொற்றொடரில் உள்ள சொற்களின் சூழலைப் புரிந்துகொள்ள உதவுகிறது.
நீங்கள் BERT ஐப் பயன்படுத்தி உரை வகைப்படுத்தல், மொழிப் புரிதல், பெயரிடப்பட்ட நிறுவனம் மற்ற NLP பயன்பாடுகளில் அடையாளம் காணுதல் மற்றும் முக்கிய தீர்மானம். மேலும், இது உரையை உருவாக்குவதற்கும் இயந்திர வாசிப்பைப் புரிந்துகொள்வதற்கும் பயனுள்ளதாக இருக்கும்.
SQuAD
SQuAD (Stanford Question Answering Dataset) என்பது கேள்விகள் மற்றும் பதில்களின் தரவுத்தளமாகும். இயந்திர வாசிப்பு புரிதல் மாதிரிகளைப் பயிற்றுவிக்க நீங்கள் அதைப் பயன்படுத்தலாம். தரவுத்தொகுப்பில் பல்வேறு தலைப்புகளில் 100,000 கேள்விகள் மற்றும் பதில்கள் உள்ளன. SQuAD முந்தைய தரவுத்தொகுப்புகளிலிருந்து வேறுபடுகிறது.
முக்கிய வார்த்தைகளைப் பொருத்துவதற்குப் பதிலாக, உரையின் சூழலைப் பற்றிய அறிவு தேவைப்படும் வினவல்களில் இது கவனம் செலுத்துகிறது.
இதன் விளைவாக, கேள்வி-பதில் மற்றும் பிற இயந்திர-புரிதல் பணிகளுக்கான மாதிரிகளை உருவாக்குவதற்கும் சோதனை செய்வதற்கும் இது ஒரு சிறந்த ஆதாரமாகும். மனிதர்கள் SQuAD இல் கேள்விகளை எழுதுகிறார்கள். இது உயர் தரம் மற்றும் நிலைத்தன்மையை வழங்குகிறது.
ஒட்டுமொத்தமாக, SQuAD என்பது NLP ஆராய்ச்சியாளர்கள் மற்றும் டெவலப்பர்களுக்கான மதிப்புமிக்க ஆதாரமாகும்.
எம்.என்.எல்.ஐ
MNLI, அல்லது பல வகை இயற்கை மொழி அனுமானம், பயிற்சி மற்றும் சோதனைக்கு பயன்படுத்தப்படும் தரவுத்தொகுப்பு இயந்திர கற்றல் மாதிரிகள் இயற்கை மொழி அனுமானத்திற்காக. MNLI இன் நோக்கம், கொடுக்கப்பட்ட அறிக்கை உண்மையா, பொய்யா அல்லது மற்றொரு அறிக்கையின் வெளிச்சத்தில் நடுநிலையானதா என்பதைக் கண்டறிவதாகும்.
MNLI முந்தைய தரவுத்தொகுப்புகளிலிருந்து வேறுபட்டது, அது பல வகைகளில் இருந்து பரந்த அளவிலான உரைகளை உள்ளடக்கியது. இந்த வகைகள் புனைகதையிலிருந்து செய்தித் துண்டுகள் மற்றும் அரசாங்கத் தாள்கள் வரை வேறுபடுகின்றன. இந்த மாறுபாட்டின் காரணமாக, MNLI என்பது நிஜ உலக உரையின் மிகவும் பிரதிநிதித்துவ மாதிரியாகும். இது பல இயற்கை மொழி அனுமான தரவுத்தொகுப்புகளை விட சிறப்பாக உள்ளது.
தரவுத்தொகுப்பில் 400,000 க்கும் மேற்பட்ட வழக்குகளுடன், MNLI பயிற்சி மாதிரிகளுக்கு கணிசமான எண்ணிக்கையிலான எடுத்துக்காட்டுகளை வழங்குகிறது. மாதிரிகள் கற்றலில் உதவ ஒவ்வொரு மாதிரியின் கருத்துகளையும் இது கொண்டுள்ளது.
இறுதி எண்ணங்கள்
இறுதியாக, ஹக்கிங் ஃபேஸ் தரவுத்தொகுப்புகள் NLP ஆராய்ச்சியாளர்கள் மற்றும் டெவலப்பர்களுக்கு ஒரு விலைமதிப்பற்ற ஆதாரமாகும். ஹக்கிங் ஃபேஸ் பலதரப்பட்ட தரவுத்தொகுப்புகளைப் பயன்படுத்தி NLP மேம்பாட்டிற்கான கட்டமைப்பை வழங்குகிறது.
ஹக்கிங் ஃபேஸின் சிறந்த தரவுத்தொகுப்பு OpenWebText Corpus என்று நாங்கள் நினைக்கிறோம்.
இந்த உயர்தர தரவுத்தொகுப்பில் 570GB க்கும் மேற்பட்ட உரை தரவு உள்ளது. NLP மாதிரிகளைப் பயிற்றுவிப்பதற்கும் மதிப்பீடு செய்வதற்கும் இது ஒரு விலைமதிப்பற்ற ஆதாரமாகும். உங்கள் அடுத்த திட்டப்பணிகளில் OpenWebText மற்றும் பிறவற்றைப் பயன்படுத்த முயற்சிக்கலாம்.
ஒரு பதில் விடவும்