பொருளடக்கம்[மறை][காட்டு]
செயற்கை நுண்ணறிவு மற்றும் இயந்திர கற்றல் மற்றும் இயற்கை மொழி செயலாக்கம் (NLP) போன்ற சொற்களைப் பற்றி நீங்கள் கேள்விப்பட்டிருப்பீர்கள் என்று நான் நம்புகிறேன்.
குறிப்பாக நீங்கள் ஒவ்வொரு நாளும் நூற்றுக்கணக்கான அல்லது ஆயிரக்கணக்கான வாடிக்கையாளர் தொடர்புகளைக் கையாளும் நிறுவனத்தில் பணிபுரிந்தால்.
சமூக ஊடக இடுகைகள், மின்னஞ்சல்கள், அரட்டைகள், திறந்தநிலை கருத்துக்கணிப்பு பதில்கள் மற்றும் பிற ஆதாரங்களின் தரவு பகுப்பாய்வு ஒரு எளிய செயல்முறை அல்ல, மேலும் இது மக்களுக்கு மட்டுமே ஒப்படைக்கப்படும்போது இன்னும் கடினமாகிறது.
அதனால்தான் பலர் திறனைப் பற்றி ஆர்வமாக உள்ளனர் செயற்கை நுண்ணறிவு அவர்களின் அன்றாட வேலைக்காகவும் நிறுவனங்களுக்காகவும்.
AI-இயங்கும் உரை பகுப்பாய்வு, மொழியை இயல்பாக விளக்குவதற்கு பரந்த அளவிலான அணுகுமுறைகள் அல்லது வழிமுறைகளைப் பயன்படுத்துகிறது, அவற்றில் ஒன்று தலைப்பு பகுப்பாய்வு, இது உரைகளிலிருந்து பாடங்களைத் தானாகக் கண்டறியப் பயன்படுகிறது.
அதிகமான தரவுகளைக் கொண்ட தொழிலாளர்களை அதிகச் சுமையைக் காட்டிலும், எளிதான வேலைகளை இயந்திரங்களுக்கு மாற்றுவதற்கு வணிகங்கள் தலைப்பு பகுப்பாய்வு மாதிரிகளைப் பயன்படுத்தலாம்.
ஒவ்வொரு காலையிலும் வாடிக்கையாளர் கருத்துக்கணிப்புகள் அல்லது ஆதரவு சிக்கல்களின் முடிவில்லா பட்டியல்களை கணினியால் வடிகட்ட முடிந்தால், உங்கள் குழு எவ்வளவு நேரத்தைச் சேமித்து, மேலும் அத்தியாவசியப் பணிகளுக்கு ஒதுக்கலாம் என்பதைக் கவனியுங்கள்.
இந்த வழிகாட்டியில், தலைப்பு மாடலிங், தலைப்பு மாதிரியாக்கத்தின் வெவ்வேறு முறைகள் ஆகியவற்றைப் பார்ப்போம், மேலும் சில அனுபவங்களைப் பெறுவோம்.
தலைப்பு மாடலிங் என்றால் என்ன?
தலைப்பு மாதிரியாக்கம் என்பது ஒரு வகை உரைச் சுரங்கமாகும், இதில் மேற்பார்வை செய்யப்படாத மற்றும் கண்காணிக்கப்படும் புள்ளிவிவரம் இயந்திர கற்றல் கார்பஸ் அல்லது கணிசமான அளவு கட்டமைக்கப்படாத உரையின் போக்குகளைக் கண்டறிய நுட்பங்கள் பயன்படுத்தப்படுகின்றன.
இது உங்கள் மிகப்பெரிய ஆவணங்களின் தொகுப்பை எடுத்து, சொற்களை சொற்களின் தொகுப்பாக ஒழுங்கமைக்கவும் மற்றும் பாடங்களைக் கண்டறியவும் ஒரு ஒற்றுமை முறையைப் பயன்படுத்தலாம்.
இது கொஞ்சம் சிக்கலானதாகவும் கடினமாகவும் தெரிகிறது, எனவே பொருள் மாதிரியாக்க செயல்முறையை எளிதாக்குவோம்!
உங்கள் கையில் வண்ண ஹைலைட்டர்களுடன் ஒரு செய்தித்தாளைப் படிக்கிறீர்கள் என்று வைத்துக்கொள்வோம்.
அது பழமையானது அல்லவா?
இந்த நாட்களில், சிலரே அச்சில் செய்தித்தாள்களை வாசிப்பதை நான் உணர்கிறேன்; எல்லாம் டிஜிட்டல், மற்றும் ஹைலைட்டர்கள் கடந்த காலத்தின் ஒரு விஷயம்! உன் அப்பாவாகவோ அம்மாவாகவோ பாசாங்கு செய்!
எனவே, நீங்கள் செய்தித்தாளைப் படிக்கும்போது, முக்கியமான விதிமுறைகளை முன்னிலைப்படுத்துகிறீர்கள்.
மேலும் ஒரு அனுமானம்!
பல்வேறு கருப்பொருள்களின் முக்கிய வார்த்தைகளை வலியுறுத்த வேறு சாயலைப் பயன்படுத்துகிறீர்கள். வழங்கப்பட்ட வண்ணம் மற்றும் தலைப்புகளின் அடிப்படையில் நீங்கள் முக்கிய வார்த்தைகளை வகைப்படுத்துகிறீர்கள்.
ஒரு குறிப்பிட்ட நிறத்தால் குறிக்கப்பட்ட வார்த்தைகளின் ஒவ்வொரு தொகுப்பும் கொடுக்கப்பட்ட தலைப்புக்கான முக்கிய வார்த்தைகளின் பட்டியலாகும். நீங்கள் தேர்ந்தெடுத்த பல்வேறு வண்ணங்களின் அளவு தீம்களின் எண்ணிக்கையைக் காட்டுகிறது.
இது மிகவும் அடிப்படையான தலைப்பு மாடலிங் ஆகும். இது பெரிய உரை சேகரிப்புகளின் புரிதல், அமைப்பு மற்றும் சுருக்கமாக உதவுகிறது.
இருப்பினும், திறம்பட செயல்பட, தானியங்கு தலைப்பு மாதிரிகளுக்கு நிறைய உள்ளடக்கம் தேவை என்பதை நினைவில் கொள்ளுங்கள். உங்களிடம் ஒரு சிறிய காகிதம் இருந்தால், நீங்கள் பழைய பள்ளிக்குச் சென்று ஹைலைட்டர்களைப் பயன்படுத்த விரும்பலாம்!
தரவுகளை அறிந்து கொள்ள சிறிது நேரம் செலவிடுவதும் நன்மை பயக்கும். தலைப்பு மாதிரி என்ன கண்டுபிடிக்க வேண்டும் என்பதற்கான அடிப்படை உணர்வை இது உங்களுக்கு வழங்கும்.
உதாரணமாக, அந்த நாட்குறிப்பு உங்கள் தற்போதைய மற்றும் முந்தைய உறவுகளைப் பற்றியதாக இருக்கலாம். எனவே, எனது உரை சுரங்க ரோபோ-நண்பர் இதே போன்ற யோசனைகளைக் கொண்டு வருவார் என்று எதிர்பார்க்கிறேன்.
நீங்கள் கண்டறிந்த பாடங்களின் தரத்தை சிறப்பாக பகுப்பாய்வு செய்யவும், தேவைப்பட்டால், முக்கிய வார்த்தைகளை மாற்றவும் இது உதவும்.
தலைப்பு மாதிரியாக்கத்தின் கூறுகள்
நிகழ்தகவு மாதிரி
ரேண்டம் மாறிகள் மற்றும் நிகழ்தகவு விநியோகங்கள் நிகழ்தகவு மாதிரிகளில் ஒரு நிகழ்வு அல்லது நிகழ்வின் பிரதிநிதித்துவத்தில் இணைக்கப்பட்டுள்ளன.
ஒரு தீர்மான மாதிரி ஒரு நிகழ்விற்கான ஒற்றை சாத்தியமான முடிவை வழங்குகிறது, அதேசமயம் ஒரு நிகழ்தகவு மாதிரியானது ஒரு நிகழ்தகவு விநியோகத்தை தீர்வாக வழங்குகிறது.
ஒரு சூழ்நிலையைப் பற்றிய முழுமையான அறிவு நமக்கு அரிதாகவே உள்ளது என்ற யதார்த்தத்தை இந்த மாதிரிகள் கருதுகின்றன. எப்பொழுதும் கருத்தில் கொள்ள வேண்டிய சீரற்ற தன்மையின் ஒரு உறுப்பு உள்ளது.
எடுத்துக்காட்டாக, ஆயுள் காப்பீடு என்பது நாம் இறப்போம் என்று நமக்குத் தெரியும், ஆனால் எப்போது என்று நமக்குத் தெரியாது. இந்த மாதிரிகள் ஓரளவு தீர்மானிக்கக்கூடியதாகவோ, ஓரளவு சீரற்றதாகவோ அல்லது முற்றிலும் சீரற்றதாகவோ இருக்கலாம்.
தகவல் மீட்டெடுப்பு
தகவல் மீட்டெடுப்பு (IR) என்பது ஒரு மென்பொருள் நிரலாகும், இது ஆவணக் களஞ்சியங்களிலிருந்து, குறிப்பாக உரைத் தகவல்களை ஒழுங்கமைத்து, சேமித்து, மீட்டெடுக்கிறது மற்றும் மதிப்பீடு செய்கிறது.
இந்தத் தொழில்நுட்பம் பயனர்களுக்குத் தேவையான தகவலைக் கண்டறிய உதவுகிறது, ஆனால் அது அவர்களின் விசாரணைகளுக்கான பதில்களை தெளிவாக வழங்காது. தேவையான தகவல்களை வழங்கக்கூடிய ஆவணங்களின் இருப்பு மற்றும் இருப்பிடத்தை இது தெரிவிக்கிறது.
தொடர்புடைய ஆவணங்கள் பயனரின் தேவைகளைப் பூர்த்தி செய்யும். பிழையற்ற ஐஆர் அமைப்பு தேர்ந்தெடுக்கப்பட்ட ஆவணங்களை மட்டுமே வழங்கும்.
தலைப்பு ஒத்திசைவு
தலைப்பு ஒத்திசைவானது, தலைப்பின் அதிக மதிப்பெண் விதிமுறைகளுக்கு இடையே உள்ள சொற்பொருள் ஒற்றுமையின் அளவைக் கணக்கிடுவதன் மூலம் ஒரு தலைப்பைப் பெறுகிறது. இந்த அளவீடுகள் சொற்பொருள் விளக்கக்கூடிய பாடங்கள் மற்றும் புள்ளியியல் அனுமானக் கலைப்பொருட்கள் ஆகிய தலைப்புகளை வேறுபடுத்திப் பார்க்க உதவுகின்றன.
கூற்றுகள் அல்லது உண்மைகளின் குழு ஒன்றுக்கொன்று ஆதரவாக இருந்தால், அவை ஒத்திசைவானதாகக் கூறப்படுகிறது.
இதன் விளைவாக, அனைத்து அல்லது பெரும்பான்மையான உண்மைகளையும் உள்ளடக்கிய சூழலில் ஒரு ஒருங்கிணைந்த உண்மைத் தொகுப்பைப் புரிந்து கொள்ள முடியும். "விளையாட்டு ஒரு குழு விளையாட்டு," "விளையாட்டு ஒரு பந்தைக் கொண்டு விளையாடப்படுகிறது," மற்றும் "விளையாட்டிற்கு மிகப்பெரிய உடல் உழைப்பு தேவைப்படுகிறது" இவை அனைத்தும் ஒத்திசைவான உண்மைத் தொகுப்புகளுக்கு எடுத்துக்காட்டுகள்.
தலைப்பு மாதிரியாக்கத்தின் வெவ்வேறு முறைகள்
இந்த முக்கியமான செயல்முறையை பல்வேறு வழிமுறைகள் அல்லது முறைகள் மூலம் மேற்கொள்ளலாம். அவற்றில்:
- மறைந்திருக்கும் டிரிச்லெட் ஒதுக்கீடு (எல்டிஏ)
- எதிர்மறை அல்லாத அணி காரணியாக்கம் (NMF)
- மறைந்த சொற்பொருள் பகுப்பாய்வு (LSA)
- நிகழ்தகவு மறைந்த சொற்பொருள் பகுப்பாய்வு(pLSA)
மறைந்திருக்கும் டிரிச்லெட் ஒதுக்கீடு (எல்டிஏ)
கார்பஸில் உள்ள பல உரைகளுக்கு இடையே உள்ள உறவுகளைக் கண்டறிய, மறைந்த டிரிச்லெட் ஒதுக்கீட்டின் புள்ளியியல் மற்றும் வரைகலை கருத்து பயன்படுத்தப்படுகிறது.
மாறுபாடு விதிவிலக்கு மேக்சிமைசேஷன் (VEM) அணுகுமுறையைப் பயன்படுத்தி, உரையின் முழு கார்பஸிலிருந்து மிகப்பெரிய சாத்தியக்கூறு மதிப்பீடு அடையப்படுகிறது.
பாரம்பரியமாக, வார்த்தைகளின் பையில் இருந்து முதல் சில வார்த்தைகள் தேர்ந்தெடுக்கப்படுகின்றன.
இருப்பினும், வாக்கியம் முற்றிலும் அர்த்தமற்றது.
இந்த நுட்பத்தின்படி, ஒவ்வொரு உரையும் பாடங்களின் நிகழ்தகவு விநியோகத்தால் குறிப்பிடப்படும், மேலும் ஒவ்வொரு தலைப்பும் சொற்களின் நிகழ்தகவு விநியோகத்தால் குறிப்பிடப்படும்.
எதிர்மறை அல்லாத அணி காரணியாக்கம் (NMF)
எதிர்மறை மதிப்புகள் காரணியாக்கத்துடன் கூடிய மேட்ரிக்ஸ் ஒரு அதிநவீன அம்சத்தைப் பிரித்தெடுக்கும் அணுகுமுறையாகும்.
பல குணங்கள் மற்றும் பண்புக்கூறுகள் தெளிவற்றதாக இருக்கும் போது அல்லது மோசமான முன்கணிப்பைக் கொண்டிருக்கும் போது, NMF நன்மை பயக்கும். NMF பண்புகளை இணைப்பதன் மூலம் குறிப்பிடத்தக்க வடிவங்கள், பாடங்கள் அல்லது கருப்பொருள்களை உருவாக்க முடியும்.
NMF ஒவ்வொரு அம்சத்தையும் அசல் பண்புக்கூறு தொகுப்பின் நேரியல் கலவையாக உருவாக்குகிறது.
ஒவ்வொரு அம்சமும் அம்சத்தின் ஒவ்வொரு பண்புக்கூறின் முக்கியத்துவத்தைக் குறிக்கும் குணகங்களின் தொகுப்பைக் கொண்டுள்ளது. ஒவ்வொரு எண் பண்புக்கூறு மற்றும் ஒவ்வொரு வகை பண்புக்கூறின் ஒவ்வொரு மதிப்பும் அதன் சொந்த குணகத்தைக் கொண்டுள்ளது.
அனைத்து குணகங்களும் நேர்மறையானவை.
மறைந்த சொற்பொருள் பகுப்பாய்வு
ஆவணங்களின் தொகுப்பில் உள்ள சொற்களுக்கு இடையே உள்ள தொடர்புகளைப் பிரித்தெடுக்கப் பயன்படுத்தப்படும் மற்றொரு மேற்பார்வை செய்யப்படாத கற்றல் முறை மறைந்திருக்கும் சொற்பொருள் பகுப்பாய்வு ஆகும்.
இது சரியான ஆவணங்களைத் தேர்ந்தெடுக்க உதவுகிறது. உரைத் தரவுகளின் மகத்தான கார்பஸின் பரிமாணத்தைக் குறைப்பதே இதன் முதன்மைச் செயல்பாடு.
இந்தத் தேவையற்ற தரவுகள், தரவுகளிலிருந்து தேவையான நுண்ணறிவுகளைப் பெறுவதில் பின்னணி இரைச்சலாகச் செயல்படுகின்றன.
நிகழ்தகவு மறைந்த சொற்பொருள் பகுப்பாய்வு(pLSA)
நிகழ்தகவு மறைந்த சொற்பொருள் பகுப்பாய்வு (PLSA), சில நேரங்களில் நிகழ்தகவு மறைந்த சொற்பொருள் அட்டவணைப்படுத்தல் (PLSI, குறிப்பாக தகவல் மீட்டெடுப்பு வட்டங்களில்) என அழைக்கப்படுகிறது, இது இரண்டு முறை மற்றும் இணை நிகழ்வு தரவுகளை பகுப்பாய்வு செய்வதற்கான ஒரு புள்ளிவிவர அணுகுமுறையாகும்.
உண்மையில், பி.எல்.எஸ்.ஏ தோன்றிய மறைந்த சொற்பொருள் பகுப்பாய்வைப் போலவே, கவனிக்கப்பட்ட மாறிகளின் குறைந்த பரிமாண பிரதிநிதித்துவம் குறிப்பிட்ட மறைக்கப்பட்ட மாறிகளுக்கு அவற்றின் தொடர்பின் அடிப்படையில் பெறப்படலாம்.
பைத்தானில் தலைப்பு மாதிரியாக்கத்துடன் கைகோர்த்து
இப்போது, பைத்தானுடன் ஒரு சப்ஜெக்ட் மாடலிங் அசைன்மென்ட் மூலம் உங்களை அழைத்துச் செல்கிறேன் நிரலாக்க மொழி நிஜ உலக உதாரணத்தைப் பயன்படுத்தி.
நான் ஆய்வுக் கட்டுரைகளை மாடலிங் செய்வேன். நான் இங்கே பயன்படுத்தும் தரவுத்தொகுப்பு kaggle.com இலிருந்து வந்தது. இந்த வேலையில் நான் பயன்படுத்தும் அனைத்து கோப்புகளையும் இதிலிருந்து எளிதாகப் பெறலாம் பக்கம்.
அனைத்து அத்தியாவசிய நூலகங்களையும் இறக்குமதி செய்வதன் மூலம் பைத்தானைப் பயன்படுத்தி தலைப்பு மாதிரியாக்கத்தைத் தொடங்குவோம்:
இந்தப் பணியில் நான் பயன்படுத்தும் அனைத்து தரவுத்தொகுப்புகளையும் படிப்பதே பின்வரும் படி:
ஆய்வு தரவு பகுப்பாய்வு
EDA (ஆராய்வு தரவு பகுப்பாய்வு) என்பது காட்சி கூறுகளைப் பயன்படுத்தும் ஒரு புள்ளிவிவர முறையாகும். இது போக்குகள், வடிவங்கள் மற்றும் சோதனை அனுமானங்களைக் கண்டறிய புள்ளிவிவர சுருக்கங்கள் மற்றும் வரைகலை பிரதிநிதித்துவங்களைப் பயன்படுத்துகிறது.
தரவுகளில் ஏதேனும் வடிவங்கள் அல்லது உறவுகள் உள்ளதா என்பதைப் பார்க்க, தலைப்பு மாதிரியாக்கத்தைத் தொடங்குவதற்கு முன், சில ஆய்வுத் தரவு பகுப்பாய்வு செய்வேன்:
இப்போது சோதனை தரவுத்தொகுப்பின் பூஜ்ய மதிப்புகளைக் காண்போம்:
மாறிகளுக்கு இடையிலான தொடர்பைச் சரிபார்க்க இப்போது நான் ஒரு ஹிஸ்டோகிராம் மற்றும் பாக்ஸ்ப்ளாட்டைத் திட்டமிடுகிறேன்.
ரயில் தொகுப்பின் சுருக்கங்களில் உள்ள எழுத்துக்களின் அளவு பெரிதும் மாறுபடும்.
ரயிலில், குறைந்தபட்சம் 54 மற்றும் அதிகபட்சம் 4551 எழுத்துகள் உள்ளன. 1065 என்பது எழுத்துகளின் சராசரி அளவு.
சோதனைத் தொகுப்பில் 46 எழுத்துகள் இருக்கும், பயிற்சித் தொகுப்பில் 2841 எழுத்துகள் இருப்பதால், பயிற்சித் தொகுப்பை விட சோதனைத் தொகுப்பு மிகவும் சுவாரஸ்யமாகத் தெரிகிறது.
இதன் விளைவாக, சோதனைத் தொகுப்பில் 1058 எழுத்துகளின் சராசரி இருந்தது, இது பயிற்சித் தொகுப்பைப் போன்றது.
கற்றல் தொகுப்பில் உள்ள சொற்களின் எண்ணிக்கை, எழுத்துக்களின் எண்ணிக்கைக்கு ஒத்த வடிவத்தைப் பின்பற்றுகிறது.
குறைந்தபட்சம் 8 வார்த்தைகளும் அதிகபட்சம் 665 வார்த்தைகளும் அனுமதிக்கப்படும். இதன் விளைவாக, சராசரி வார்த்தை எண்ணிக்கை 153 ஆகும்.
ஒரு சுருக்கத்தில் குறைந்தபட்சம் ஏழு சொற்களும், சோதனைத் தொகுப்பில் அதிகபட்சம் 452 சொற்களும் தேவை.
இடைநிலை, இந்த வழக்கில், 153 ஆகும், இது பயிற்சி தொகுப்பில் உள்ள இடைநிலைக்கு ஒத்ததாகும்.
தலைப்பு மாடலிங்கிற்கான குறிச்சொற்களைப் பயன்படுத்துதல்
பல தலைப்பு மாடலிங் உத்திகள் உள்ளன. இந்தப் பயிற்சியில் குறிச்சொற்களைப் பயன்படுத்துவேன்; குறிச்சொற்களை ஆராய்வதன் மூலம் அதை எப்படி செய்வது என்று பார்ப்போம்:
தலைப்பு மாடலிங் பயன்பாடுகள்
- ஒரு ஆவணம் அல்லது புத்தகத்தின் தலைப்பைக் கண்டறிய உரைச் சுருக்கத்தைப் பயன்படுத்தலாம்.
- தேர்வு மதிப்பெண்ணில் இருந்து வேட்பாளர் சார்புநிலையை அகற்ற இது பயன்படுத்தப்படலாம்.
- வரைபட அடிப்படையிலான மாதிரிகளில் சொற்களுக்கு இடையே சொற்பொருள் உறவுகளை உருவாக்க தலைப்பு மாதிரியாக்கம் பயன்படுத்தப்படலாம்.
- வாடிக்கையாளரின் விசாரணையில் முக்கிய வார்த்தைகளைக் கண்டறிந்து பதிலளிப்பதன் மூலம் வாடிக்கையாளர் சேவையை மேம்படுத்த முடியும். தகுந்த தருணத்தில் அவர்களுக்குத் தேவையான உதவிகளை அவர்களுக்கு எந்தத் தொந்தரவும் தராமல் வழங்கியிருப்பதால், வாடிக்கையாளர்கள் உங்கள் மீது அதிக நம்பிக்கை வைத்திருப்பார்கள். இதன் விளைவாக, வாடிக்கையாளர் விசுவாசம் வியத்தகு அளவில் உயர்கிறது, மேலும் நிறுவனத்தின் மதிப்பு அதிகரிக்கிறது.
தீர்மானம்
தலைப்பு மாதிரியாக்கம் என்பது நூல்களின் தொகுப்பில் இருக்கும் சுருக்கமான "பொருள்களை" வெளிக்கொணரப் பயன்படும் ஒரு வகையான புள்ளியியல் மாடலிங் ஆகும்.
இது பயன்படுத்தப்படும் புள்ளிவிவர மாதிரியின் ஒரு வடிவம் இயந்திர கற்றல் மற்றும் உரைகளின் தொகுப்பில் இருக்கும் சுருக்கக் கருத்துகளை வெளிக்கொணர இயற்கை மொழி செயலாக்கம்.
இது ஒரு உரை சுரங்க முறையாகும், இது உடல் உரையில் மறைந்திருக்கும் சொற்பொருள் வடிவங்களைக் கண்டறிய பரவலாகப் பயன்படுத்தப்படுகிறது.
ஒரு பதில் விடவும்