Table of Contents[Qari][muuji]
Waxaan hubaa inaad maqashay garaadka macmalka ah, iyo sidoo kale erayo ay ka mid yihiin barashada mashiinka iyo habaynta luqadda dabiiciga ah (NLP).
Gaar ahaan haddii aad u shaqeyso shirkad maamusha boqollaal, haddaysan kumannaan ahayn, xiriirrada macmiilka maalin kasta.
Falanqaynta xogta ee qoraalada warbaahinta bulshada, iimaylka, sheekeysiga, jawaabaha sahanka furan, iyo ilo kale maahan nidaam sahlan, oo way sii adkaanaysaa marka dadka kaliya lagu aamino.
Taasi waa sababta ay dad badani u xiiseeyaan kartida sirdoonka macmal shaqo maalmeedkooda iyo ganacsiyada .
Falanqaynta qoraalka ee awoodda AI waxay shaqaaleysiisaa habab ama algorithms si ay u turjumaan luqadda si dabiici ah, mid ka mid ah waa falanqaynta mawduuca, kaas oo loo isticmaalo in si toos ah loo ogaado mawduucyada qoraallada.
Ganacsiyadu waxay isticmaali karaan moodooyinka falanqaynta mawduuca si ay ugu wareejiyaan shaqooyinka sahlan mashiinada halkii ay ka saari lahaayeen shaqaale xog badan.
Ka fiirso inta wakhtiga ay kooxdaadu kaydin karto oo ay u hurayso shaqo aad muhiim u ah haddii kombuyuutarku shaandheyn karo liisaska aan dhammaadka lahayn ee sahan macaamiisha ama arrimaha taageerada subax kasta.
Hagahan, waxaanu ku eegi doonaa qaabaynta mawduuca, habab kala duwan oo mawduuca loo qaabeeyo, waxaanuna ku heli doonaa khibrad gacan-ku-ool ah.
Waa maxay Modejinta Mawduuca?
Qaabaynta mawduuca waa nooc ka mid ah macdanta qoraalka kaas oo aan la kormeerin oo la kormeero barashada mashiinka Farsamooyinka waxaa loo isticmaalaa in lagu ogaado isbeddellada ku jira corpus ama mugga weyn ee qoraalka aan habaysan.
Waxay qaadan kartaa dukumeenti aad ururinayso oo aad isticmaasho hab isku mid ah si aad erayada u habayso oo aad u ogaato mawduucyada.
Taasi waxay u muuqataa mid adag oo adag, markaa aynu fududeyno habka qaabaynta mawduuca!
Ka soo qaad inaad akhrinayso wargeys gacantaada ku sita wax iftiimiya midab leh.
Miyaanay taasi waagii hore ahayn?
Waxaan ogaaday in maalmahan, dad yar ay akhriyaan wargeysyada daabacan; wax walba waa digital, iyo highlighters waa wax la soo dhaafay! Aabbahaa ama hooyadaa iska dhig!
Markaa, markaad akhrido wargeyska, waxaad iftiiminaysaa ereyada muhiimka ah.
Hal male oo kale!
Waxaad isticmaashaa midab kala duwan si aad u xoojiso ereyada muhiimka ah ee mawduucyada kala duwan. Waxaad u kala saartaa ereyada muhiimka ah iyadoo ku xiran midabka iyo mowduucyada la bixiyay.
Urur kasta oo ereyo ah oo lagu calaamadeeyay midab gaar ah waa liiska ereyada muhiimka ah ee mawduuc la bixiyay. Qadarka midabada kala duwan ee aad dooratay waxay muujinaysaa tirada mawduucyada.
Tani waa qaabaynta mawduuca ugu aasaasiga ah. Waxay ka caawisaa fahamka, abaabulka, iyo soo koobidda qoraallada waaweyn.
Si kastaba ha noqotee, maskaxda ku hay in si wax ku ool ah, moodooyinka mowduucyada tooska ah ay u baahan yihiin waxyaabo badan. Haddii aad haysato warqad gaaban, waxaa laga yaabaa inaad rabto inaad dhigato dugsi hore oo aad isticmaasho wax iftiimiya!
Sidoo kale waa faa'iido inaad waqti ku qaadato inaad barato xogta. Tani waxay ku siin doontaa dareen aasaasi ah oo ku saabsan waxa mawduuca laga rabo inuu helo.
Tusaale ahaan, xusuus-qorkaasu waxa laga yaabaa inuu ku saabsan yahay xidhiidhkiina hadda iyo kuwii hore. Sidaa darteed, waxaan filan lahaa qoraalkayga robot-ka-qodobeedka macdanta inuu la yimaado fikrado la mid ah.
Tani waxay kaa caawin kartaa inaad si fiican u falanqeyso tayada maaddooyinka aad aqoonsatay iyo, haddii loo baahdo, dib u habeyn ku samee setsyada ereyada muhiimka ah.
Qaybaha Modelinka Mawduuca
Qaabka macquulka ah
Doorsoomayaasha random iyo qaybinta itimaalka waxaa lagu dhex daray matalaada dhacdo ama ifafaale moodooyinka ixtimaalka ah.
Qaabka go'aamintu waxa uu bixiyaa gabagabo hal mar ah oo suurtagal ah dhacdo, halka qaabka ixtimaalka uu bixiyaa qaybinta itimaalka xal ahaan.
Moodooyinkani waxay tixgaliyaan xaqiiqada ah in aynaan naadir aqoon buuxda u lahayn xaalad. Had iyo jeer waxaa jira shay aan kala sooc lahayn oo la tixgeliyo.
Tusaale ahaan, caymiska noloshu waxa uu ku salaystaa xaqiiqada ah in aanu ognahay in aanu dhiman doono, laakiin ma garanayno goorta. Moodooyinkani waxay noqon karaan qayb go'aamin kara, qayb ahaan random, ama gebi ahaanba random.
Soo Celinta Xogta
Dib u soo celinta macluumaadka (IR) waa barnaamij kombuyuutar ah oo habeeya, kaydiya, soo saara, oo qiimeeya macluumaadka meelaha dukumeentiga ah, gaar ahaan macluumaadka qoraalka.
Tiknoolajiyadu waxay ka caawisaa isticmaalayaasha inay ogaadaan macluumaadka ay u baahan yihiin, laakiin si cad uma soo gudbinayso jawaabaha su'aalahooda. Waxay ogaysiisaa joogitaanka iyo goobta waraaqaha laga yaabo inay bixiyaan macluumaadka lagama maarmaanka ah.
Dukumeentiyada khuseeya waa kuwa daboolaya baahiyaha isticmaalaha. Nidaamka IR ee aan cillad lahayn ayaa soo celin doona dukumentiyada la doortay oo keliya.
Isku-xidhnaanta Mawduuca
Mawduuca Isku-xidhnaanta wuxuu dhaliyaa hal mawduuc iyadoo la xisaabinayo heerka isku midka ah ee semantic ee u dhexeeya mawduuca erayadiisa dhibcaha sare leh. Halbeegyadani waxay caawiyaan kala soocida maaddooyinka si macne ahaan loo fasiri karo iyo mawduucyada faragelinta tirakoobka ah.
Haddii koox sheegasho ama xaqiiqo is taageerto, waxaa la sheegaa in ay isku xiran yihiin.
Natiijo ahaan, gogol xaqiiqo ah oo isku xidhan ayaa la fahmi karaa iyadoo la raacayo xaalad koobaysa dhammaan ama inta badan xaqiiqooyinka. "Ciyaarta waa ciyaar kooxeed," "ciyaarta waxaa lagu ciyaara kubad," iyo "ciyaarta waxay u baahan tahay dadaal jireed oo weyn" dhamaantood waa tusaalayaal xaqiiqooyin isku xiran.
Hababka kala duwan ee Modeling Modeling
Habkan muhiimka ah waxaa lagu fulin karaa algorithms ama habab kala duwan. Waxaana ka mid ah:
- Qoondaynta Daahsoon ee Dirichlet (LDA)
- Factorization Matrix Matrix (NMF)
- Falanqaynta Semantic Dahsoon (LSA)
- Falanqaynta Semantic Probabilistic Dahsoon (pLSA)
Qoondaynta Dirichlet qarsoon (LDA)
Si loo ogaado cilaaqaadka ka dhexeeya qoraalo badan oo ku jira kobpus, fikradda tirakoobka iyo garaafka ee Qoondaynta Dirichlet qarsoon ayaa la isticmaalaa.
Isticmaalka habka Kala-duwanaanta Ka-reebitaanka Kala-duwanaanta (VEM), qiyaasta suurtogalka ah ee ugu weyn ee qoraalka buuxa ayaa la gaaraa.
Dhaqan ahaan, ereyada ugu sarreeya ee boorsada ereyada ayaa la doortaa.
Si kastaba ha ahaatee, weedha gabi ahaanba waa bilaa macne.
Marka loo eego farsamadan, qoraal kasta waxa lagu matali doonaa qaybinta ixtimaalka ah ee maadooyinka, iyo mawduuc kasta oo loo qaybin doono ereyada suurtogalka ah.
Factorization Matrix Matrix (NMF)
Matrix leh Wax-soosaarka Qiimaha Aan-Negative-ka ahayn waa hab-soo-saarid muuqaal-goyn ah.
Marka ay jiraan tayo badan oo sifooyinku yihiin kuwo aan caddayn ama ay leeyihiin saadaalin la'aan, NMF waa faa'iido. NMF waxay dhalin kartaa habab, maadooyin, ama mawduucyo muhiim ah iyadoo la isku darayo sifooyinka.
NMF waxay abuurtaa sifo kasta sida isku darka toosan ee qaabka asalka ah.
Sifo kastaa waxa ay ka kooban tahay tiro isku-dhafan oo ka dhigan muhiimadda sifo kasta oo ku taal astaanta. Sifo kasta oo tiro ah iyo qiime kasta oo ka mid ah sifada qayb kasta waxay leedahay isku-beeg u gaar ah.
Dhammaan isku-xirayaashu waa kuwo togan.
Falanqaynta Semantic Dahsoon
Waa hab barasho kale oo aan la ilaalin oo loo isticmaalo in lagu soo saaro ururada ka dhexeeya kelmado ku jira dukumeentiyo waa falanqaynta semantic.
Tani waxay naga caawinaysaa inaan doorano dukumentiyada saxda ah. Shaqadeeda aasaasiga ah waa inay hoos u dhigto cabbirka tirada weyn ee xogta qoraalka.
Xogtan aan loo baahnayn waxay u adeegtaa sida qaylada asalka ah ee helitaanka fikradaha lagama maarmaanka ah ee xogta.
Falanqaynta Semantic Probabilistic Dahsoon (pLSA)
Falanqaynta semantic ee dahsoon ee suurtogalka ah (PLSA), oo mararka qaarkood loo yaqaan tusmaynta semantic ixtimaal (PLSI, gaar ahaan wareegyada dib u soo celinta macluumaadka), waa hab tira koob oo lagu falanqeeyo xogta laba hab iyo dhacdooyinka wada dhaca.
Dhab ahaantii, oo la mid ah falanqaynta semantic-ka daahsoon, kaas oo PLSA ay ka soo baxday, matalaad hoose oo doorsoomayaal la arkay ayaa laga heli karaa marka loo eego xidhiidhka ay la leeyihiin doorsoomayaal qarsoon oo gaar ah.
Ku raaxaysiga Modeling Modeling ee Python
Hadda, waxaan ku dhex mari doonaa maadada qaabaynta maaddo Python-ka luqadda barnaamijka iyadoo la isticmaalayo tusaale dunida dhabta ah.
Waxaan qaabayn doonaa maqaallada cilmi-baarista. Xogta aan ku isticmaali doono halkan waxay ka timid kaggle.com. Waxaad si fudud uga heli kartaa dhammaan faylasha aan ku isticmaalayo shaqadan tan Page.
Aan ku bilowno Mowduuca Mawduuca annagoo adeegsanayna Python anagoo soo dejinaaya dhammaan maktabadaha muhiimka ah:
Talaabada soo socota waa in la akhriyo dhammaan xog-ururinta aan u isticmaali doono hawshan:
Falanqaynta Xogta Sahanka
EDA (Falanqaynta Xogta Sahanka) waa hab xisaabeed oo ka shaqeeya walxaha muuqaalka ah. Waxay adeegsataa koobitaanka tirakoobka iyo matalaad garaafeed si ay u ogaato isbeddellada, qaababka, iyo malo-awaalka tijaabada.
Waxaan samayn doonaa xoogaa falanqayn xogeed ah ka hor inta aanan bilaabin qaabaynta mawduuca si aan u eego haddii ay jiraan wax habab ama xidhiidh ah oo ku jira xogta:
Hadda waxaan heli doonaa qiimayaasha aan waxba ka jirin ee xogta xogta tijaabada:
Hadda waxaan diyaarin doonaa histogram iyo sanduuqa sanduuqa si aan u hubiyo xidhiidhka ka dhexeeya doorsoomayaasha.
Qadarka jilayaasha ku jira Abstracts of the Train set way kala duwan yihiin.
Tareenka, waxaanu ku haynaa ugu yaraan 54 iyo ugu badnaan 4551 xaraf. 1065 waa celceliska tirada jilayaasha.
Qalabka imtixaanku wuxuu u muuqdaa inuu ka xiiso badan yahay habka tababarka maadaama tijaabada tijaabada ay ka kooban tahay 46 xaraf halka qaybta tababarka ay ka kooban tahay 2841.
Natiijo ahaan, tijaabada tijaabada waxay lahayd dhexdhexaad ah 1058 xaraf, taas oo la mid ah qaabka tababarka.
Tirada kelmadaha ku jira shaxda wax-barashadu waxay raacdaa qaab la mid ah tirada xarfaha.
Ugu yaraan 8 kelmadood iyo ugu badnaan 665 kelmadood ayaa la oggol yahay. Natiijo ahaan, tirinta ereyga dhexdhexaadka ah waa 153.
Ugu yaraan todoba kelmadood oo aan la taaban karin iyo ugu badnaan 452 kelmadood oo ku jira shaxda imtixaanka ayaa loo baahan yahay.
Dhexdhexaadiyaha, kiiskan, waa 153, taas oo la mid ah dhexdhexaadiyaha tababarka.
Isticmaalka Tags for Modeling Modeling
Waxaa jira dhowr xeelado qaabaynta mawduuca. Waxaan ku isticmaali doonaa summada jimicsigan; bal aynu eegno sida loo sameeyo anagoo eegayna tags:
Codsiyada Qaabaynta Mawduuca
- Qoraal kooban ayaa loo isticmaali karaa in lagu garto mawduuca dukumeenti ama buug.
- Waxa loo isticmaali karaa in laga saaro eexda musharraxiinta dhibcaha imtixaanka.
- Qaabaynta mawduuca waxa laga yaabaa in loo isticmaalo in lagu dhiso xidhiidhada semantic ee u dhexeeya erayada garaafyada ku salaysan.
- Waxay wanaajin kartaa adeegga macaamiisha iyadoo ogaanaysa oo ka jawaabeysa ereyada muhiimka ah ee weydiinta macmiilka. Macaamiisha ayaa kugu aamini doona in badan maadaama aad siisay caawimada ay u baahan yihiin wakhtiga ku haboon oo aanad u keenin wax dhib ah. Natiijo ahaan, daacadnimada macmiilku si aad ah ayey kor ugu kacdaa, qiimaha shirkaduna wuu kordhaa.
Ugu Dambeyn
Qaabaynta mawduuca waa nooc ka mid ah qaabaynta tirakoobka ee loo isticmaalo in lagu daah furo "mawduucyada" aan la taaban karin ee ku jira ururinta qoraallada.
Waa nooc ka mid ah qaabka tirakoobka ee lagu isticmaalo barashada mashiinka iyo habaynta luqadda dabiiciga ah si loo daah furo fikradaha aan la taaban karin ee ka jira qoraallada.
Waa habka macdanta qoraalka oo si weyn loo isticmaalo in lagu helo qaababka semantic ee qoraalka jirka.
Leave a Reply