Orodha ya Yaliyomo[Ficha][Onyesha]
Nina hakika umesikia habari za akili bandia, na pia maneno kama vile kujifunza kwa mashine na kuchakata lugha asilia (NLP).
Hasa ikiwa unafanya kazi kwa kampuni inayoshughulikia mamia, ikiwa sio maelfu, ya mawasiliano ya wateja kila siku.
Uchanganuzi wa data wa machapisho ya mitandao ya kijamii, barua pepe, gumzo, majibu ya uchunguzi usio na kikomo, na vyanzo vingine sio mchakato rahisi, na inakuwa ngumu zaidi inapokabidhiwa kwa watu pekee.
Ndio maana watu wengi wana shauku juu ya uwezo wa bandia akili kwa kazi zao za kila siku na biashara.
Uchanganuzi wa maandishi unaoendeshwa na AI hutumia anuwai ya mikabala au algoriti ili kufasiri lugha kikaboni, mojawapo ikiwa ni uchanganuzi wa mada, ambao hutumiwa kugundua kiotomatiki mada kutoka kwa matini.
Biashara zinaweza kutumia miundo ya uchanganuzi wa mada kuhamisha kazi rahisi kwenye mashine badala ya kuwalemea wafanyikazi walio na data nyingi.
Zingatia muda ambao timu yako inaweza kuokoa na kutumia kwa kazi muhimu zaidi ikiwa kompyuta inaweza kuchuja kupitia orodha nyingi za tafiti za wateja au masuala ya usaidizi kila asubuhi.
Katika mwongozo huu, tutaangalia uundaji wa mada, mbinu tofauti za uundaji wa mada, na kupata uzoefu wa kushughulikia mada.
Mada ya Modeling ni nini?
Uundaji wa mada ni aina ya uchimbaji wa maandishi ambapo takwimu zisizodhibitiwa na kusimamiwa mashine kujifunza mbinu hutumiwa kugundua mienendo katika mkusanyiko au kiasi kikubwa cha maandishi ambayo hayajaundwa.
Inaweza kuchukua mkusanyiko wako mkubwa wa hati na kutumia mbinu ya mfanano kupanga maneno katika makundi ya istilahi na kugundua mada.
Hiyo inaonekana kuwa ngumu na ngumu, kwa hivyo wacha turahisishe utaratibu wa uundaji wa somo!
Chukulia kuwa unasoma gazeti lenye viangazio vya rangi mkononi mwako.
Hiyo si ya kizamani?
Ninatambua kwamba siku hizi, ni watu wachache wanaosoma magazeti yaliyochapishwa; kila kitu ni kidijitali, na viangazio ni jambo la zamani! Jifanye baba au mama yako!
Kwa hiyo, unaposoma gazeti, unaonyesha maneno muhimu.
Dhana moja zaidi!
Unatumia rangi tofauti kusisitiza maneno muhimu ya mandhari mbalimbali. Unaainisha maneno msingi kulingana na rangi na mada ulizopewa.
Kila mkusanyiko wa maneno yaliyowekwa alama na rangi fulani ni orodha ya maneno muhimu kwa mada fulani. Kiasi cha rangi mbalimbali ulizochagua kinaonyesha idadi ya mandhari.
Huu ndio uundaji wa mada ya msingi zaidi. Inasaidia katika ufahamu, mpangilio, na muhtasari wa mkusanyiko mkubwa wa maandishi.
Hata hivyo, kumbuka kwamba ili kuwa na ufanisi, mifano ya mada otomatiki inahitaji maudhui mengi. Ikiwa una karatasi fupi, unaweza kutaka kwenda shule ya zamani na kutumia viangazia!
Pia ni vyema kutumia muda kupata kujua data. Hii itakupa maana ya msingi ya kile mtindo wa mada unapaswa kupata.
Kwa mfano, shajara hiyo inaweza kuwa kuhusu mahusiano yako ya sasa na ya awali. Kwa hivyo, ningetarajia rafiki yangu wa uchimbaji madini wa roboti kuja na mawazo sawa.
Hii inaweza kukusaidia kuchanganua vyema ubora wa masomo uliyotambua na, ikihitajika, kurekebisha seti za maneno muhimu.
Vipengele vya Uundaji wa Mada
Mfano wa Uwezekano
Vigezo nasibu na usambaaji wa uwezekano hujumuishwa katika uwakilishi wa tukio au jambo katika miundo ya uwezekano.
Muundo wa kubainisha hutoa hitimisho moja linalowezekana kwa tukio, ilhali kielelezo cha uwezekano hutoa usambazaji wa uwezekano kama suluhu.
Mifano hizi huzingatia ukweli kwamba sisi mara chache tuna ujuzi kamili wa hali. Karibu kila mara kuna kipengele cha nasibu cha kuzingatia.
Kwa mfano, bima ya maisha inategemea ukweli kwamba tunajua tutakufa, lakini hatujui ni lini. Miundo hii inaweza kuwa ya kuamua kiasi, nasibu kwa kiasi, au nasibu kabisa.
Urejeshaji wa Taarifa
Urejeshaji wa taarifa (IR) ni programu ya programu ambayo hupanga, kuhifadhi, kurejesha na kutathmini taarifa kutoka kwa hazina za hati, hasa habari za maandishi.
Teknolojia hiyo huwasaidia watumiaji kugundua taarifa wanayohitaji, lakini haitoi majibu kwa uwazi kwa maswali yao. Inaarifu uwepo na eneo la karatasi ambazo zinaweza kutoa habari muhimu.
Nyaraka husika ni zile zinazokidhi mahitaji ya mtumiaji. Mfumo wa IR usio na dosari utarudisha hati zilizochaguliwa pekee.
Mshikamano wa Mada
Uwiano wa Mada hupata mada moja kwa kukokotoa kiwango cha ulinganifu wa kimaana kati ya maneno ya mada yenye alama za juu. Vipimo hivi husaidia kutofautisha kati ya masomo ambayo yanaweza kufasiriwa kisemantiki na mada ambazo ni vizalia vya makisio ya takwimu.
Ikiwa kundi la madai au ukweli linaunga mkono kila mmoja, inasemekana kuwa thabiti.
Matokeo yake, seti ya ukweli iliyoshikamana inaweza kueleweka katika muktadha unaojumuisha ukweli wote au wingi wa ukweli. "Mchezo ni mchezo wa timu," "mchezo unachezwa kwa mpira," na "mchezo unahitaji juhudi kubwa ya kimwili" yote ni mifano ya seti za ukweli zenye kushikamana.
Mbinu Mbalimbali za Uundaji wa Mada
Utaratibu huu muhimu unaweza kufanywa na algorithms au mbinu mbalimbali. Miongoni mwao ni:
- Ugawaji wa Dirichlet Latent (LDA)
- Uundaji wa Matrix Isiyo Hasi (NMF)
- Uchambuzi wa Semantiki Fiche (LSA)
- Uchambuzi wa Semantiki wa Uwezekano Fiche (pLSA)
Ugawaji wa Dirichlet Latent (LDA)
Ili kugundua uhusiano kati ya maandishi mengi kwenye mkusanyiko, dhana ya takwimu na picha ya Latent Dirichlet Allocation inatumika.
Kwa kutumia mbinu ya Kuongeza Ubaguzi Tofauti (VEM), makadirio makubwa zaidi ya uwezekano kutoka kwa mkusanyiko kamili wa maandishi hupatikana.
Kijadi, maneno machache ya juu kutoka kwa mfuko wa maneno huchaguliwa.
Hata hivyo, sentensi haina maana kabisa.
Kulingana na mbinu hii, kila maandishi yatawakilishwa na mgawanyo unaowezekana wa masomo, na kila mada kwa usambazaji wa maneno unaowezekana.
Uundaji wa Matrix Isiyo Hasi (NMF)
Matrix yenye Uwekaji Thamani Zisizo Hasi ni mbinu ya kisasa ya uchimbaji wa kipengele.
Wakati kuna sifa nyingi na sifa hazieleweki au zina utabiri duni, NMF ina manufaa. NMF inaweza kuzalisha ruwaza, mada, au mandhari muhimu kwa kuchanganya sifa.
NMF hutengeneza kila kipengele kama mseto wa mstari wa seti ya sifa asilia.
Kila kipengele kina seti ya mgawo unaowakilisha umuhimu wa kila sifa kwenye kipengele. Kila sifa ya nambari na kila thamani ya kila sifa ya kategoria ina mgawo wake.
Migawo yote ni chanya.
Uchambuzi wa Semantiki Fiche
Ni njia nyingine ya ujifunzaji isiyosimamiwa inayotumiwa kupata uhusiano kati ya maneno katika seti ya hati ni uchanganuzi fiche wa kisemantiki.
Hii inatusaidia kuchagua hati zinazofaa. Kazi yake kuu ni kupunguza ukubwa wa mkusanyiko mkubwa wa data ya maandishi.
Data hizi zisizo za lazima hutumika kama kelele ya chinichini katika kupata maarifa muhimu kutoka kwa data.
Uchambuzi wa Semantiki wa Uwezekano Fiche (pLSA)
Uchanganuzi wa kisemantiki unaowezekana uliofichika (PLSA), ambao wakati mwingine hujulikana kama faharasa ya kisemantiki inayowezekana iliyofichika (PLSI, haswa katika miduara ya urejeshaji habari), ni mbinu ya kitakwimu ya kuchanganua data ya hali mbili na matukio-shirikishi.
Kwa kweli, sawa na uchanganuzi wa kisemantiki uliofichika, ambao PLSA iliibuka, uwakilishi wa hali ya chini wa vigeu vilivyoangaliwa unaweza kutolewa kwa kuzingatia mshikamano wao kwa vigeu fulani vilivyofichwa.
Kushirikiana na Uundaji wa Mada katika Python
Sasa, nitakutembeza mgawo wa uigaji wa somo na Python lugha ya programu kwa kutumia mfano wa ulimwengu halisi.
Nitakuwa nikiiga nakala za utafiti. Hifadhidata nitakayotumia hapa inatoka kwa kaggle.com. Unaweza kupata kwa urahisi faili zote ambazo ninatumia katika kazi hii kutoka kwa hii ukurasa.
Wacha tuanze na Modeling ya Mada kwa kutumia Python kwa kuagiza maktaba zote muhimu:
Hatua ifuatayo ni kusoma hifadhidata zote ambazo nitakuwa nikitumia katika kazi hii:
Uchambuzi wa Data ya Uchunguzi
EDA (Uchambuzi wa Data ya Uchunguzi) ni mbinu ya takwimu inayotumia vipengele vya kuona. Inatumia muhtasari wa takwimu na uwakilishi wa picha ili kugundua mitindo, ruwaza, na mawazo ya majaribio.
Nitafanya uchambuzi wa data ya uchunguzi kabla sijaanza uundaji wa mada ili kuona ikiwa kuna muundo au uhusiano wowote katika data:
Sasa tutapata maadili yasiyofaa ya hifadhidata ya majaribio:
Sasa nitakuwa nikipanga histogram na boxplot kuangalia uhusiano kati ya anuwai.
Idadi ya wahusika katika Muhtasari wa seti ya Treni hutofautiana sana.
Kwenye treni, tuna angalau herufi 54 na zisizozidi herufi 4551. 1065 ni kiasi cha wastani cha wahusika.
Seti ya majaribio inaonekana kuvutia zaidi kuliko seti ya mafunzo kwani seti ya jaribio ina herufi 46 wakati seti ya mafunzo ina 2841.
Matokeo yake, seti ya mtihani ilikuwa na wastani wa wahusika 1058, ambayo ni sawa na seti ya mafunzo.
Idadi ya maneno katika seti ya kujifunza hufuata muundo sawa na idadi ya herufi.
Kiwango cha chini cha maneno 8 na upeo wa maneno 665 huruhusiwa. Kama matokeo, hesabu ya maneno ya wastani ni 153.
Kiwango cha chini cha maneno saba katika muhtasari na upeo wa maneno 452 katika seti ya jaribio inahitajika.
Wastani, katika kesi hii, ni 153, ambayo ni sawa na wastani katika seti ya mafunzo.
Kutumia Lebo kwa Uundaji wa Mada
Kuna mikakati kadhaa ya kuunda mada. Nitatumia vitambulisho katika zoezi hili; hebu tuangalie jinsi ya kufanya hivyo kwa kuchunguza vitambulisho:
Matumizi ya Uundaji wa Mada
- Muhtasari wa maandishi unaweza kutumika kutambua mada ya hati au kitabu .
- Inaweza kutumika kuondoa upendeleo wa watahiniwa kutoka kwa alama za mitihani.
- Uundaji wa mada unaweza kutumika kujenga uhusiano wa kisemantiki kati ya maneno katika miundo inayotegemea grafu.
- Inaweza kuboresha huduma kwa wateja kwa kugundua na kujibu maneno muhimu katika uchunguzi wa mteja. Wateja watakuwa na imani zaidi nawe kwa kuwa umewapa usaidizi wanaohitaji kwa wakati unaofaa na bila kuwasababishia usumbufu wowote. Matokeo yake, uaminifu wa mteja huongezeka kwa kasi, na thamani ya kampuni huongezeka.
Hitimisho
Uundaji wa mada ni aina ya uundaji wa takwimu unaotumiwa kufichua "masomo" dhahania ambayo yapo katika mkusanyiko wa maandishi.
Ni aina ya modeli ya takwimu inayotumika katika mashine kujifunza na usindikaji wa lugha asilia ili kufichua dhana dhahania ambazo zipo katika seti ya matini.
Ni njia ya kuchimba maandishi ambayo hutumiwa sana kupata mifumo fiche ya kisemantiki katika maandishi ya mwili.
Acha Reply