Clár na nÁbhar[Folaigh][Taispeáin]
Tá mé cinnte gur chuala tú trácht ar hintleachta saorga, chomh maith le focail mar mheaisínfhoghlaim agus próiseáil teanga nádúrtha (NLP).
Go háirithe má oibríonn tú do ghnólacht a láimhseálann na céadta, mura bhfuil na mílte, teagmhálacha cliant gach lá.
Ní próiseas simplí é anailís sonraí ar phostálacha meán sóisialta, ríomhphoist, comhráite, freagraí suirbhéanna oscailte, agus foinsí eile, agus éiríonn sé níos deacra fós nuair nach gcuirtear de chúram air ach daoine.
Sin é an fáth go bhfuil go leor daoine díograiseach faoi acmhainneacht na hintleachta saorga as a gcuid oibre ó lá go lá agus d'fhiontair .
Úsáideann anailís téacs atá á gcumhachtú ag AI raon leathan cur chuige nó halgartaim chun teanga a léirmhíniú go horgánach, ceann acu sin is anailís topaicí, a úsáidtear chun ábhair a aimsiú go huathoibríoch ó théacsanna.
Is féidir le gnóthais samhlacha anailíse topaicí a úsáid chun jabanna éasca a aistriú chuig meaisíní seachas ró-ualach a chur ar oibrithe a bhfuil an iomarca sonraí acu.
Smaoinigh ar an méid ama a d’fhéadfadh d’fhoireann a shábháil agus a chaitheamh ar obair níos riachtanaí dá bhféadfadh ríomhaire scagadh trí liostaí gan deireadh de shuirbhéanna custaiméirí nó ceisteanna tacaíochta gach maidin.
Sa treoir seo, breathnóidh muid ar shamhaltú topaicí, modhanna éagsúla samhaltú topaicí, agus gheobhaidh muid roinnt taithí phraiticiúil leis.
Cad is Samhaltú Ábhair ann?
Is éard is samhaltú topaicí ann ná cineál mianadóireacht téacs ina mbíonn staitisticí gan mhaoirseacht agus faoi mhaoirseacht foghlaim meaisín úsáidtear teicníochtaí chun treochtaí i gcorpas nó méid suntasach téacs neamhstruchtúrtha a bhrath.
Féadfaidh sé do bhailiúchán ollmhór doiciméad a ghlacadh agus modh cosúlachta a úsáid chun na focail a shocrú i gcnuasaigh de théarmaí agus ábhair a aimsiú.
Is cosúil go bhfuil sé sin beagán casta agus deacair, mar sin déanaimis an nós imeachta um shamhaltú ábhair a shimpliú!
Glac leis go bhfuil tú ag léamh nuachtán le sraith de aibhsitheoirí daite i do lámh.
Nach sean-aimseartha é sin?
Tuigim gur beag duine na laethanta seo a léann nuachtáin i gcló; tá gach rud digiteach, agus is rud den am atá caite iad aibhsitheoirí! Lig ort gur athair nó máthair tú!
Mar sin, nuair a léann tú an nuachtán, cuireann tú béim ar na téarmaí tábhachtacha.
Toimhde amháin níos mó!
Úsáideann tú lí eile chun béim a chur ar eochairfhocail téamaí éagsúla. Déanann tú na heochairfhocail a chatagóiriú ag brath ar an dath agus na topaicí a chuirtear ar fáil.
Is liosta d’eochairfhocail d’ábhar ar leith é gach cnuasach focal atá marcáilte le dath áirithe. Léiríonn an méid dathanna éagsúla a roghnaigh tú líon na dtéamaí.
Is é seo an samhaltú ábhar is bunúsaí. Cuidíonn sé le bailiúcháin mhóra téacs a thuiscint, a eagrú agus a achoimriú.
Coinnigh i gcuimhne, áfach, go dteastaíonn go leor ábhar ó mhúnlaí topaicí uathoibrithe le bheith éifeachtach. Má tá páipéar gearr agat, b'fhéidir gur mhaith leat dul ar scoil agus aibhsitheoirí a úsáid!
Tá sé tairbheach freisin roinnt ama a chaitheamh ag cur na sonraí ar an eolas. Tabharfaidh sé seo tuiscint bhunúsach duit ar cad ba cheart don mhúnla topaice a aimsiú.
Mar shampla, d’fhéadfadh go mbaineann an dialann sin le do chaidreamh faoi láthair agus roimhe seo. Mar sin, ba mhaith liom a bheith ag súil le mo chara robot mianadóireacht téacs teacht suas le smaointe comhchosúla.
Is féidir leis seo cabhrú leat anailís níos fearr a dhéanamh ar cháilíocht na n-ábhar atá aitheanta agat agus, más gá, na tacair eochairfhocail a athrú.
Comhpháirteanna na Samhaltú Ábhair
Múnla Dóchúil
Ionchorpraítear athróga randamacha agus dáileacháin dóchúlachta i léiriú imeachta nó feiniméan i múnlaí dóchúlachta.
Soláthraíonn múnla cinntitheach aon chonclúid fhéideartha aonair d’imeacht, ach soláthraíonn samhail dóchúlachta dáileadh dóchúlachta mar réiteach.
Measann na samhlacha seo an réaltacht gur annamh a bhíonn eolas iomlán againn ar chás. Is beagnach i gcónaí eilimint randamachta le breithniú.
Mar shampla, tá árachas saoil ag brath ar an réaltacht go bhfuil a fhios againn go bhfaighidh muid bás, ach níl a fhios againn cathain. D’fhéadfadh na samhlacha seo a bheith i bpáirt cinntitheach, i bpáirt randamach, nó go hiomlán randamach.
Aisghabháil Faisnéise
Is clár bogearraí é aisghabháil faisnéise (IR) a eagraíonn, a stórálann, a aisghabhann agus a dhéanann meastóireacht ar fhaisnéis ó stórtha doiciméad, go háirithe faisnéis théacsúil.
Cuidíonn an teicneolaíocht le húsáideoirí an fhaisnéis a theastaíonn uathu a fháil amach, ach ní thugann sé go soiléir na freagraí ar a gcuid fiosrúchán. Tugann sé fógra maidir le láithreacht agus suíomh na bpáipéar a fhéadfaidh an fhaisnéis riachtanach a sholáthar.
Is iad na doiciméid ábhartha na cinn a chomhlíonann riachtanais an úsáideora. Ní thabharfaidh córas IR gan locht ach na doiciméid roghnaithe ar ais.
Comhleanúnachas Ábhair
Topaic Comhleanúnachas scóráil topaic amháin trí mhéid na cosúlachta shéimeantach idir téarmaí ardscórála an ábhair a ríomh. Cabhraíonn na méadrachtaí seo le hidirdhealú a dhéanamh idir ábhair atá soléirithe go séimeantach agus ábhair ar déantáin tátail staitistiúla iad.
Má thacaíonn grúpa éileamh nó fíricí lena chéile, deirtear go bhfuil siad comhleanúnach.
Mar thoradh air sin, is féidir tacar fíricí comhtháite a thuiscint i gcomhthéacs a chuimsíonn na fíricí ar fad nó a bhformhór. “Is spórt foirne é an cluiche,” “imrítear an cluiche le liathróid,” agus “tá sáriarracht fhisiciúil ag teastáil ón gcluiche” is samplaí iad go léir de thacair fhíricí comhtháite.
Modhanna Difriúla um Shamhaltú Topaic
Is féidir an nós imeachta ríthábhachtach seo a dhéanamh trí éagsúlacht algartam nó modheolaíochtaí. Ina measc tá:
- Leithdháileadh Dirichlet Folaigh (LDA)
- Fachtóiriú Maitrís Neamhdhiúltach (NMF)
- Anailís Shéimeantach Folaigh (LSA)
- Anailís Shéimeantach Folaigh Dhóchúil (pLSA)
Leithdháileadh Dirichlet Folaigh (LDA)
Chun gaolta idir téacsanna iolracha i gcorpas a bhrath, baintear úsáid as an gcoincheap staitistiúil agus grafach de Leithdháileadh Folaigh Folaigh.
Trí leas a bhaint as an gcur chuige um Uasmhéadú Éisceacht Athróg (VEM), baintear amach an meastachán dóchúlachta is mó ó chorpas iomlán an téacs.
Go traidisiúnta, roghnaítear an cúpla focal is fearr as mála focal.
Mar sin féin, tá an abairt go hiomlán gan brí.
De réir na teicníochta seo, léireofar gach téacs le dáileadh dóchúlachta na n-ábhar, agus gach topaic le dáileadh dóchasach focal.
Fachtóiriú Maitrís Neamhdhiúltach (NMF)
Is cur chuige ceannródaíoch eastósctha gnéithe é Maitrís le Luachanna Neamhdhiúltacha.
Nuair a bhíonn go leor cáilíochtaí ann agus go bhfuil na tréithe doiléir nó nuair a bhíonn droch-intuarthacht acu, bíonn an NMF tairbheach. Is féidir le NMF patrúin, ábhair nó téamaí suntasacha a ghiniúint trí shaintréithe a chomhcheangal.
Gineann NMF gach gné mar theaglaim líneach den bhunthacar tréithe.
Tá sraith comhéifeachtaí i ngach gné a léiríonn an tábhacht a bhaineann le gach tréith ar an ngné. Tá a chomhéifeacht féin ag gach aitreabúid uimhriúil agus ag gach luach de gach aitreabúid catagóire.
Tá na comhéifeachtaí go léir dearfach.
Anailís Shéimeantach Folaigh
Is modh foghlama gan mhaoirseacht eile é a úsáidtear chun ceangail idir focail i sraith doiciméad a bhaint as anailís shéimeantach fholaigh.
Cuidíonn sé seo linn na doiciméid chuí a roghnú. Is í an phríomhfheidhm atá aige ná toise an chorpais ollmhór sonraí téacs a laghdú.
Feidhmíonn na sonraí neamhriachtanacha seo mar thorann cúlra agus na léargais riachtanacha á bhfáil ó na sonraí.
Anailís Shéimeantach Folaigh Dhóchúil (pLSA)
Is cur chuige staitistiúil é anailís shéimeantach folaigh dhóchúil (PLSA), ar a dtugtar uaireanta mar innéacsú séimeantach folaigh dóchúlachta (PLSI, go háirithe i gciorcail aisghabhála faisnéise), chun anailís a dhéanamh ar shonraí dhá mhodh agus comhtharlú.
Déanta na fírinne, cosúil le hanailís shéimeantach folaigh, ónar eascair PLSA, is féidir léiriú ísealtoiseach de na hathróga a breathnaíodh a dhíorthú i dtéarmaí a gceangal le hathróga folaithe ar leith.
Teagmhála le Samhaltú Topaic i Python
Anois, beidh mé ag siúl leat trí thasc samhaltú ábhar leis an Python teanga cláir ag baint úsáide as sampla ón saol fíor.
Beidh mé ag múnlú altanna taighde. Tagann an tacar sonraí a bheidh á úsáid agam anseo ó kaggle.com. Is féidir leat na comhaid go léir atá in úsáid agam san obair seo a fháil go héasca as seo leathanach.
Cuirimis tús le Topaic Modeling ag baint úsáide as Python trí na leabharlanna riachtanacha go léir a iompórtáil:
Is é an chéim seo a leanas na tacair shonraí ar fad a bheidh in úsáid agam sa tasc seo a léamh:
Anailís Sonraí Taiscéalaíoch
Is modh staidrimh é EDA (Anailís Sonraí Taiscéalaíoch) a úsáideann gnéithe amhairc. Úsáideann sé achoimrí staitistiúla agus léirithe grafacha chun treochtaí, patrúin agus boinn tuisceana a fháil amach.
Déanfaidh mé roinnt anailísiú sonraí taiscéalaíoch sula dtosóidh mé ar shamhaltú topaicí féachaint an bhfuil patrúin nó gaolta ar bith sna sonraí:
Anois gheobhaidh muid luachanna null an tacar sonraí tástála:
Anois beidh histeagram agus plota bosca á bhreacadh agam chun an gaol idir na hathróga a sheiceáil.
Tá éagsúlacht mhór ag baint le líon na gcarachtar i dtacar Achoimrí ar an Traein.
Ar an traein, tá íosmhéid de 54 againn agus uasmhéid de 4551 carachtar. Is é 1065 meánmhéid na gcarachtar.
Is cosúil go bhfuil an tacar tástála níos suimiúla ná an tacar oiliúna ós rud é go bhfuil 46 carachtar sa tacar tástála agus 2841 ag an tacar oiliúna.
Mar thoradh air sin, bhí airmheán de 1058 carachtar sa tacar tástála, atá cosúil leis an tacar oiliúna.
Leanann líon na bhfocal sa tacar foghlama patrún cosúil le líon na litreacha.
Ceadaítear 8 bhfocal ar a laghad agus uasmhéid de 665 focal. Mar thoradh air sin, is é 153 an líon focal airmheánach.
Teastaíonn íosmhéid de sheacht bhfocal in achomaireacht agus 452 focal ar a mhéad sa tacar trialach.
Is é an t-airmheán, sa chás seo, ná 153, atá comhionann leis an airmheán sa tacar oiliúna.
Ag Úsáid Clibeanna le haghaidh Samhaltú Ábhair
Tá roinnt straitéisí samhaltú topaicí ann. Bainfidh mé úsáid as clibeanna sa chleachtadh seo; Breathnaímid ar conas é sin a dhéanamh trí na clibeanna a scrúdú:
Feidhmchláir Samhaltú Topaicí
- Is féidir achoimre téacs a úsáid chun ábhar doiciméid nó leabhair a aithint.
- Is féidir é a úsáid chun claonadh iarrthóirí a bhaint de scóráil scrúduithe.
- D’fhéadfaí samhaltú topaicí a úsáid chun gaolmhaireacht shéimeantach a chruthú idir focail i múnlaí graf-bhunaithe.
- Féadann sé seirbhís do chustaiméirí a fheabhsú trí eochairfhocail i bhfiosrúchán an chliaint a bhrath agus a fhreagairt. Beidh níos mó muiníne ag custaiméirí ionat ó thug tú an cúnamh atá uathu ag an tráth cuí agus gan aon stró a chur orthu. Mar thoradh air sin, ardaíonn dílseacht na gcliant go mór, agus méaduithe fiú na cuideachta.
Conclúid
Is cineál samhaltú staitistiúil é samhaltú topaicí a úsáidtear chun “ábhair” teibí atá i mbailiúchán téacsanna a nochtadh.
Is foirm é den tsamhail staidrimh a úsáidtear i foghlaim meaisín agus próiseáil teanga nádúrtha chun coincheapa teibí atá ann i sraith téacsanna a nochtadh.
Is modh mianadóireachta téacs é a úsáidtear go forleathan chun patrúin shéimeantacha fholaithe a aimsiú i gcorp an téacs.
Leave a Reply