Clàr-innse[Falaich][Seall]
Tha mi cinnteach gu bheil thu air cluinntinn mu inntleachd fuadain, a bharrachd air faclan mar ionnsachadh inneal agus giollachd cànain nàdarra (NLP).
Gu sònraichte ma tha thu ag obair do chompanaidh a bhios a’ làimhseachadh ceudan, mura mìltean, de cheanglaichean teachdaiche gach latha.
Chan e pròiseas sìmplidh a th’ ann an mion-sgrùdadh dàta air postan meadhanan sòisealta, puist-d, cabadaich, freagairtean suirbhidh fosgailte, agus tobraichean eile, agus bidh e eadhon nas duilghe nuair a thèid earbsa a chuir ann an daoine a-mhàin.
Sin as coireach gu bheil mòran dhaoine dealasach mu chomasan Artificial Intelligence airson an obair làitheil agus airson iomairtean.
Tha mion-sgrùdadh teacsa le cumhachd AI a’ cleachdadh raon farsaing de dhòighean-obrach no algoirmean gus cànan a mhìneachadh gu organach, agus is e aon dhiubh mion-sgrùdadh cuspair, a thathas a’ cleachdadh gus cuspairean a lorg gu fèin-ghluasadach bho theacsaichean.
Faodaidh gnìomhachasan modalan mion-sgrùdadh cuspair a chleachdadh gus obraichean furasta a ghluasad gu innealan seach a bhith a’ faighinn cus dàta air luchd-obrach.
Beachdaich air an ùine a dh’ fhaodadh an sgioba agad a shàbhaladh agus a chaitheamh air obair nas riatanach nam b’ urrainn do choimpiutair sìoladh tro liostaichean gun chrìoch de sgrùdaidhean teachdaiche no cùisean taic gach madainn.
San iùl seo, seallaidh sinn ri modaladh chuspairean, dòighean eadar-dhealaichte air modaladh cuspair, agus gheibh sinn beagan eòlais air.
Dè a th’ ann am Modail Cuspair?
Is e seòrsa de mhèinneadh teacsa a th’ ann am modaladh cuspair anns a bheil staitistig gun stiùireadh agus fo stiùir ionnsachadh innealan tha dòighean air an cleachdadh gus gluasadan ann an corpas no meud mòr de theacsa neo-structaraichte a lorg.
Faodaidh e do chruinneachadh mòr de sgrìobhainnean a ghabhail agus dòigh coltach ri chèile a chleachdadh gus na faclan a chuir air dòigh ann an cruinneachaidhean de theirmean agus cuspairean a lorg.
Tha sin a’ coimhead beagan iom-fhillte agus cruaidh, mar sin leig dhuinn am modh modaladh cuspair a dhèanamh nas sìmplidhe!
Thoir an aire gu bheil thu a 'leughadh pàipear-naidheachd le seata de luchd-àrdachaidh dathte nad làimh.
Nach e sin seann-fhasanta?
Tha mi a' tuigsinn nach eil mòran dhaoine a' leughadh pàipearan-naidheachd ann an clò anns na làithean seo; tha a h-uile dad didseatach, agus tha solais mar rud san àm a dh’ fhalbh! Gabh ort a bhith nad athair no nad mhàthair!
Mar sin, nuair a leughas tu am pàipear-naidheachd, bidh thu a’ soilleireachadh na teirmean cudromach.
Aon bheachd eile!
Bidh tu a’ cleachdadh dath eadar-dhealaichte gus cuideam a chuir air prìomh fhaclan diofar chuspairean. Bidh thu a’ seòrsachadh nam prìomh fhaclan a rèir an dath agus na cuspairean a chaidh a thoirt seachad.
Tha gach cruinneachadh de dh’fhaclan air a chomharrachadh le dath sònraichte na liosta de phrìomh fhaclan airson cuspair sònraichte. Tha an àireamh de dhiofar dhathan a thagh thu a’ sealltainn an àireamh de chuspairean.
Is e seo am modal cuspair as bunaitiche. Bidh e a’ cuideachadh le tuigse, eagrachadh agus geàrr-chunntas air cruinneachaidhean mòra teacsa.
Ach, cumaibh cuimhne gum feum modalan cuspair fèin-ghluasadach tòrr susbaint a bhith èifeachdach. Ma tha pàipear goirid agad, is dòcha gum biodh tu airson a dhol don t-seann sgoil agus innealan-solais a chleachdadh!
Tha e buannachdail cuideachd beagan ùine a chaitheamh a’ faighinn eòlas air an dàta. Bheir seo dhut mothachadh bunaiteach air na bu chòir don mhodail cuspair a lorg.
Mar eisimpleir, is dòcha gu bheil an leabhar-latha sin mu na dàimhean a th’ agad an-dràsta agus na dàimhean a bh’ agad roimhe. Mar sin, bhithinn an dùil gum biodh mo charaid robot mèinneadh teacsa a’ tighinn suas le beachdan coltach ris.
Cuidichidh seo thu gus sgrùdadh nas fheàrr a dhèanamh air càileachd nan cuspairean a dh’ ainmich thu agus, ma tha sin riatanach, tweak na seataichean prìomh fhaclan.
Co-phàirtean Modail Cuspair
Modail coltachd
Tha caochladairean air thuaiream agus sgaoilidhean coltachd air an toirt a-steach do riochdachadh tachartas no iongantas ann am modalan coltachd.
Tha modail cinntiche a’ toirt seachad aon cho-dhùnadh comasach airson tachartas, ach tha modail coltachd a’ toirt seachad cuairteachadh coltachd mar fhuasgladh.
Tha na modailean sin den bheachd gur ann ainneamh a bhios eòlas iomlan againn air suidheachadh. Tha cha mhòr an-còmhnaidh eileamaid de thuairmeas ri beachdachadh.
Mar eisimpleir, tha àrachas beatha an urra ris an fhìrinn gu bheil fios againn gum bàsaich sinn, ach chan eil fios againn cuin. Faodaidh na modailean sin a bhith gu ìre cinntiche, gu ìre air thuaiream, no gu tur air thuaiream.
Ath-ghairm Fiosrachaidh
Is e prògram bathar-bog a th’ ann an trusadh fiosrachaidh (IR) a bhios ag eagrachadh, a’ stòradh, a’ faighinn air ais agus a’ luachadh fiosrachadh bho stòran sgrìobhainnean, gu sònraichte fiosrachadh teacsa.
Bidh an teicneòlas a’ cuideachadh luchd-cleachdaidh gus am fiosrachadh a tha a dhìth orra a lorg, ach chan eil e gu soilleir a’ lìbhrigeadh freagairtean nan ceistean aca. Bidh e a’ toirt fios mu làthaireachd agus suidheachadh phàipearan a dh’ fhaodadh am fiosrachadh riatanach a thoirt seachad.
Is e na sgrìobhainnean buntainneach an fheadhainn a choinnicheas ri feumalachdan an neach-cleachdaidh. Cha till siostam IR gun locht ach na sgrìobhainnean taghte.
Co-fhreagarrachd Cuspair
Bidh Co-leanailteachd Cuspairean a’ comharrachadh aon chuspair le bhith a’ tomhas na h-ìre de choltas semantach eadar teirmean àrd-sgòraidh a’ chuspair. Bidh na meatrach sin a’ cuideachadh le bhith ag eadar-dhealachadh eadar cuspairean a tha furasta am mìneachadh gu semantach agus cuspairean a tha nan artifacts co-dhùnadh staitistigeil.
Ma tha buidheann de thagraidhean no fìrinnean a 'toirt taic dha chèile, thathar ag ràdh gu bheil iad ciallach.
Mar thoradh air an sin, faodar seata fìrinn co-leanailteach a thuigsinn ann an co-theacsa a tha a’ toirt a-steach a h-uile fìrinn no a’ mhòr-chuid de na fìrinnean. “Is e spòrs sgioba a th’ anns a’ ghèam,” “tha an geama air a chluich le ball,” agus “feumaidh an geama oidhirp mhòr chorporra” uile nan eisimpleirean de sheataichean fiosrachaidh co-leanailteach.
Dòighean eadar-dhealaichte airson Modaladh Cuspairean
Faodar am modh-obrach èiginneach seo a dhèanamh le grunn algorithms no dòighean-obrach. Nam measg tha:
- Riarachadh Dirichlet Latent (LDA)
- Factoradh Matrix Neo-àicheil (NMF)
- Mion-sgrùdadh Semantic Latent (LSA)
- Mion-sgrùdadh Semantic Latent Probabilistic (pLSA)
Riarachadh Dirichlet Latent (LDA)
Gus dàimhean a lorg eadar iomadh teacsa ann an corpas, thathas a’ cleachdadh a’ bhun-bheachd staitistigeil agus grafaigeach de Latent Dirichlet Allocation.
A’ cleachdadh an dòigh-obrach Meudachadh Sònraichte Caochlaideach (VEM), gheibhear an tuairmse as coltaiche bhon làn chorpas teacsa.
Gu traidiseanta, thathas a’ taghadh na beagan fhaclan as àirde à poca fhaclan.
Ach, tha an abairt gu tur gun bhrìgh.
A rèir an dòigh seo, bidh gach teacsa air a riochdachadh le cuairteachadh probabilistic de chuspairean, agus gach cuspair le sgaoileadh probabilistic de fhaclan.
Factoradh Matrix Neo-àicheil (NMF)
Tha Matrix le Factaraidh Luachan Neo-àicheil na dhòigh às-tharraing feart ùr-nodha.
Nuair a tha mòran fheartan ann agus gu bheil na buadhan neo-shoilleir no le droch ro-innse, tha NMF buannachdail. Faodaidh NMF pàtrain, cuspairean no cuspairean cudromach a ghineadh le bhith a’ cothlamadh fheartan.
Bidh NMF a’ gineadh gach feart mar mheasgachadh sreathach den t-seata buadhan tùsail.
Tha seata de cho-èifeachdan anns gach feart a tha a’ riochdachadh cho cudromach sa tha gach feart air an fheart. Tha a cho-èifeachd fhèin aig gach feart àireamhach agus gach luach de gach gnè roinne.
Tha na co-èifeachdan uile deimhinneach.
Mion-sgrùdadh Semantic Latent
Is e dòigh ionnsachaidh eile gun stiùireadh a thathas a’ cleachdadh gus ceanglaichean a tharraing eadar faclan ann an seata de sgrìobhainnean mion-sgrùdadh semantach falaichte.
Tha seo gar cuideachadh gus na sgrìobhainnean ceart a thaghadh. Is e a phrìomh obair a bhith a’ lughdachadh meudachd corpas mòr dàta teacsa.
Tha an dàta neo-riatanach seo mar fhuaim cùl-fhiosrachaidh ann a bhith a’ faighinn na seallaidhean riatanach bhon dàta.
Mion-sgrùdadh Semantic Latent Probabilistic (pLSA)
Tha mion-sgrùdadh semantach falaichte coltach (PLSA), ris an canar uaireannan clàr-amais semantach falaichte probabilistic (PLSI, gu sònraichte ann an cearcallan lorg fiosrachaidh), na dhòigh staitistigeil airson mion-sgrùdadh dàta dà-mhodh agus co-thachartas.
Gu dearbh, coltach ri mion-sgrùdadh semantach falaichte, às an do nochd PLSA, faodar riochdachadh ìosal de na caochladairean a chaidh fhaicinn a thoirt a-mach a thaobh an dàimh ri caochladairean falaichte sònraichte.
Làimhseachadh le modaladh cuspair ann am Python
A-nis, coisichidh mi thu tro shònrachadh modaladh cuspair leis an Python cànan prògramachaidh a’ cleachdadh eisimpleir fìor-shaoghal.
Bidh mi a’ modaladh artaigilean rannsachaidh. Tha an dàta a bhios mi a’ cleachdadh an seo a’ tighinn bho kaggle.com. Gheibh thu gu furasta na faidhlichean gu lèir a tha mi a’ cleachdadh san obair seo bho seo duilleag.
Feuch an tòisich sinn le Modaladh Cuspair a’ cleachdadh Python le bhith a’ toirt a-steach na leabharlannan riatanach gu lèir:
Is e an ceum a leanas a bhith a’ leughadh a h-uile dàta dàta a bhios mi a’ cleachdadh sa ghnìomh seo:
Mion-sgrùdadh Dàta Sgrùdaidh
Tha EDA (Mion-sgrùdadh Dàta Sgrùdaidh) na dhòigh staitistigeil a bhios a’ cleachdadh eileamaidean lèirsinneach. Bidh e a’ cleachdadh geàrr-chunntasan staitistigeil agus riochdachaidhean grafaigeach gus gluasadan, pàtrain agus barailean deuchainn a lorg.
Nì mi mion-sgrùdadh dàta rannsachail mus tòisich mi air modaladh cuspair gus faicinn a bheil pàtrain no dàimhean sam bith san dàta:
A-nis lorgaidh sinn luachan null an dàta deuchainn:
A-nis bidh mi a’ dealbhadh histogram agus plota bogsa gus sgrùdadh a dhèanamh air a’ cheangal eadar na caochladairean.
Tha an àireamh de charactaran ann an seata Abstracts of the Train ag atharrachadh gu mòr.
Air an trèana, tha 54 aig a’ char as lugha againn agus 4551 caractar aig a’ char as àirde. Is e 1065 an àireamh chuibheasach de charactaran.
Tha coltas gu bheil an seata deuchainn nas inntinniche na an seata trèanaidh leis gu bheil 46 caractar aig an t-seata deuchainn agus tha 2841 aig an t-seata trèanaidh.
Mar thoradh air an sin, bha meadhan de charactaran 1058 aig an t-seata deuchainn, a tha coltach ris an t-seata trèanaidh.
Tha an àireamh de dh’fhaclan anns an t-seata ionnsachaidh a’ leantainn pàtran coltach ris an àireamh de litrichean.
Tha co-dhiù 8 faclan agus 665 facal aig a’ char as àirde ceadaichte. Mar thoradh air an sin, is e 153 an àireamh fhaclan meadhanach.
Tha feum air co-dhiù seachd faclan ann an geàrr-chunntas agus 452 facal aig a’ char as àirde san t-seata deuchainn.
Is e am meadhan, sa chùis seo, 153, a tha co-ionann ris a 'mheadhan anns an t-seata trèanaidh.
A’ cleachdadh Tags airson Modaladh Cuspair
Tha grunn ro-innleachdan modaladh cuspair ann. Cleachdaidh mi tagaichean san eacarsaich seo; leig dhuinn sùil a thoirt air mar a nì thu sin le bhith a’ sgrùdadh nan tagaichean:
Cleachdaidhean Modail Cuspairean
- Faodar geàrr-chunntas teacsa a chleachdadh gus cuspair sgrìobhainn no leabhar aithneachadh.
- Faodar a chleachdadh gus claonadh tagraiche a thoirt air falbh bho sgòradh deuchainnean.
- Faodar modaladh cuspair a chleachdadh gus dàimhean semantach a thogail eadar faclan ann am modalan stèidhichte air graf.
- Faodaidh e seirbheis teachdaiche àrdachadh le bhith a’ lorg agus a’ freagairt prìomh fhaclan ann an rannsachadh an neach-dèiligidh. Bidh barrachd creideas aig luchd-ceannach annad leis gu bheil thu air an taic a tha a dhìth orra a thoirt dhaibh aig an àm iomchaidh agus gun a bhith ag adhbhrachadh duilgheadas sam bith dhaibh. Mar thoradh air an sin, tha dìlseachd luchd-cleachdaidh ag èirigh gu mòr, agus tha luach a 'chompanaidh ag àrdachadh.
Co-dhùnadh
Is e modaladh cuspaireil seòrsa de mhodaladh staitistigeil a thathar a’ cleachdadh gus “cuspairean” eas-chruthach a lorg a tha ann an cruinneachadh de theacsaichean.
Tha e na chruth den mhodail staitistigeil a thathar a’ cleachdadh ann an ionnsachadh innealan agus giollachd cànain nàdarra gus bun-bheachdan eas-chruthach a tha ann an seata de theacsaichean a lorg.
Is e dòigh mèinnearachd teacsa a th’ ann a tha air a chleachdadh gu farsaing gus pàtrain semantach falaichte a lorg ann an teacsa bodhaig.
Leave a Reply