Tabl Cynnwys[Cuddio][Dangos]
Rwy'n siŵr eich bod wedi clywed am ddeallusrwydd artiffisial, yn ogystal â geiriau fel dysgu peirianyddol a phrosesu iaith naturiol (NLP).
Yn enwedig os ydych chi'n gweithio i gwmni sy'n delio â channoedd, os nad miloedd, o gysylltiadau cleientiaid bob dydd.
Nid yw dadansoddi data postiadau cyfryngau cymdeithasol, e-byst, sgyrsiau, ymatebion arolwg penagored, a ffynonellau eraill yn broses syml, ac mae'n dod yn anoddach fyth pan fydd pobl yn unig yn ymddiried ynddo.
Dyna pam mae llawer o bobl yn frwdfrydig am botensial deallusrwydd artiffisial ar gyfer eu gwaith o ddydd i ddydd ac ar gyfer mentrau .
Mae dadansoddiad testun wedi'i bweru gan AI yn defnyddio ystod eang o ddulliau neu algorithmau i ddehongli iaith yn organig, ac un ohonynt yw dadansoddi testun, a ddefnyddir i ddarganfod pynciau o destunau yn awtomatig.
Gall busnesau ddefnyddio modelau dadansoddi pynciau i drosglwyddo swyddi hawdd i beiriannau yn hytrach na gorlwytho gweithwyr gyda gormod o ddata.
Ystyriwch faint o amser y gallai eich tîm ei arbed a'i neilltuo i waith mwy hanfodol pe gallai cyfrifiadur hidlo trwy restrau diddiwedd o arolygon cwsmeriaid neu faterion cymorth bob bore.
Yn y canllaw hwn, byddwn yn edrych i mewn i fodelu testun, gwahanol ddulliau o fodelu testun, a chael rhywfaint o brofiad ymarferol gydag ef.
Beth yw Modelu Pwnc?
Mae modelu testun yn fath o gloddio testun lle mae ystadegau heb oruchwyliaeth a goruchwyliaeth dysgu peiriant defnyddir technegau i ganfod tueddiadau mewn corpws neu swm sylweddol o destun distrwythur.
Gall gymryd eich casgliad enfawr o ddogfennau a defnyddio dull tebygrwydd i drefnu'r geiriau yn glystyrau o dermau a darganfod pynciau.
Mae hynny'n ymddangos ychydig yn gymhleth ac yn galed, felly gadewch i ni symleiddio'r weithdrefn modelu pwnc!
Tybiwch eich bod yn darllen papur newydd gyda set o aroleuwyr lliw yn eich llaw.
Onid yw hynny'n hen ffasiwn?
Sylweddolaf mai ychydig o bobl sy’n darllen papurau newydd mewn print y dyddiau hyn; mae popeth yn ddigidol, ac mae aroleuwyr yn rhywbeth o'r gorffennol! Esgus bod yn dad neu'n fam i chi!
Felly, pan ddarllenwch y papur newydd, rydych yn tynnu sylw at y termau pwysig.
Un dybiaeth arall!
Rydych chi'n defnyddio lliw gwahanol i bwysleisio geiriau allweddol themâu amrywiol. Rydych chi'n categoreiddio'r geiriau allweddol yn dibynnu ar y lliw a'r pynciau a ddarperir.
Mae pob casgliad o eiriau a nodir gan liw penodol yn rhestr o eiriau allweddol ar gyfer pwnc penodol. Mae nifer y lliwiau amrywiol a ddewisoch yn dangos nifer y themâu.
Dyma'r modelu pwnc mwyaf sylfaenol. Mae'n helpu i ddeall, trefnu a chrynhoi casgliadau testun mawr.
Fodd bynnag, cofiwch fod angen llawer o gynnwys ar fodelau pwnc awtomataidd i fod yn effeithiol. Os oes gennych chi bapur byr, efallai yr hoffech chi fynd i'r hen ysgol a defnyddio aroleuwyr!
Mae hefyd yn fuddiol treulio peth amser yn dod i adnabod y data. Bydd hyn yn rhoi syniad sylfaenol i chi o'r hyn y dylai'r model pwnc ddod o hyd iddo.
Er enghraifft, gall y dyddiadur hwnnw fod yn ymwneud â'ch perthnasoedd presennol a blaenorol. Felly, byddwn yn rhagweld y byddai fy robot-cyfaill mwyngloddio testun yn meddwl am syniadau tebyg.
Gall hyn eich helpu i ddadansoddi ansawdd y pynciau rydych chi wedi'u nodi'n well ac, os oes angen, tweakio'r setiau allweddair.
Cydrannau Modelu Pwnc
Model Tebygol
Mae newidynnau ar hap a dosraniadau tebygolrwydd yn cael eu hymgorffori wrth gynrychioli digwyddiad neu ffenomen mewn modelau tebygolrwydd.
Mae model penderfyniaethol yn darparu un casgliad posibl ar gyfer digwyddiad, tra bod model tebygolrwydd yn darparu dosbarthiad tebygolrwydd fel ateb.
Mae'r modelau hyn yn ystyried y realiti mai anaml y mae gennym wybodaeth gyflawn am sefyllfa. Mae bron bob amser elfen o hap i'w hystyried.
Er enghraifft, mae yswiriant bywyd yn seiliedig ar y realiti ein bod yn gwybod y byddwn yn marw, ond nid ydym yn gwybod pryd. Gallai'r modelau hyn fod yn rhannol benderfynol, yn rhannol ar hap, neu'n gyfan gwbl ar hap.
Adalw Gwybodaeth
Mae adalw gwybodaeth (IR) yn rhaglen feddalwedd sy'n trefnu, storio, adalw, a gwerthuso gwybodaeth o gadwrfeydd dogfennau, yn enwedig gwybodaeth destunol.
Mae'r dechnoleg yn helpu defnyddwyr i ddarganfod y wybodaeth sydd ei hangen arnynt, ond nid yw'n amlwg yn darparu'r atebion i'w hymholiadau. Mae'n hysbysu am bresenoldeb a lleoliad papurau a all ddarparu'r wybodaeth angenrheidiol.
Dogfennau perthnasol yw'r rhai sy'n bodloni anghenion y defnyddiwr. Bydd system IR di-fai yn dychwelyd dogfennau dethol yn unig.
Cydlyniad Testun
Mae Cydlyniad Pwnc yn sgorio un testun trwy gyfrifo graddau'r tebygrwydd semantig rhwng termau sgôr uchel y testun. Mae'r metrigau hyn yn helpu i wahaniaethu rhwng pynciau y gellir eu dehongli'n semantig a phynciau sy'n arteffactau casgliad ystadegol.
Os yw grŵp o honiadau neu ffeithiau yn cefnogi ei gilydd, dywedir eu bod yn gydlynol.
O ganlyniad, gellir deall set o ffeithiau cydlynol mewn cyd-destun sy'n cwmpasu'r cyfan neu'r mwyafrif o'r ffeithiau. “Mae’r gêm yn gamp tîm,” “mae’r gêm yn cael ei chwarae gyda phêl,” a “mae angen ymdrech gorfforol aruthrol ar y gêm” i gyd yn enghreifftiau o setiau ffeithiau cydlynol.
Dulliau Gwahanol o Fodelu Pwnc
Gellir cyflawni'r weithdrefn gritigol hon gan ddefnyddio amrywiaeth o algorithmau neu fethodolegau. Yn eu plith mae:
- Dyraniad Dirichlet Cudd (LDA)
- Ffactoreiddio Matrics Annegyddol (NMF)
- Dadansoddiad Semantig Cudd (LSA)
- Dadansoddiad Semantig Cudd Tebygol (pLSA)
Dyraniad Dirichlet Cudd (LDA)
I ganfod perthnasoedd rhwng testunau lluosog mewn corpws, defnyddir y cysyniad ystadegol a graffigol o Ddyraniad Dirichlet Cudd.
Gan ddefnyddio'r dull Mwyhau Eithriad Amrywiol (VEM), cyflawnir yr amcangyfrif tebygolrwydd mwyaf o'r corpws testun llawn.
Yn draddodiadol, dewisir yr ychydig eiriau gorau o fag o eiriau.
Fodd bynnag, mae'r frawddeg yn gwbl ddiystyr.
Yn ôl y dechneg hon, bydd pob testun yn cael ei gynrychioli gan ddosbarthiad tebygol o bynciau, a phob pwnc gan ddosbarthiad tebygol o eiriau.
Ffactoreiddio Matrics Annegyddol (NMF)
Matrics gyda Gwerthoedd Annegyddol Mae Ffactoreiddio yn ddull echdynnu nodweddion blaengar.
Pan fo llawer o rinweddau a’r priodoleddau’n annelwig neu pan nad oes ganddynt ragweladwyedd, mae NMF yn fuddiol. Gall yr NMF gynhyrchu patrymau, pynciau neu themâu arwyddocaol trwy gyfuno nodweddion.
Mae NMF yn cynhyrchu pob nodwedd fel cyfuniad llinol o'r set briodoleddau wreiddiol.
Mae pob nodwedd yn cynnwys set o gyfernodau sy'n cynrychioli pwysigrwydd pob nodwedd ar y nodwedd. Mae gan bob priodoledd rhifiadol a phob gwerth priodwedd pob categori ei chyfernod ei hun.
Mae pob un o'r cyfernodau yn gadarnhaol.
Dadansoddiad Semantig Cudd
Mae'n ddull dysgu heb oruchwyliaeth arall a ddefnyddir i dynnu cysylltiadau rhwng geiriau mewn set o ddogfennau yw dadansoddi semantig cudd.
Mae hyn yn ein helpu i ddewis y dogfennau cywir. Ei brif swyddogaeth yw lleihau dimensiwnoldeb y corpws enfawr o ddata testun.
Mae'r data diangen hyn yn sŵn cefndir wrth gael y mewnwelediadau angenrheidiol o'r data.
Dadansoddiad Semantig Cudd Tebygol (pLSA)
Mae dadansoddiad semantig cudd tebygol (PLSA), a elwir weithiau yn fynegeio semantig cudd tebygol (PLSI, yn arbennig mewn cylchoedd adalw gwybodaeth), yn ddull ystadegol ar gyfer dadansoddi data dau-ddull a chyd-ddigwyddiad.
Mewn gwirionedd, yn debyg i ddadansoddiad semantig cudd, y daeth PLSA i'r amlwg ohono, gellir deillio cynrychiolaeth dimensiwn isel o'r newidynnau a arsylwyd o ran eu perthynas â newidynnau cudd penodol.
Ymarferol gyda Modelu Pwnc yn Python
Nawr, byddaf yn eich cerdded trwy aseiniad modelu pwnc gyda'r Python iaith raglennu gan ddefnyddio enghraifft o'r byd go iawn.
Byddaf yn modelu erthyglau ymchwil. Daw'r set ddata y byddaf yn ei defnyddio yma o kaggle.com. Gallwch chi gael yr holl ffeiliau rydw i'n eu defnyddio yn y gwaith hwn yn hawdd o hwn dudalen.
Gadewch i ni ddechrau gyda Modelu Pwnc gan ddefnyddio Python trwy fewnforio pob un o'r llyfrgelloedd hanfodol:
Y cam canlynol yw darllen yr holl setiau data y byddaf yn eu defnyddio yn y dasg hon:
Dadansoddi Data Archwiliadol
Mae EDA (Dadansoddiad Data Archwiliadol) yn ddull ystadegol sy'n defnyddio elfennau gweledol. Mae'n defnyddio crynodebau ystadegol a chynrychioliadau graffigol i ddarganfod tueddiadau, patrymau, a phrofi rhagdybiaethau.
Byddaf yn gwneud rhywfaint o ddadansoddi data archwiliadol cyn i mi ddechrau modelu testunau i weld a oes unrhyw batrymau neu berthnasoedd yn y data:
Nawr byddwn yn dod o hyd i werthoedd null y set ddata prawf:
Nawr byddaf yn plotio histogram a blwch plot i wirio'r berthynas rhwng y newidynnau.
Mae maint y cymeriadau yn set Abstracts of the Train yn amrywio'n fawr.
Ar y trên, mae gennym o leiaf 54 ac uchafswm o 4551 nod. 1065 yw nifer cyfartalog y nodau.
Mae'n ymddangos bod y set brawf yn fwy diddorol na'r set hyfforddi gan fod gan y set brawf 46 nod tra bod gan y set hyfforddi 2841.
O ganlyniad, roedd gan y set brawf ganolrif o 1058 o nodau, sy'n debyg i'r set hyfforddi.
Mae nifer y geiriau yn y set ddysgu yn dilyn patrwm tebyg i nifer y llythrennau.
Caniateir lleiafswm o 8 gair ac uchafswm o 665 gair. O ganlyniad, y cyfrif geiriau canolrifol yw 153.
Mae angen o leiaf saith gair mewn crynodeb ac uchafswm o 452 o eiriau yn y set brawf.
Y canolrif, yn yr achos hwn, yw 153, sy'n union yr un fath â'r canolrif yn y set hyfforddi.
Defnyddio Tagiau ar gyfer Modelu Pwnc
Mae yna nifer o strategaethau modelu pwnc. Byddaf yn defnyddio tagiau yn yr ymarfer hwn; gadewch i ni edrych ar sut i wneud hynny trwy archwilio'r tagiau:
Cymwysiadau Modelu Pwnc
- Gellir defnyddio crynodeb testun i ganfod testun dogfen neu lyfr.
- Gellir ei ddefnyddio i ddileu tuedd ymgeisydd o sgorio arholiadau.
- Gellir defnyddio modelu testun i adeiladu perthnasoedd semantig rhwng geiriau mewn modelau seiliedig ar graff.
- Gall wella gwasanaeth cwsmeriaid trwy ganfod ac ymateb i eiriau allweddol yn ymholiad y cleient. Bydd gan gwsmeriaid fwy o ffydd ynoch chi gan eich bod wedi rhoi'r cymorth sydd ei angen arnynt ar yr adeg briodol a heb achosi unrhyw drafferth iddynt. O ganlyniad, mae teyrngarwch cleientiaid yn codi'n ddramatig, ac mae gwerth y cwmni yn cynyddu.
Casgliad
Mae modelu testun yn fath o fodelu ystadegol a ddefnyddir i ddatgelu “pynciau” haniaethol sy'n bodoli mewn casgliad o destunau.
Mae'n ffurf ar y model ystadegol a ddefnyddir yn dysgu peiriant a phrosesu iaith naturiol i ddatgelu cysyniadau haniaethol sy'n bodoli mewn set o destunau.
Mae'n ddull cloddio testun a ddefnyddir yn helaeth i ddod o hyd i batrymau semantig cudd mewn testun corff.
Gadael ymateb