Destpêka Modelkirina Mijar ji bo Destpêkan

Table of Contents[Veşartin][Rêdan]

Modelkirina Mijar çi ye?
Pêkhateyên Modelkirina Mijarê+- Ji
- Modela Îhtîmalî
- Retrieval Information
Rêbazên Cûda yên Modelkirina Mijarê+- Ji
Bi Modelkirina Mijarê di Python-ê de dest pê kirin+- Ji
- Analîz Daneyên Lêgerînê
- Ji bo Modelkirina Mijarê Tags bikar tînin
Serîlêdanên Modelkirina Mijarê
Xelasî

Ez bawer im ku we li ser îstîxbarata çêkirî, û hem jî peyvên mîna fêrbûna makîneyê û pêvajoya zimanê xwezayî (NLP) bihîstiye.

Nemaze heke hûn ji bo fîrmayek dixebitin ku her roj bi sedan, heke ne bi hezaran, têkiliyên xerîdar digire.

Analîzkirina daneya şandinên medya civakî, e-name, sohbet, bersivên anketê yên vekirî, û çavkaniyên din ne pêvajoyek hêsan e, û dema ku tenê ji mirovan re were spartin hîn dijwartir dibe.

Ji ber vê yekê gelek kes li ser potansiyela bi coş in çêkirî ji bo karê xwe yê rojane û ji bo pargîdaniyan.

Analîzkirina nivîsê ya bi hêza AI-ê ji bo şîrovekirina ziman bi organîkî rêzek berfireh a nêzîkbûn an algorîtmayan bikar tîne, yek ji wan analîza mijarê ye, ku ji bo vedîtina mijarên ji nivîsan bixweber tê bikar anîn.

Karsaz dikarin modelên analîzkirina mijarê bikar bînin da ku karên hêsan li ser makîneyan veguhezînin li şûna ku karkeran bi daneya pir zêde bar bikin.

Bifikirin ka dibe ku tîmê we çiqas wext hilîne û ji xebata bingehîn re veqetîne ger komputerek her sibe di nav navnîşên bêdawî yên anketên xerîdar an pirsgirêkên piştgirîyê de fîltre bike.

Di vê rêbernameyê de, em ê li modelkirina mijarê, şêwazên cihêreng ên modelkirina mijarê binihêrin, û bi wê re hin ezmûnek destan bistînin.

Modelkirina Mijar çi ye?

Modelkirina mijarê celebek jêderxistina nivîsê ye ku tê de statîstîkên bêserî û çavdêrîkirî ne fêrbûna makîneyê teknîk ji bo tesbîtkirina meylên di korpusek an hêjmarek girîng a nivîsa nesazkirî de têne bikar anîn.

Ew dikare berhevoka weya girseyî ya belgeyan bigire û rêbazek wekheviyê bikar bîne da ku peyvan di nav komên terman de rêz bike û mijaran kifş bike.

Ew hinekî tevlihev û dijwar xuya dike, ji ber vê yekê em prosedûra modelkirina mijarê hêsan bikin!

Bihesibînin ku hûn rojnameyekê dixwînin ku di destê we de komek ronîkerên rengîn hene.

Ma ev ne kevneperestî ye?

Ez pê dihesim ku van rojan kêm kes rojnameyên çapkirî dixwînin; her tişt dîjîtal e, û ronîker tiştek berê ne! Xwe wek dê û bavê xwe bikin!

Ji ber vê yekê, dema ku hûn rojnameyê dixwînin, hûn şertên girîng ronî dikin.

Texmînek din!

Hûn rengek cûda bikar tînin da ku hûn peyvên sereke yên mijarên cihêreng tekez bikin. Hûn li gorî reng û mijarên peydakirî peyvan kategorîze dikin.

Her berhevoka peyvan ku bi rengek diyarkirî hatî destnîşan kirin navnîşek peyvên sereke yên mijarek diyarkirî ye. Hejmara rengên cihêreng ku we hilbijartiye hejmara mijaran nîşan dide.

Ev modela mijara herî bingehîn e. Ew di têgihiştin, organîzekirin û kurtkirina berhevokên nivîsê yên mezin de dibe alîkar.

Lêbelê, ji bîr mekin ku ji bo bandorker bin, modelên mijarê yên otomatîkî gelek naverok hewce dikin. Ger kaxezek weya kurt hebe, dibe ku hûn bixwazin biçin dibistana kevn û ronîkeran bikar bînin!

Di heman demê de sûdmend e ku meriv hindek wext ji bo naskirina daneyan derbas bike. Ev ê têgehek bingehîn bide we ka modela mijarê çi bibîne.

Mînakî, ew rojnivîs dikare li ser têkiliyên weya heyî û berê be. Ji ber vê yekê, ez hêvî dikim ku robot-hevalê min ê minaqeşengê bi ramanên mîna wan derbikeve.

Ev dikare ji we re bibe alîkar ku hûn qalîteya mijarên ku we nas kirine çêtir analîz bikin û, ger hewce be, berhevokên peyvan biguhezînin.

Pêkhateyên Modelkirina Mijarê

Modela Îhtîmalî

Guherbarên tesadufî û dabeşên îhtîmalê di modelên îhtîmalî de di temsîla bûyerek an diyardeyek de têne yek kirin.

Modelek diyarker ji bo bûyerek yek encamek potansiyel peyda dike, lê modelek îhtîmalî wekî çareseriyek dabeşkirina îhtimalê peyda dike.

Van modelan rastiya ku em kêm kêm di derheqê rewşek de xwediyê zanyariyek bêkêmasî ne. Hema hema her gav hêmanek bêserûberiyê heye ku meriv li ber çavan bigire.

Mînakî, sîgorteya jiyanê li ser rastiya ku em dizanin em ê bimirin, lê em nizanin kengê tê destnîşankirin. Dibe ku ev model bi qismî diyarker, qismî random, an bi tevahî random bin.

Retrieval Information

Vegerîna agahdariyê (IR) bernameyek nermalavê ye ku agahdariya ji depoyên belgeyan, nemaze agahdariya nivîsê, birêxistin dike, hilîne, digire û dinirxîne.

Teknolojî ji bikarhêneran re dibe alîkar ku agahdariya ku ew hewce dike kifş bikin, lê ew bi zelalî bersivên lêpirsînên wan nade. Ew ji hebûn û cîhê kaxezên ku dibe ku agahdariya pêwîst peyda bikin agahdar dike.

Belgeyên têkildar ew in ku hewcedariyên bikarhêner peyda dikin. Pergalek bêkêmasî ya IR dê tenê belgeyên hilbijartî vegerîne.

Tevheviya Mijarê

Tevheviya Mijar bi hesabkirina asta hevşibiya semantîkî ya di navbera şertên xalên bilind ên mijarê de mijarek yekane dinirxîne. Van metrîkan di veqetandina mijarên ku ji hêla semantîkî ve têne şîrove kirin û mijarên ku hunerên encamên statîstîkî ne de dibin alîkar.

Ger komek îdîa an rastiyan piştgirîya hev bikin, tê gotin ku hevgirtî ne.

Wekî encamek, komek rastiyek hevgirtî dikare di çarçoveyek ku hemî an piraniya rastiyan digire nav xwe de were fam kirin. "Lîstik werzîşek tîmê ye", "lîstik bi topê tê lîstin," û "lîstik hewildanek laşî ya mezin hewce dike" hemî nimûneyên berhevokên rastiyê ne.

Rêbazên Cûda yên Modelkirina Mijarê

Ev pêvajoyek krîtîk dikare ji hêla cûrbecûr algorîtmayan an rêbazan ve were meşandin. Di nav wan de ev in:

Veqetandina Dirichletê ya Dereng (LDA)
Faktorîzasyona Matrixê ya Ne Negatîf (NMF)
Analîza Semantîk a Dereng (LSA)
Analîza Semantîk a Dereng a Îhtîmalî (pLSA)

Dabeşkirina Dirichletê ya Dereng (LDA)

Ji bo tespîtkirina têkiliyên di navbera pir nivîsan de di korpusê de, têgîna statîstîkî û grafîkî ya Veqetandina Dirichleta Latent tê bikar anîn.

Bi karanîna nêzîkatiya Zêdekirina Veguhastina Veguheztinê (VEM), texmîna herî mezin a îhtîmala ji tevheviya nivîsê tê bidestxistin.

LDA

Kevneşopî, çend peyvên jorîn ji çenteyek peyvan têne hilbijartin.

Lêbelê, hevok bi tevahî bêwate ye.

Li gorî vê teknîkê, her metn dê bi dabeşkirina îhtîmalî ya mijaran, û her mijarek bi dabeşkirina îhtîmal a peyvan were temsîl kirin.

Faktorîzasyona Matrixê ya Ne Negatîf (NMF)

Matrixa bi Faktorkirina Nirxên Ne-Negerî ve nêzîkatiyek derxistina taybetmendiyê ya pêşkeftî ye.

Gava ku gelek xislet hene û taybetmendî nezelal in an pêşbîniya qels in, NMF sûdmend e. NMF dikare bi tevhevkirina taybetmendiyan qalib, mijar, an mijarên girîng biafirîne.

Faktorîzasyona Matrixê ya Ne Neyînî

NMF her taybetmendiyê wekî berhevokek xêzikî ya koma taybetmendiya orjînal diafirîne.

Her taybetmendî komek hevberan vedihewîne ku girîngiya her taybetmendiyê li ser taybetmendiyê temsîl dike. Her taybetmendiyek jimareyî û her nirxek her taybetmendiyek kategoriyê hevsengiya xwe heye.

Hemî kêşan erênî ne.

Analîza Semantîk a Dereng

Rêbazek din a fêrbûna bêserûber e ku ji bo derxistina têkiliyên di navbera peyvan de di komek belgeyan de tê bikar anîn, analîza semantîkî ya veşartî ye.

Ev ji me re dibe alîkar ku em belgeyên rast hilbijêrin. Fonksiyona wê ya bingehîn ew e ku pîvana gewre ya daneya nivîsê kêm bike.

Van daneyên nepêwist di wergirtina têgihiştinên pêwîst ji daneyan de wekî dengek paşîn xizmet dikin.

Analîza Semantîk a Dereng

Analîza Semantîk a Dereng a Îhtîmalî (pLSA)

Analîziya semantîk a dereng a îhtîmalî (PLSA), carinan wekî nîşankirina semantîka dereng a îhtîmalî (PLSI, nemaze di derdorên vegerandina agahdarî de) tê zanîn, ji bo analîzkirina daneyên du-mode û hev-rûbûnê nêzîkatiyek statîstîkî ye.

Bi rastî, mîna analîza semantîkî ya dereng, ya ku PLSA jê derket, dikare di warê girêdana wan de bi guhêrbarên taybetî yên veşartî ve nûneriyek kêm-alî ya guhêrbarên çavdêrîkirî were derxistin.

Analîza Senantîk a Dereng a Îhtîmalî

Bi Modelkirina Mijarê di Python-ê de dest pê kirin

Naha, ez ê we bi Python re peywirek modela mijarê bişopînim zimanek programming mînakek cîhana rastîn bikar bînin.

Ez ê gotarên lêkolînê model bikim. Daneya ku ez ê li vir bikar bînim ji kaggle.com tê. Hûn dikarin bi hêsanî hemî pelên ku ez di vê xebatê de bikar tînim ji vê yekê bistînin rûpel.

Werin em bi îtxalkirina hemî pirtûkxaneyên bingehîn bi karanîna Python-ê bi Modelkirina Mijar dest pê bikin:

Importing Librarires

Pêngava jêrîn ev e ku meriv hemî danûstendinên ku ez ê di vê peywirê de bikar bînim bixwînim:

Dataset bixwînin

Analîz Daneyên Lêgerînê

EDA (Exploratory Data Analysis) rêbazek statîstîkî ye ku hêmanên dîtbarî bikar tîne. Ew kurteyên îstatîstîkî û temsîlên grafîkî bikar tîne da ku meyl, qalib û texmînên ceribandinê kifş bike.

Berî ku ez dest bi modelkirina mijarê bikim, ez ê hin analîzên daneya keşfê bikim da ku bibînim ka di daneyan de qalib û têkilî hene:

Nirxên Null ên Daneyên Trênê bibînin

Derketina Nirxên Trênê yên Null

Naha em ê nirxên null ên daneya testê bibînin:

Nirxên Nû yên Daneyên Testê bibînin

Hilberîna Nirxên Nû yên Testê

Naha ez ê histogramek û boxplot xêz bikim da ku têkiliya di navbera guherbaran de kontrol bikim.

Plotkirin

Hilberîna Pîşesaziyê 1

Hejmara karakteran di berhevoka Kurteyên Trênê de pir diguhere.

Di trênê de, herî kêm 54 û herî zêde 4551 karakterên me hene. 1065 rêjeya navînî ya tîpan e.

Plankirin 2

Hilberîna Pîşesaziyê 2

Koma testê ji berhevoka perwerdehiyê balkêştir xuya dike ji ber ku koma testê 46 tîp hene dema ku koma perwerdehiyê 2841 e.

Wekî encamek, koma testê navgînek ji 1058 tîpan hebû, ku dişibihe koma perwerdehiyê.

Plankirin 3

Derketina Ploting 3

Hejmara peyvan di koma fêrbûnê de li gorî hejmara tîpan dişopîne.

Herî kêm 8 peyvan û herî zêde jî 665 peyvan destûr in. Di encamê de, hejmara peyva navîn 153 ye.

Plankirin 4

Hilberîna Pîşesaziyê 4

Bi kêmanî heft peyvan di kurteyek û herî zêde jî 452 peyvan di koma testê de hewce ne.

Naverast, di vê rewşê de, 153 ye, ku di koma perwerdehiyê de bi navgîniya navîn e.

Ji bo Modelkirina Mijarê Tags bikar tînin

Gelek stratejiyên modelkirina mijarê hene. Ez ê di vê xebatê de etîketan bikar bînim; Ka em bi vekolîna etîketan binihêrin ka meriv wiya çawa dike:

Ji bo Modelkirina Mijarê Tags bikar tînin

Derketina Modelkirina Mijarê

Serîlêdanên Modelkirina Mijarê

Kurtenivîsek nivîsê dikare were bikar anîn da ku mijara belgeyek an pirtûkek nas bike.
Ew dikare were bikar anîn da ku pêşbaziya berendamê ji pîvana azmûnê rake.
Dibe ku modelkirina mijarê ji bo avakirina têkiliyên semantîk di navbera peyvan de di modelên grafîkî de were bikar anîn.
Ew dikare karûbarê xerîdar bi tespîtkirin û bersivdana peyvên sereke yên di lêpirsîna xerîdar de zêde bike. Xerîdar dê bêtir baweriya xwe bi we bînin ji ber ku we di wextê guncav de alîkariya ku ew hewce dike û bêyî ku hûn ji wan re bibe sedema tengasiyê peyda kiriye. Wekî encamek, dilsoziya xerîdar pir zêde dibe, û nirxa pargîdaniyê zêde dibe.

Xelasî

Modelkirina mijarê celebek modelkirina statîstîkî ye ku ji bo eşkerekirina "mijarên" razber ên ku di berhevokek nivîsan de hene tê bikar anîn.

Ew formek modela statîstîkî ye ku tê de tê bikar anîn fêrbûna makîneyê û pêvajokirina zimanê xwezayî da ku têgînên razber ên ku di komek nivîsan de hene derxe holê.

Ew rêbazek hilberandina nivîsê ye ku bi berfirehî tê bikar anîn da ku di nivîsa laş de qalibên semantîkî yên veşartî bibîne.

Destpêk Modelkirina Mijar ji bo Destpêkeran

Modelkirina Mijar çi ye?