Fizahan-takelaka[Afeno][Aseho]
Azoko antoka fa nandre momba ny faharanitan-tsaina artifisialy ianao, ary koa ny teny toy ny fianarana milina sy ny fanodinana fiteny voajanahary (NLP).
Indrindra raha miasa amin'ny orinasa iray izay mitantana fifandraisana mpanjifa an-jatony, raha tsy an'arivony isan'andro ianao.
Ny famakafakana angon-drakitra momba ny fandefasana amin'ny media sosialy, ny mailaka, ny chat, ny valin'ny fanadihadiana misokatra, ary ny loharano hafa dia tsy dingana tsotra, ary vao mainka sarotra izany rehefa ankinina amin'ny olona ihany.
Izany no mahatonga ny olona maro mazoto momba ny mety ho fahaizana artifisialy ho an'ny asany andavanandro sy ho an'ny orinasa.
Ny famakafakana lahatsoratra mandeha amin'ny AI dia mampiasa fomba fiasa na algoritr'asa maro mba handikana ny fiteny amin'ny fomba organika, iray amin'izany ny famakafakana lohahevitra, izay ampiasaina hamantarana ho azy ireo lohahevitra avy amin'ny lahatsoratra.
Ny orinasa dia afaka mampiasa modely famakafakana lohahevitra mba hamindrana asa mora amin'ny milina fa tsy manevateva mpiasa be loatra.
Eritrereto hoe ohatrinona ny fotoana mety hotehirizin'ny ekipanao sy hatokana ho an'ny asa tena ilaina kokoa raha toa ka misy solosaina afaka manivana amin'ny lisitra tsy misy fiafaran'ny fanadihadiana mpanjifa na olana fanohanana isa-maraina.
Ato amin'ity torolalana ity dia hijery ny modelin'ny lohahevitra isika, ny fomba samihafa amin'ny famolavolana lohahevitra, ary hahazo traikefa amin'izany.
Inona no atao hoe Modeling lohahevitra?
Ny maodely lohahevitra dia karazana fitrandrahana lahatsoratra izay misy antontan'isa tsy misy fanaraha-maso sy fanaraha-maso fianarana milina Ny teknika dia ampiasaina hamantarana ny fironana amin'ny corpus na ny habetsahan'ny lahatsoratra tsy voarafitra.
Afaka maka ireo antontan-taratasinao be dia be ary mampiasa fomba mitovy handaminana ireo teny ho andian-teny sy hahitana lohahevitra.
Toa sarotra sy sarotra kely izany, ka andao hanatsotra ny fomba fiasa modely!
Eritrereto hoe mamaky gazety ianao miaraka amin'ny amboara miloko eny an-tananao.
Tsy efa lany andro ve izany?
Tsapako fa amin'izao andro izao dia vitsy ny olona mamaky gazety an-gazety; nomerika daholo ny zava-drehetra, ary ny fanasongadinana dia zavatra taloha! Mody atao hoe rainao na reninao!
Noho izany, rehefa mamaky ny gazety ianao, dia manasongadina ireo teny manan-danja.
Fiheverana iray indray!
Mampiasa loko hafa ianao mba hanamafisana ny teny fototra amin'ny lohahevitra samihafa. Manasokajy ny teny fanalahidy ianao arakaraka ny loko sy ny lohahevitra nomena.
Ny fitambaran-teny tsirairay voamariky ny loko iray dia lisitry ny teny fanalahidy ho an'ny lohahevitra iray. Ny habetsahan'ny loko isan-karazany nofantenanao dia mampiseho ny isan'ny lohahevitra.
Ity no modely lohahevitra fototra indrindra. Manampy amin'ny fahatakarana, fandaminana ary famintinana ireo fanangonana lahatsoratra lehibe izy io.
Na izany aza, tadidio fa mba hahomby dia mila votoaty be dia be ny maodely lohahevitra mandeha ho azy. Raha manana taratasy fohy ianao dia azonao atao ny mandeha any amin'ny sekoly tranainy ary mampiasa fanasongadinana!
Mahasoa koa ny mandany fotoana kely hahafantarana ny angona. Izany dia hanome anao fahatsapana fototra momba izay tokony ho hitan'ny modely lohahevitra.
Ohatra, io diary io dia mety momba ny fifandraisanao ankehitriny sy taloha. Noho izany, manantena aho fa ny robot mpitrandraka lahatsoratra amiko dia hanana hevitra mitovy.
Izany dia afaka manampy anao hamakafaka tsara kokoa ny kalitaon'ny lohahevitra nofantarinao ary, raha ilaina, dia amboary ny andiana teny fanalahidy.
Ireo singa amin'ny Modeling lohahevitra
Modely mety
Ny fiovaovana kisendrasendra sy ny fitsinjarana mety dia ampidirina amin'ny fanehoana hetsika na tranga iray amin'ny maodely mety.
Ny maodely deterministika dia manome fehin-kevitra tokana ho an'ny tranga iray, fa ny modely azo inoana kosa dia manome fizarana mety ho vahaolana.
Ireo modely ireo dia mihevitra ny zava-misy fa mahalana isika no manana fahalalana feno momba ny toe-javatra iray. Saika misy singa kisendrasendra foana hodinihina.
Ohatra, ny fiantohana aina dia mifototra amin'ny zava-misy izay fantatsika fa ho faty isika, saingy tsy fantatsika hoe rahoviana. Ireo modely ireo dia mety ho tapa-kevitra amin'ny ampahany, kisendrasendra ampahany, na kisendrasendra tanteraka.
Famerenana vaovao
Ny fitadiavana vaovao (IR) dia programa rindrambaiko izay mandamina, mitahiry, maka ary manombatombana ny vaovao avy amin'ny fitahirizana antontan-taratasy, indrindra ny fampahalalana an-tsoratra.
Ny teknolojia dia manampy ny mpampiasa hahita ny vaovao ilainy, saingy tsy manome mazava ny valin'ny fanontaniany. Izy io dia mampahafantatra ny fisiana sy ny toerana misy ny taratasy mety hanome ny vaovao ilaina.
Ny antontan-taratasy mifandraika dia ireo izay mahafeno ny filan'ny mpampiasa. Ny rafitra IR tsy misy kilema dia tsy hamerina afa-tsy ireo antontan-taratasy voafantina.
Lohahevitry ny lohahevitra
Ny Lohahevitry ny lohahevitra dia manisa lohahevitra tokana amin'ny alalan'ny kajy ny haavon'ny fitovian'ny semantika eo amin'ny teny misy naoty ambony. Ireo metrika ireo dia manampy amin'ny fanavahana ny lohahevitra azo adika ara-pitenenana sy ny lohahevitra izay artifact inference statistika.
Raha mifanohana ny antokon'ny filazana na ny zava-misy dia lazaina fa mirindra.
Vokatr'izany, ny fitambaran'ny zava-misy mitambatra dia azo takarina amin'ny teny manodidina izay mahafaoka ny zava-misy rehetra na ny ankamaroan'ny zava-misy. "Ny lalao dia fanatanjahan-tena ekipa", "ny lalao dia atao amin'ny baolina", ary "ny lalao dia mitaky ezaka ara-batana lehibe" dia ohatra rehetra amin'ny zava-misy mitambatra.
Fomba samy hafa amin'ny modeling lohahevitra
Ity fomba fiasa manakiana ity dia azo tanterahina amin'ny alàlan'ny algorithm na metodolojia isan-karazany. Anisan'izany ny:
- Fanomezana Dirichlet Mitahiry (LDA)
- Factorization matrix tsy negative (NMF)
- Latent Semantic Analysis (LSA)
- Probabilistic Latent Semantic Analysis (pLSA)
Latent Dirichlet Allocation (LDA)
Mba hamantarana ny fifandraisana misy eo amin'ny lahatsoratra maro ao amin'ny corpus, dia ampiasaina ny foto-kevitra statistika sy sary momba ny Latent Dirichlet Allocation.
Amin'ny fampiasana ny fomba fanamafisam-peo Variational Exception Maximization (VEM), dia tratra ny tombantombana mety indrindra avy amin'ny fitambaran-dahatsoratra feno.
Amin'ny fomba mahazatra, ny teny vitsivitsy ambony indrindra amin'ny kitapo misy teny dia voafidy.
Tsy misy dikany tanteraka anefa ilay fehezanteny.
Araka io teknika io, ny lahatsoratra tsirairay dia aseho amin'ny fizarana foto-kevitra mety, ary ny lohahevitra tsirairay amin'ny fizarana teny mety.
Tsy Negative Matrix Factorization (NMF)
Matrix with Non-Negative Values Factorization dia fomba fitrandrahana manara-penitra.
Rehefa misy toetra maro ary manjavozavo ny toetra na tsy azo vinavinaina, dia mahasoa ny NMF. Ny NMF dia afaka mamorona lamina, lohahevitra, na lohahevitra manan-danja amin'ny fampifangaroana toetra.
Ny NMF dia mamokatra ny endri-javatra tsirairay ho fitambarana tsipika amin'ny fitambaran'ny toetra tany am-boalohany.
Ny endri-javatra tsirairay dia misy andiana coefficient izay maneho ny maha-zava-dehibe ny toetra tsirairay amin'ny endri-javatra. Ny toetran'ny isa tsirairay sy ny sanda tsirairay avy amin'ny toetran'ny sokajy tsirairay dia manana ny coefficient azy manokana.
Ny coefficient rehetra dia tsara.
Famakafakana Semantika Latent
Fomba fianarana tsy misy fanaraha-maso iray hafa ampiasaina hanesorana ny fifandraisana misy eo amin'ny teny ao anaty antontan-taratasy dia ny famakafakana semantika miafina.
Izany dia manampy antsika hisafidy ny antontan-taratasy mety. Ny asany voalohany dia ny fampihenana ny refin'ny fitambaran'ny angona lahatsoratra.
Ireo angon-drakitra tsy ilaina ireo dia miasa ho toy ny tabataba ambadika amin'ny fahazoana ireo hevi-baovao ilaina avy amin'ny angona.
Probabilistic Latent Semantic Analysis (pLSA)
Ny probabilistic latent semantic analysis (PLSA), indraindray fantatra amin'ny anarana hoe probabilistic latent semantic indexing (PLSI, indrindra amin'ny faribolana retrieval), dia fomba statistika handinihana ny angona roa-mode sy miaraka.
Raha ny marina, mitovy amin'ny famakafakana semantika miafina, izay nipoiran'ny PLSA, ny fanehoana amin'ny lafiny ambany amin'ny fari-pitsipika voamarika dia azo raisina amin'ny resaka fifandraisany amin'ireo fari-piarovana manokana.
Fifandraisana amin'ny Modeling lohahevitra amin'ny Python
Ankehitriny, handeha aho amin'ny alàlan'ny fanendrena modely amin'ny lohahevitra miaraka amin'ny Python Programming language mampiasa ohatra tena misy.
Hanamboatra lahatsoratra fikarohana modely aho. Ny angon-drakitra hampiasaiko eto dia avy amin'ny kaggle.com. Afaka mahazo mora foana ny rakitra rehetra ampiasaiko amin'ity asa ity ianao pejy.
Andao hanomboka amin'ny Modeling lohahevitra mampiasa Python amin'ny fanafarana ireo tranomboky ilaina rehetra:
Ity dingana manaraka ity dia ny famakiana ny angon-drakitra rehetra izay hampiasaiko amin'ity asa ity:
Famakafakana angona fikarohana
EDA (Exploratory Data Analysis) dia fomba statistika mampiasa singa hita maso. Mampiasa famintinana statistika sy fanehoana an-tsary izy io mba hahitana ny fironana, ny lamina ary ny fiheverana fitsapana.
Hanao famakafakana angon-drakitra fikarohana aho alohan'ny hanombohako ny modelin'ny lohahevitra hahitana raha misy lamina na fifandraisana ao amin'ny angona:
Ho hitantsika izao ny sanda tsy misy dikany amin'ny angon-drakitra fitsapana:
Ankehitriny aho dia hamolavola histograma sy boxplot hanamarina ny fifandraisana misy eo amin'ireo variables.
Ny habetsaky ny endri-tsoratra ao amin'ny Abstracts of the Train set dia miovaova be.
Amin'ny lamasinina dia manana 54 farafahakeliny ary 4551 tarehintsoratra fara-fahakeliny. Ny 1065 dia salan'isan'ny tarehintsoratra.
Toa mahaliana kokoa noho ny setroka fanofanana ny andrana satria misy tarehin-tsoratra 46 ny andian-tsarimihetsika ary 2841 kosa ny fitambarana fiofanana.
Vokatr'izany, ny andrana dia nanana mediana 1058, izay mitovy amin'ny seta fanofanana.
Ny isan'ny teny ao amin'ny andiana fianarana dia manaraka lamina mitovy amin'ny isan'ny litera.
Teny 8 farafahakeliny ary teny 665 ambony indrindra no azo atao. Noho izany, ny isan'ny teny median dia 153.
Teny fito farafahakeliny amin'ny abstract ary teny 452 ambony indrindra ao amin'ny andiana fitsapana no takiana.
Ny median, amin'ity tranga ity, dia 153, izay mitovy amin'ny median ao amin'ny setroka fanofanana.
Mampiasa Tags ho an'ny Modeling Lohahevitra
Misy paikady modely amin'ny lohahevitra maromaro. Hampiasa marika aho amin'ity fanazaran-tena ity; Andeha hojerentsika ny fomba hanaovana izany amin'ny fandinihana ireo tag:
Fampiharana ny Lohahevitra Modeling
- Ny famintinana lahatsoratra dia azo ampiasaina hamantarana ny lohahevitry ny antontan-taratasy na boky.
- Azo ampiasaina hanesorana ny fitongilanan'ny kandidà amin'ny naotin'ny fanadinana.
- Ny modeling lohahevitra dia azo ampiasaina hananganana fifandraisana semantika eo amin'ny teny ao anaty maodely mifototra amin'ny grafika.
- Afaka manatsara ny serivisy ho an'ny mpanjifa izany amin'ny alàlan'ny fitadiavana sy famaliana ireo teny fanalahidy ao amin'ny fanontanian'ny mpanjifa. Hanana finoana bebe kokoa aminao ny mpanjifa satria nomenao azy ireo ny fanampiana ilainy amin'ny fotoana mety ary tsy miteraka olana ho azy ireo. Vokatr'izany dia mitombo be ny tsy fivadihan'ny mpanjifa, ary mitombo ny lanjan'ny orinasa.
Famaranana
Ny modelin'ny lohahevitra dia karazana maodely statistika ampiasaina hamantarana ireo "zavatra" tsy misy dikany izay misy ao anaty fitambarana lahatsoratra.
Endrika iray amin'ny maodely statistika ampiasaina ao fianarana milina ary ny fanodinana fiteny voajanahary mba hamoahana hevitra saro-takarina izay misy ao anaty andian-tsoratra.
Izy io dia fomba fitrandrahana lahatsoratra izay ampiasaina betsaka hitadiavana lamina semantika miafina ao anaty lahatsoratra vatana.
Leave a Reply