Table of Contents[Hūnā][Hōʻike]
Manaʻo wau ua lohe ʻoe i ka naʻauao artificial, a me nā huaʻōlelo e like me ke aʻo ʻana i ka mīkini a me ka hana ʻōlelo kūlohelohe (NLP).
ʻOi loa inā ʻoe e hana no kahi paʻa e mālama i nā haneli, inā ʻaʻole he mau tausani, o nā mea kūʻai aku i kēlā me kēia lā.
ʻAʻole maʻalahi ka ʻikepili ʻikepili o nā hoʻolaha pūnaewele, nā leka uila, nā kamaʻilio, nā pane noiʻi wehe, a me nā kumu ʻē aʻe, a ʻoi aku ka paʻakikī ke hāʻawi ʻia i nā kānaka wale nō.
ʻO ia ke kumu i hauʻoli nui ai ka poʻe i ka hiki o ʻimi hoʻopunipuni manao no kā lākou hana i kēlā me kēia lā a no nā ʻoihana.
Hoʻohana ʻo AI-powered text analysis i kahi ākea ākea a i ʻole algorithms e unuhi i ka ʻōlelo ma ke ʻano organically, ʻo ia kekahi o ka loiloi kumuhana, i hoʻohana ʻia e ʻike maʻalahi i nā kumuhana mai nā kikokikona.
Hiki i nā ʻoihana ke hoʻohana i nā kumu hoʻohālike kumuhana e hoʻololi i nā hana maʻalahi i nā mīkini ma mua o ka hoʻoulu ʻana i nā limahana me ka nui o ka ʻikepili.
E noʻonoʻo i ka nui o ka manawa e mālama ai kāu hui a hāʻawi i nā hana koʻikoʻi inā hiki i kahi kamepiula ke kānana ma nā papa inoa pau ʻole o nā noiʻi mea kūʻai aku a i ʻole nā pilikia kākoʻo i kēlā me kēia kakahiaka.
Ma kēia alakaʻi, e nānā mākou i ka hoʻohālike kumuhana, nā ʻano hana like ʻole o ka hoʻohālike kumuhana, a loaʻa i kahi ʻike lima me ia.
He aha ke kumuhana hoʻohālike?
ʻO ka hoʻohālike kumuhana he ʻano o ka ʻeli kikokikona kahi i ʻike ʻole ʻia a mālama ʻia aʻo aʻo Hoʻohana ʻia nā ʻenehana no ka ʻike ʻana i nā ʻano i loko o kahi kino a i ʻole ka nui o nā kikokikona i hoʻonohonoho ʻole ʻia.
Hiki iā ia ke lawe i kāu hōʻiliʻili nui o nā palapala a hoʻohana i kahi ʻano like e hoʻonohonoho i nā huaʻōlelo i loko o nā pūʻulu huaʻōlelo a ʻike i nā kumuhana.
He mea paʻakikī a paʻakikī kēlā, no laila e maʻalahi mākou i ke kaʻina hana hoʻohālike kumuhana!
E noʻonoʻo ʻoe e heluhelu ana ʻoe i kahi nūpepa me kahi pūʻulu o nā mea hoʻonani kala ma kou lima.
ʻAʻole anei ia he mea kahiko?
Ua ike au i keia mau la, he kakaikahi ka poe heluhelu i na nupepa ma ka pai; kikohoʻe nā mea a pau, a ʻo nā mea highlighters kekahi mea o ka wā i hala! E hoʻohālike i kou makuakāne a makuahine paha!
No laila, ke heluhelu ʻoe i ka nūpepa, e hōʻike ʻoe i nā huaʻōlelo koʻikoʻi.
Hoʻokahi manaʻo hou!
Hoʻohana ʻoe i kahi hue ʻokoʻa e hoʻoikaika i nā huaʻōlelo o nā kumuhana like ʻole. Hoʻokaʻawale ʻoe i nā huaʻōlelo ma muli o ke kala i hāʻawi ʻia a me nā kumuhana.
ʻO kēlā me kēia hōʻiliʻili huaʻōlelo i kaha ʻia e kekahi kala he papa inoa o nā huaʻōlelo no ke kumuhana i hāʻawi ʻia. Hōʻike ka nui o nā kala like ʻole āu i koho ai i ka nui o nā kumuhana.
ʻO kēia ke kumu kumu kumu hoʻohālike. Kōkua ia i ka hoʻomaopopo ʻana, ka hoʻonohonoho ʻana, a me ka hōʻuluʻulu ʻana o nā hōʻiliʻili kikokikona nui.
Eia nō naʻe, e hoʻomanaʻo i ka maikaʻi, pono nā kumu hoʻohālike automated i ka nui o ka ʻike. Inā he pepa pōkole kāu, makemake paha ʻoe e hele i ke kula kahiko a hoʻohana i nā mea highlighters!
He mea maikaʻi nō hoʻi e hoʻolilo i kekahi manawa e ʻike i ka ʻikepili. Hāʻawi kēia iā ʻoe i ka manaʻo kumu o ka mea e ʻike ai ke kumu hoʻohālike.
No ka laʻana, pili paha kēlā diary i kāu pilina o kēia manawa a me nā pilina ma mua. No laila, ke manaʻo nei au e loaʻa mai i kaʻu hoa mining text me nā manaʻo like.
Hiki iā ia ke kōkua iā ʻoe e nānā pono i ka maikaʻi o nā kumuhana āu i ʻike ai, a inā pono, e hoʻololi i nā pūʻulu huaʻōlelo.
Nā ʻāpana o ka hoʻohālike kumuhana
Hoʻohālike kūpono
Hoʻohui ʻia nā ʻano like ʻole a me nā puʻunaue likelika i ka hōʻike ʻana o kahi hanana a i ʻole ke ʻano i loko o nā kumu hoʻohālike probabilistic.
Hāʻawi ke kumu hoʻohālike hoʻoholo i hoʻokahi hopena kūpono no kahi hanana, akā hāʻawi ke kumu hoʻohālike probabilistic i ka mahele likelika ma ke ʻano he hopena.
Ke noʻonoʻo nei kēia mau hiʻohiʻona i ka ʻoiaʻiʻo ʻaʻole mākou i ʻike piha i kahi kūlana. Loaʻa i nā manawa a pau kahi mea o ka randomness e noʻonoʻo ai.
No ka laʻana, pili ka ʻinikua ola i ka ʻoiaʻiʻo e ʻike mākou e make ana mākou, akā ʻaʻole mākou ʻike i ka manawa. ʻO kēia mau hiʻohiʻona paha he ʻāpana ʻokoʻa, ʻāpana ʻokoʻa, a i ʻole holoʻokoʻa.
Hoʻihoʻi ʻike
ʻO ka ʻike ʻike (IR) he polokalamu lako polokalamu e hoʻonohonoho, mālama, kiʻi, a loiloi i ka ʻike mai nā waihona waihona, ʻoi aku ka ʻike kikokikona.
Kōkua ka ʻenehana i nā mea hoʻohana e ʻike i ka ʻike e pono ai lākou, akā ʻaʻole ia e hāʻawi maopopo i nā pane i kā lākou nīnau. Hoʻomaopopo ia i ka noho ʻana a me kahi o nā pepa e hāʻawi i ka ʻike e pono ai.
ʻO nā palapala pili nā mea e kūpono ana i nā pono o ka mea hoʻohana. E hoʻihoʻi ka ʻōnaehana IR hala ʻole i nā palapala i koho ʻia.
Kaulike Kumuhana
Hoʻopili ʻo Topic Coherence i ke kumuhana hoʻokahi ma ka helu ʻana i ke kiʻekiʻe o ka like like ma waena o nā huaʻōlelo kiʻekiʻe o ke kumuhana. Ke kōkua nei kēia mau ana i ka hoʻokaʻawale ʻana ma waena o nā kumuhana i hiki ke unuhi ʻia a me nā kumuhana i ʻike ʻia i nā mea kiʻi kiʻi helu.
Inā kākoʻo kekahi pūʻulu o nā ʻōlelo a i ʻole nā ʻoiaʻiʻo kekahi i kekahi, ʻōlelo ʻia lākou he kuʻikahi.
ʻO ka hopena, hiki ke hoʻomaopopo ʻia kahi hoʻonohonoho ʻoiaʻiʻo i loko o kahi pōʻaiapili e pili ana i nā mea āpau a i ʻole ka hapa nui o nā ʻoiaʻiʻo. "He haʻuki hui ka pāʻani," "pāʻani ʻia ka pāʻani me ka pōpō," a "pono ka pāʻani i ka hoʻoikaika kino nui" ʻo ia nā laʻana o nā pūʻulu ʻoiaʻiʻo.
Nā ʻano like ʻole o ka hoʻohālike kumuhana
Hiki ke hana ʻia kēia kaʻina hana koʻikoʻi e nā ʻano algorithms a i ʻole nā ʻano hana. Aia ma waena o lākou:
- Hāʻawi ʻia ʻo Dirichlet Latent (LDA)
- ʻO ka hoʻohālikelike ʻana i ka matrix ʻaʻohe ʻino (NMF)
- Nānā Manaʻo Latent (LSA)
- ʻIkepili Latent Semantic Analysis (pLSA)
Hoʻokaʻawale Dirichlet Latent (LDA)
No ka ʻike ʻana i ka pilina ma waena o nā kikokikona he nui i loko o ke kino, hoʻohana ʻia ka manaʻo helu helu a me ke kiʻi o Latent Dirichlet Allocation.
Me ka hoʻohana ʻana i ke ʻano o ka Variational Exception Maximization (VEM), loaʻa ka manaʻo nui loa mai ke kino piha o ka kikokikona.
ʻO ka mea maʻamau, koho ʻia nā huaʻōlelo kiʻekiʻe loa mai kahi ʻeke huaʻōlelo.
Eia naʻe, ʻaʻohe manaʻo o ka ʻōlelo.
E like me kēia ʻenehana, e hōʻike ʻia kēlā me kēia kikokikona e ka māhele probabilistic o nā kumuhana, a ʻo kēlā me kēia kumuhana e ka māhele probabilistic o nā huaʻōlelo.
ʻAʻohe ʻinoʻino matrix Factorization (NMF)
ʻO ka Matrix me ka Non-Negative Values Factorization kahi ala ʻoki ʻoki hiʻona.
Inā nui nā ʻano a ʻaʻole maopopo a maikaʻi ʻole paha nā ʻano, pono ka NMF. Hiki iā NMF ke hana i nā mamana koʻikoʻi, nā kumuhana, a i ʻole nā kumumanaʻo ma ka hoʻohui ʻana i nā hiʻohiʻona.
Hoʻokumu ʻo NMF i kēlā me kēia hiʻohiʻona ma ke ʻano he hui laina o ka hoʻonohonoho ʻano kumu.
Loaʻa i kēlā me kēia hiʻohiʻona kahi pūʻulu o nā coefficient e hōʻike ana i ke koʻikoʻi o kēlā me kēia ʻano ma ka hiʻona. Loaʻa i kēlā me kēia hiʻohiʻona helu a me kēlā me kēia waiwai o kēlā me kēia hiʻohiʻona ʻāpana i kona coefficient ponoʻī.
He maikaʻi nā coefficient a pau.
ʻIkepili Semantic Latent
ʻO ia kekahi ala aʻo ʻole i mālama ʻia i hoʻohana ʻia no ka unuhi ʻana i nā hui ma waena o nā huaʻōlelo i kahi pūʻulu o nā palapala ʻo ia ka latent semantic analysis.
Kōkua kēia iā mākou e koho i nā palapala kūpono. ʻO kāna hana nui ka hoʻemi ʻana i ka nui o ka nui o ka ʻikepili kikokikona.
ʻO kēia mau ʻikepili pono ʻole e lilo i walaʻau hope i ka loaʻa ʻana o nā ʻike pono mai ka ʻikepili.
ʻIkepili Latent Semantic Analysis (pLSA)
ʻO ka probabilistic latent semantic analysis (PLSA), i kekahi manawa i kapa ʻia ʻo probabilistic latent semantic indexing (PLSI, ʻoi aku ma nā pōʻai hoʻihoʻi ʻike), he ala helu no ka nānā ʻana i ka ʻikepili ʻelua-mode a me ka hui pū.
ʻOiaʻiʻo, e like me ka latent semantic analysis, kahi i puka mai ai ka PLSA, hiki ke kiʻi ʻia kahi hiʻohiʻona haʻahaʻa o nā mea i ʻike ʻia ma ke ʻano o ko lākou pili ʻana i nā ʻano huna huna.
Hoʻohana lima me ka hoʻohālike kumuhana ma Python
I kēia manawa, e alakaʻi wau iā ʻoe ma kahi hana hoʻohālike kumuhana me ka Python 'ōlelo hoʻolālā e hoʻohana ana i kahi laʻana honua maoli.
E hoʻohālike au i nā ʻatikala noiʻi. ʻO ka ʻikepili aʻu e hoʻohana ai ma aneʻi mai kaggle.com. Hiki iā ʻoe ke loaʻa i nā faila a pau aʻu e hoʻohana nei i kēia hana mai kēia palapala.
E hoʻomaka kākou me Topic Modeling me ka hoʻohana ʻana iā Python ma ka lawe ʻana mai i nā hale waihona puke koʻikoʻi:
ʻO ka ʻanuʻu aʻe ka heluhelu ʻana i nā ʻikepili āpau aʻu e hoʻohana ai i kēia hana:
Ka Ikepili Ikepili
ʻO EDA (Exploratory Data Analysis) kahi ʻano helu helu e hoʻohana ana i nā mea ʻike maka. Hoʻohana ia i nā hōʻuluʻulu helu helu a me nā hōʻike kiʻi e ʻike i nā ʻano, nā ʻano, a me nā manaʻo hoʻāʻo.
E hana au i ka ʻikepili ʻikepili ma mua o koʻu hoʻomaka ʻana i ka hoʻohālike kumuhana e ʻike inā aia kekahi mau mamana a pili paha i ka ʻikepili:
I kēia manawa e ʻike mākou i nā waiwai null o ka ʻikepili hōʻike:
I kēia manawa e hoʻolālā wau i kahi histogram a me ka boxplot e nānā i ka pilina ma waena o nā ʻano.
He ʻokoʻa ka nui o nā huaʻōlelo ma ka Abstracts of the Train set.
Ma ke kaʻaahi, loaʻa iā mākou ka liʻiliʻi o 54 a me ka nui o 4551 mau huapalapala. ʻO 1065 ka nui o nā huaʻōlelo.
ʻOi aku ka hoihoi o ka hoʻonohonoho hoʻāʻo ma mua o ka hoʻonohonoho hoʻomaʻamaʻa ʻana mai ka hoʻonohonoho hoʻāʻo ʻana he 46 mau huaʻōlelo aʻo ka hoʻonohonoho hoʻomaʻamaʻa ʻana he 2841.
ʻO ka hopena, ua loaʻa i ka hoʻonohonoho hoʻāʻo he median o 1058 mau huaʻōlelo, e like me ka hoʻonohonoho hoʻomaʻamaʻa.
ʻO ka helu o nā huaʻōlelo ma ka papa hoʻonaʻauao e like me ka helu o nā leka.
ʻAe ʻia ka liʻiliʻi o 8 mau huaʻōlelo a me ka nui o 665 mau huaʻōlelo. ʻO ka hopena, ʻo ka helu waena o ka huaʻōlelo he 153.
Pono ʻia ka liʻiliʻi o ʻehiku mau huaʻōlelo ma kahi abstract a ʻoi aku ka nui o 452 mau huaʻōlelo ma ka hoʻonohonoho hoʻāʻo.
ʻO ka median, ma kēia hihia, ʻo ia ka 153, e like me ka median ma ka hoʻonohonoho hoʻomaʻamaʻa.
Ke hoʻohana nei i nā huaʻōlelo no ka hoʻohālike kumuhana
Nui nā kumu hoʻohālike kumuhana. E hoʻohana au i nā hōʻailona ma kēia hana; E nānā kākou pehea e hana ai ma ka nānā ʻana i nā hōʻailona:
Nā noi no ka hoʻohālike kumuhana
- Hiki ke hoʻohana ʻia kahi hōʻuluʻulu kikokikona e ʻike i ke kumuhana o kahi palapala a puke paha.
- Hiki ke hoʻohana ʻia no ka wehe ʻana i ka manaʻo o ka moho mai ka helu hōʻike.
- Hiki ke ho'ohana 'ia ka ho'ohālike kumuhana no ke kūkulu 'ana i nā pilina pili ma waena o nā hua'ōlelo ma nā kumu ho'ohālike ma ka pakuhi.
- Hiki iā ia ke hoʻonui i ka lawelawe mea kūʻai aku ma o ka ʻimi ʻana a me ka pane ʻana i nā huaʻōlelo i ka nīnau a ka mea kūʻai aku. E ʻoi aku ka manaʻoʻiʻo o nā mea kūʻai aku iā ʻoe no ka mea ua hāʻawi ʻoe iā lākou i ke kōkua a lākou e koi ai i ka manawa kūpono a me ka ʻole o ka pilikia. ʻO ka hopena, piʻi nui ka kūpaʻa o ka mea kūʻai aku, a piʻi ka waiwai o ka hui.
Panina
ʻO ka hoʻohālike kumuhana kahi ʻano hoʻohālike helu helu i hoʻohana ʻia e wehe i nā "kumuhana" abstract i loaʻa i loko o kahi hōʻuluʻulu kikokikona.
He ʻano ia o ke ʻano helu helu i hoʻohana ʻia ma aʻo aʻo a me ka hoʻoponopono ʻōlelo kūlohelohe e wehe i nā manaʻo kūʻokoʻa i loko o kahi pūʻulu kikokikona.
He ʻano hana ʻeli kikokikona i hoʻohana nui ʻia no ka ʻimi ʻana i nā hiʻohiʻona semantic latent ma ke kikokikona kino.
Waiho i ka Reply