Мундариҷа[Пинҳон кардан][Намоиш]
Ман боварӣ дорам, ки шумо дар бораи зеҳни сунъӣ ва инчунин калимаҳо ба монанди омӯзиши мошинсозӣ ва коркарди забони табиӣ (NLP) шунидаед.
Хусусан, агар шумо дар ширкате кор кунед, ки ҳар рӯз садҳо, ҳатто ҳазорон нафар бо муштариён тамос мегирад.
Таҳлили маълумоти интишороти шабакаҳои иҷтимоӣ, почтаи электронӣ, чатҳо, посухҳои пурсишҳои кушода ва дигар сарчашмаҳо як раванди оддӣ нест ва вақте ки танҳо ба одамон бовар карда мешавад, он боз ҳам мушкилтар мешавад.
Аз ин рӯ, бисёриҳо ба потенсиали он шавқманданд мағзи маслуӣ барои кори харрузаи худ ва барои корхонахо .
Таҳлили матн, ки бо AI асос ёфтааст, доираи васеи равишҳо ё алгоритмҳоро барои тафсири органикии забон истифода мебарад, ки яке аз онҳо таҳлили мавзӯъ мебошад, ки барои ба таври худкор кашф кардани мавзӯъҳо аз матн истифода мешавад.
Соҳибкорон метавонанд моделҳои таҳлили мавзӯъҳоро истифода баранд, то кори осонро ба мошинҳо интиқол диҳанд, на аз сарбории коргарон бо маълумоти аз ҳад зиёд.
Андеша кунед, ки дастаи шумо чӣ қадар вақтро сарфа карда метавонад ва ба кори муҳимтаре сарф кунад, агар компютер метавонад ҳар саҳар рӯйхати беохири пурсишҳои муштариён ё масъалаҳои дастгирииро филтр кунад.
Дар ин дастур, мо моделсозии мавзӯъ, усулҳои гуногуни моделсозии мавзӯъро дида мебароем ва бо он таҷрибаи амалӣ мегирем.
Моделсозии мавзӯъ чист?
Моделсозии мавзӯъ як намуди истихроҷи матн аст, ки дар он омори бе назорат ва назоратшаванда аст омӯзиши машқҳо усулҳо барои муайян кардани тамоюлҳо дар корпус ё миқдори зиёди матни сохторнашуда истифода мешаванд.
Он метавонад маҷмӯаи азими ҳуҷҷатҳои шуморо гирад ва усули шабеҳро барои ҷойгир кардани калимаҳо ба кластерҳои истилоҳот ва кашф кардани мавзӯъҳо истифода барад.
Ин каме мураккаб ва душвор ба назар мерасад, аз ин рӯ биёед тартиби моделсозии мавзӯъро содда кунем!
Тасаввур кунед, ки шумо рӯзномаеро мехонед, ки дар даст маҷмӯи равшанидиҳандаҳои ранга дорад.
Оё ин кӯҳна нест?
Ман дарк мекунам, ки дар ин рӯзҳо шумораи ками одамон дар чоп рӯзнома мехонанд; ҳама чиз рақамӣ аст ва равшангарҳо чизи гузаштаанд! Худро падар ё модари худ вонамуд кун!
Пас, вакте ки шумо газетаро мехонед, шартхои мухимро кайд мекунед.
Боз як тахмин!
Шумо барои таъкид кардани калимаҳои калидии мавзӯъҳои гуногун ранги дигарро истифода мебаред. Шумо калимаҳои калидиро вобаста ба ранг ва мавзӯъҳои додашуда гурӯҳбандӣ мекунед.
Ҳар як маҷмӯи калимаҳое, ки бо ранги муайян нишон дода шудаанд, рӯйхати калимаҳои калидӣ барои мавзӯи додашуда мебошанд. Миқдори рангҳои гуногуни интихобкардаи шумо шумораи мавзӯъҳоро нишон медиҳад.
Ин асоситарин моделсозии мавзӯъ аст. Он дар фаҳмидан, ташкил ва ҷамъбасти маҷмӯаҳои калони матнӣ кӯмак мекунад.
Аммо, дар хотир доред, ки барои самаранок будан, моделҳои мавзӯъҳои автоматӣ мундариҷаи зиёдеро талаб мекунанд. Агар шумо коғази кӯтоҳ дошта бошед, шумо шояд мехоҳед ба мактаби кӯҳна биравед ва равшангарҳоро истифода баред!
Инчунин барои шиносоӣ бо маълумот чанд вақт сарф кардан муфид аст. Ин ба шумо ҳисси асосии он медиҳад, ки модели мавзӯъ чӣ бояд пайдо кунад.
Масалан, он рӯзнома метавонад дар бораи муносибатҳои ҳозира ва қаблии шумо бошад. Ҳамин тариқ, ман интизор будам, ки робот-рафиқи матни истихроҷи ман бо ғояҳои шабеҳ пайдо шавад.
Ин метавонад ба шумо кӯмак кунад, ки сифати мавзӯъҳои муайянкардаатонро беҳтар таҳлил кунед ва агар лозим бошад, маҷмӯи калимаҳои калидиро тағир диҳед.
Унсурҳои моделсозии мавзӯъ
Модели эҳтимолӣ
Тағирёбандаҳои тасодуфӣ ва тақсимоти эҳтимолият ба муаррифии ҳодиса ё падида дар моделҳои эҳтимолӣ дохил карда мешаванд.
Модели детерминистӣ як хулосаи ягонаи эҳтимолиро барои ҳодиса таъмин мекунад, дар ҳоле ки модели эҳтимолӣ тақсимоти эҳтимолиятро ҳамчун роҳи ҳал таъмин мекунад.
Ин моделҳо воқеиятеро баррасӣ мекунанд, ки мо дар бораи вазъият хеле кам маълумот дорем. Қариб ҳамеша як унсури тасодуфӣ барои баррасӣ вуҷуд дорад.
Масалан, суғуртаи ҳаёт ба воқеият вобаста аст, ки мо медонем, ки мо мемирем, аммо намедонем, ки кай. Ин моделҳо метавонанд қисман муайянкунанда, қисман тасодуфӣ ё комилан тасодуфӣ бошанд.
Ҷустуҷӯи иттилоотӣ
Ҷустуҷӯи иттилоот (IR) як барномаи нармафзорест, ки иттилоотро аз анбори ҳуҷҷатҳо, бахусус иттилооти матнӣ ташкил, нигоҳ медорад, дарёфт ва арзёбӣ мекунад.
Технология ба корбарон кӯмак мекунад, ки маълумоти ба онҳо лозимиро кашф кунанд, аммо он ба саволҳои онҳо ҷавоби дақиқ намедиҳад. Он дар бораи мавҷудият ва ҷойгиршавии ҳуҷҷатҳое, ки метавонанд маълумоти заруриро пешниҳод кунанд, огоҳ мекунад.
Ҳуҷҷатҳои дахлдор ҳуҷҷатҳое мебошанд, ки ба талаботи корбар ҷавобгӯ мебошанд. Системаи беайби IR танҳо ҳуҷҷатҳои интихобшударо бармегардонад.
Мутобиқати мавзӯъ
Мутобиқати мавзӯъ як мавзӯъро тавассути ҳисоб кардани дараҷаи шабоҳати семантикӣ байни истилоҳҳои баландбаҳодиҳии мавзӯъ баҳо медиҳад. Ин нишондиҳандаҳо барои фарқ кардани мавзӯъҳое, ки аз ҷиҳати маъно тафсиршавандаанд ва мавзӯъҳое, ки артефактҳои оморӣ мебошанд, кӯмак мекунанд.
Агар як гурӯҳи даъвоҳо ё далелҳо ҳамдигарро дастгирӣ кунанд, онҳо мувофиқат мекунанд.
Дар натиҷа, маҷмӯи далелҳои муттаҳидро метавон дар контекст, ки ҳама ё аксарияти далелҳоро дар бар мегирад, фаҳмидан мумкин аст. "Бозӣ як варзиши дастаист", "бозӣ бо тӯб бозӣ мекунад" ва "бозӣ кӯшиши зиёди ҷисмониро талаб мекунад" ҳама мисолҳои маҷмӯи фактҳои муттаҳид мебошанд.
Усулҳои гуногуни моделсозии мавзӯъ
Ин тартиби муҳимро метавон тавассути алгоритмҳо ё методологияҳои гуногун иҷро кард. Дар байни онҳо инҳоянд:
- Тақсимоти ниҳонии Дирихлет (LDA)
- Факторизатсияи матритсаи ғайриманфӣ (NMF)
- Таҳлили семантикии ниҳонӣ (LSA)
- Таҳлили эҳтимолии семантикии ниҳонӣ (pLSA)
Тақсимоти пинҳонии Дирихлет (LDA)
Барои муайян кардани муносибатҳои байни матнҳои сершумор дар корпус, консепсияи оморӣ ва графикии тақсимоти ниҳонии Дирихлет истифода мешавад.
Бо истифода аз равиши Максимизатсияи Вариационии Истисно (VEM), баҳодиҳии эҳтимолии аз ҳама пурраи матн ба даст оварда мешавад.
Одатан, чанд калимаи боло аз як халта калимаҳо интихоб карда мешаванд.
Бо вуҷуди ин, ҳукм комилан бемаънӣ аст.
Тибқи ин усул, ҳар як матн бо тақсимоти эҳтимолии мавзӯъҳо ва ҳар як мавзӯъ бо тақсимоти эҳтимолии калимаҳо ифода карда мешавад.
Факторизатсияи матритсаи ғайриманфӣ (NMF)
Матритса бо арзишҳои ғайриманфӣ Факторизатсия як усули муосири истихроҷи хусусиятҳо мебошад.
Вақте ки сифатҳо зиёданд ва сифатҳо норавшананд ё пешгӯии суст доранд, NMF фоидаовар аст. NMF метавонад тавассути омезиши хусусиятҳо намунаҳо, мавзӯъҳо ё мавзӯъҳои назаррасро тавлид кунад.
NMF ҳар як хусусиятро ҳамчун омезиши хаттии маҷмӯи атрибутҳои аслӣ тавлид мекунад.
Ҳар як хусусият маҷмӯи коэффитсиентҳоро дар бар мегирад, ки аҳамияти ҳар як хусусиятро дар хусусият ифода мекунанд. Ҳар як атрибути ададӣ ва ҳар як арзиши ҳар як атрибути категория коэффисиенти худро дорад.
Ҳама коэффицентҳо мусбатанд.
Таҳлили семантикии ниҳонӣ
Ин як усули дигари омӯзиши бидуни назорат аст, ки барои истихроҷи ассотсиатсия байни калимаҳо дар маҷмӯи ҳуҷҷатҳо истифода мешавад, таҳлили семантикии ниҳонӣ мебошад.
Ин ба мо кӯмак мекунад, ки ҳуҷҷатҳои мувофиқро интихоб кунем. Вазифаи асосии он кам кардани андозагирии корпуси бузурги маълумоти матнӣ мебошад.
Ин маълумоти нолозим ҳамчун садои пасзамина барои ба даст овардани фаҳмиши зарурӣ аз додаҳо хизмат мекунанд.
Таҳлили эҳтимолии семантикии ниҳонӣ (pLSA)
Таҳлили эҳтимолии семантикии ниҳонӣ (PLSA), ки баъзан ҳамчун индексатсияи эҳтимолии семантикии ниҳонӣ маълум аст (PLSI, махсусан дар доираҳои ҷустуҷӯи иттилоот), як равиши оморӣ барои таҳлили маълумоти думоҳавӣ ва ҳамҷояӣ мебошад.
Дарвоқеъ, ба монанди таҳлили семантикии ниҳонӣ, ки аз он PLSA ба вуҷуд омадааст, намояндагии паст-ченакаи тағирёбандаҳои мушоҳидашавандаро метавон аз нуқтаи назари наздикии онҳо ба тағирёбандаҳои пинҳонии мушаххас ба даст овард.
Амалиёт бо моделсозии мавзӯъҳо дар Python
Ҳоло, ман ба шумо як супориши моделсозии мавзӯъро бо Python роҳнамоӣ мекунам забони барномасозӣ бо истифода аз мисоли воқеии ҷаҳон.
Ман мақолаҳои тадқиқотиро моделсозӣ хоҳам кард. Маҷмӯаи маълумоте, ки ман дар ин ҷо истифода хоҳам кард, аз kaggle.com меояд. Шумо метавонед ҳамаи файлҳоеро, ки ман дар ин кор истифода мебарам, аз ин ба осонӣ дастрас кунед саҳифа.
Биёед бо моделсозии мавзӯъҳо бо истифода аз Python тавассути ворид кардани ҳамаи китобхонаҳои муҳим оғоз кунем:
Қадами зерин хондани ҳама маҷмӯи додаҳоест, ки ман дар ин вазифа истифода хоҳам кард:
Таҳлили маълумотҳои тадқиқотӣ
EDA (Exploratory Data Analysis) як усули оморӣ мебошад, ки унсурҳои визуалиро истифода мебарад. Он ҷамъбасти оморӣ ва тасвирҳои графикиро барои кашф кардани тамоюлҳо, намунаҳо ва фарзияҳои санҷишӣ истифода мебарад.
Пеш аз оғози моделсозии мавзӯъ ман таҳлили маълумотҳои иктишофиро анҷом медиҳам, то бубинам, ки оё дар маълумот ягон шакл ё муносибат вуҷуд дорад:
Акнун мо арзишҳои нули маҷмӯи додаҳои санҷиширо пайдо хоҳем кард:
Ҳоло ман як гистограмма ва қуттии қуттӣ тартиб медиҳам, то муносибати байни тағирёбандаҳоро тафтиш кунам.
Миқдори аломатҳо дар Рефератҳои қатора хеле фарқ мекунад.
Дар қатора мо ҳадди аққал 54 ва ҳадди аксар 4551 аломат дорем. 1065 миқдори миёнаи аломатҳост.
Маҷмӯи тестӣ назар ба маҷмӯи омӯзиш ҷолибтар ба назар мерасад, зеро маҷмӯи тестӣ 46 аломат дорад, дар ҳоле ки маҷмӯи омӯзиш 2841 аломат дорад.
Дар натиҷа, маҷмӯи санҷишҳо миёнаравӣ 1058 аломат дошт, ки ба маҷмӯи омӯзиш монанд аст.
Шумораи калимаҳо дар маҷмӯи омӯзиш ба шумораи ҳарфҳо монанд аст.
Ҳадди ақал 8 калима ва ҳадди аксар 665 калима иҷозат дода мешавад. Дар натиҷа, шумораи миёнаи калимаҳо 153 аст.
Ҳадди ақал ҳафт калима дар реферат ва ҳадди аксар 452 калима дар маҷмӯи тестӣ талаб карда мешавад.
Медиан, дар ин ҳолат, 153 аст, ки ба медиана дар маҷмӯи омӯзиш шабеҳ аст.
Истифодаи тегҳо барои моделсозии мавзӯъ
Якчанд стратегияҳои моделсозии мавзӯъ вуҷуд доранд. Ман дар ин машқ тегҳоро истифода мебарам; биёед бубинем, ки чӣ тавр ин корро тавассути тафтиши барчаспҳо:
Барномаҳои моделсозии мавзӯъ
- Хулосаи матн метавонад барои муайян кардани мавзӯи ҳуҷҷат ё китоб истифода шавад.
- Он метавонад барои бартараф кардани ғарази номзадҳо аз баҳои имтиҳон истифода шавад.
- Моделсозии мавзӯъ метавонад барои сохтани муносибатҳои семантикӣ байни калимаҳо дар моделҳои графикӣ истифода шавад.
- Он метавонад хидматрасонии муштариёнро тавассути дарёфт ва посух додан ба калимаҳои калидӣ дар дархости муштарӣ афзоиш диҳад. Мизоҷон ба шумо эътимоди бештар хоҳанд дошт, зеро шумо ба онҳо кӯмаки лозимаро дар лаҳзаи мувофиқ расонидаед ва ҳеҷ мушкиле ба онҳо нарасонед. Дар натиҷа, садоқати муштариён ба таври назаррас афзоиш меёбад ва арзиши ширкат меафзояд.
хулоса
Моделсозии мавзӯъ як навъ моделсозии оморист, ки барои ошкор кардани “мавзӯъҳои” абстрактӣ, ки дар маҷмӯаи матнҳо мавҷуданд, истифода мешавад.
Ин як шакли модели оморӣ мебошад, ки дар он истифода мешавад омӯзиши машқҳо ва коркарди забони табиӣ барои ошкор кардани мафҳумҳои абстрактӣ, ки дар маҷмӯи матнҳо мавҷуданд.
Ин як усули истихроҷи матн аст, ки барои дарёфти намунаҳои семантикии ниҳонӣ дар матни бадан васеъ истифода мешавад.
Дин ва мазҳаб