Жаңадан бастаушыларға арналған тақырыпты модельдеуге кіріспе

Мазмұны[Жасыру][Көрсету]

Тақырыпты модельдеу дегеніміз не?
Тақырыпты модельдеудің компоненттері+-
- Ықтималдық модель
- Ақпараттық іздеу
Тақырыпты модельдеудің әртүрлі әдістері+-
Python тілінде тақырыпты модельдеумен тәжірибелік жұмыс+-
- Зерттеу деректерін талдау
- Тақырыпты модельдеу үшін тегтерді пайдалану
Тақырыпты модельдеудің қолданбалары
қорытынды

Жасанды интеллект, сондай-ақ машиналық оқыту және табиғи тілді өңдеу (NLP) сияқты сөздерді естігеніңізге сенімдімін.

Әсіресе, егер сіз күн сайын жүздеген, тіпті мыңдаған клиенттік байланыстарды өңдейтін фирмада жұмыс істесеңіз.

Әлеуметтік желідегі жарияланымдар, электрондық пошталар, чаттар, ашық сауалнама жауаптары және басқа көздердің деректерін талдау қарапайым процесс емес және тек адамдарға сеніп тапсырылғанда одан да қиын болады.

Сондықтан көптеген адамдар әлеуетіне құлшыныспен қарайды жасанды интеллект олардың күнделікті жұмысы үшін және кәсіпорындар үшін .

AI көмегімен мәтіндік талдау тілді органикалық түрде түсіндіру үшін кең ауқымды тәсілдер немесе алгоритмдерді пайдаланады, олардың бірі мәтіндерден тақырыптарды автоматты түрде ашу үшін қолданылатын тақырыпты талдау болып табылады.

Кәсіпорындар тым көп деректермен жұмысшыларды жүктемеуден гөрі жеңіл тапсырмаларды машиналарға тасымалдау үшін тақырыпты талдау үлгілерін пайдалана алады.

Егер компьютер күнделікті таңертең тұтынушылар сауалнамасы немесе қолдау мәселелерінің шексіз тізімдері арқылы сүзгіден өткізе алса, сіздің командаңыз қанша уақытты үнемдей алатынын және маңыздырақ жұмысқа арнайтынын қарастырыңыз.

Бұл нұсқаулықта біз тақырыпты модельдеуді, тақырыпты модельдеудің әртүрлі әдістерін қарастырамыз және онымен практикалық тәжірибе аламыз.

Тақырыпты модельдеу дегеніміз не?

Тақырыптарды модельдеу – бұл бақыланбайтын және бақыланатын статистикалық мәліметтер бар мәтінді өңдеудің бір түрі машина оқыту әдістер корпустағы немесе құрылымдалмаған мәтіннің айтарлықтай көлеміндегі тенденцияларды анықтау үшін қолданылады.

Ол сіздің ауқымды құжаттар жинағын алып, сөздерді терминдер кластеріне бөлу және тақырыптарды ашу үшін ұқсастық әдісін қолдана алады.

Бұл сәл күрделі және қиын болып көрінеді, сондықтан тақырыпты модельдеу процедурасын жеңілдетейік!

Сіз қолыңызда түрлі-түсті жарықтандырғыштар жинағы бар газет оқып жатырсыз делік.

Бұл ескіше емес пе?

Менің түсінгенім, бұл күндері баспа бетіндегі газеттерді оқитындар аз; бәрі цифрлық, ал хайлайтерлер өткеннің еншісінде! Өзіңді әкең немесе анаңдай етіп көрсет!

Сонымен, сіз газетті оқығанда маңызды терминдерді бөліп аласыз.

Тағы бір болжам!

Сіз әртүрлі тақырыптардың кілт сөздерін ерекшелеу үшін басқа реңкті пайдаланасыз. Сіз берілген түс пен тақырыптарға байланысты кілт сөздерді санаттайсыз.

Белгілі бір түспен белгіленген сөздердің әрбір жинағы берілген тақырыпқа арналған түйінді сөздердің тізімі болып табылады. Сіз таңдаған түрлі түстердің саны тақырыптардың санын көрсетеді.

Бұл тақырыпты модельдеудің ең негізгі түрі. Ол үлкен мәтіндік жинақтарды түсінуге, ұйымдастыруға және қорытындылауға көмектеседі.

Дегенмен, тиімді болуы үшін автоматтандырылған тақырып үлгілері көп мазмұнды қажет ететінін есте сақтаңыз. Егер сізде қысқа қағаз болса, ескі мектепке барып, хайлайтерлерді қолданғыңыз келуі мүмкін!

Деректермен танысуға біраз уақыт жұмсау да пайдалы. Бұл сізге тақырып үлгісі нені табу керектігі туралы негізгі түсінік береді.

Мысалы, бұл күнделік сіздің қазіргі және бұрынғы қарым-қатынастарыңыз туралы болуы мүмкін. Осылайша, мен мәтінді өңдейтін робот-досымның осындай идеяларды ойлап табуын күтетін едім.

Бұл сіз анықтаған тақырыптардың сапасын жақсырақ талдауға және қажет болса, кілт сөздер жиынын өзгертуге көмектеседі.

Тақырыпты модельдеудің компоненттері

Ықтималдық модель

Кездейсоқ айнымалылар мен ықтималдық үлестірімдері ықтималдық үлгілерінде оқиғаны немесе құбылысты көрсетуге енгізілген.

Детерминирленген модель оқиға үшін жалғыз потенциалды қорытындыны қамтамасыз етеді, ал ықтималдық модель шешім ретінде ықтималдық үлестірімін қамтамасыз етеді.

Бұл модельдер бізде жағдай туралы толық білім сирек болатын шындықты қарастырады. Кездейсоқтық элементі әрқашан дерлік қарастырылады.

Мысалы, өмірді сақтандыру біз өлетінімізді білетін шындыққа негізделген, бірақ біз қашан өлетінімізді білмейміз. Бұл модельдер ішінара детерминирленген, ішінара кездейсоқ немесе толығымен кездейсоқ болуы мүмкін.

Ақпараттық іздеу

Ақпаратты іздеу (IR) – құжат репозитарийлерінен ақпаратты, әсіресе мәтіндік ақпаратты ұйымдастыратын, сақтайтын, шығарып алатын және бағалайтын бағдарламалық құрал.

Технология пайдаланушыларға қажетті ақпаратты табуға көмектеседі, бірақ ол олардың сұрауларына нақты жауап бермейді. Ол қажетті ақпаратты бере алатын қағаздардың бар-жоғын және орналасқан жерін хабарлайды.

Тиісті құжаттар – пайдаланушының қажеттіліктерін қанағаттандыратын құжаттар. Ақаусыз IR жүйесі тек таңдалған құжаттарды қайтарады.

Тақырып сәйкестігі

Тақырып сәйкестігі тақырыптың жоғары ұпай жинаған терминдері арасындағы семантикалық ұқсастық дәрежесін есептеу арқылы бір тақырыпқа ұпай береді. Бұл көрсеткіштер семантикалық тұрғыдан түсіндірілетін тақырыптар мен статистикалық қорытынды артефакті болып табылатын тақырыптарды ажыратуға көмектеседі.

Егер бір топ мәлімдемелер немесе фактілер бірін-бірі қолдаса, олар үйлесімді деп аталады.

Нәтижесінде біртұтас фактілер жиынтығын фактілердің барлығын немесе көпшілігін қамтитын контексте түсінуге болады. «Ойын – командалық спорт», «ойын доппен ойналады» және «ойын үлкен физикалық күш салуды қажет етеді» - бұл фактілер жиынтығының мысалдары.

Тақырыпты модельдеудің әртүрлі әдістері

Бұл маңызды процедураны әртүрлі алгоритмдер немесе әдістемелер арқылы жүзеге асыруға болады. Олардың ішінде:

Жасырын Дирихлет бөлу (LDA)
Теріс емес матрицалық факторизация (NMF)
Жасырын семантикалық талдау (LSA)
Ықтималдық жасырын семантикалық талдау(pLSA)

Жасырын Дирихлет бөлу (LDA)

Корпустағы бірнеше мәтіндер арасындағы қатынастарды анықтау үшін жасырын Дирихлет бөлудің статистикалық және графикалық тұжырымдамасы қолданылады.

Вариациялық ерекшеліктерді барынша арттыру (VEM) әдісін қолдану арқылы мәтіннің толық корпусынан ең үлкен ықтималдық бағалауға қол жеткізіледі.

LTD

Дәстүр бойынша, сөздер қаптамасынан ең жоғарғы бірнеше сөз таңдалады.

Дегенмен, сөйлем мүлдем мағынасыз.

Бұл әдістемеге сәйкес, әрбір мәтін тақырыптардың ықтималдық таралуымен, ал әрбір тақырып сөздердің ықтималдық таралуымен ұсынылатын болады.

Теріс емес матрицалық факторизация (NMF)

Теріс емес мәндері бар матрицаны факторизациялау – мүмкіндіктерді шығарудың озық әдісі.

Қасиеттер көп болса және атрибуттар анық емес немесе болжамдылығы нашар болса, NMF пайдалы болады. NMF сипаттамаларды біріктіру арқылы маңызды үлгілерді, тақырыптарды немесе тақырыптарды жасай алады.

Теріс емес матрицалық факторизация

NMF әрбір мүмкіндікті бастапқы атрибуттар жиынының сызықтық комбинациясы ретінде жасайды.

Әрбір мүмкіндікте мүмкіндіктегі әрбір атрибуттың маңыздылығын көрсететін коэффициенттер жиыны бар. Әрбір сандық атрибуттың және әрбір санат төлсипатының әрбір мәнінің өз коэффициенті болады.

Барлық коэффициенттер оң.

Жасырын семантикалық талдау

Құжаттар жинағындағы сөздер арасындағы байланыстарды алу үшін қолданылатын басқа бақылаусыз оқыту әдісі - жасырын семантикалық талдау.

Бұл бізге дұрыс құжаттарды таңдауға көмектеседі. Оның негізгі функциясы - мәтіндік деректердің үлкен корпусының өлшемділігін азайту.

Бұл қажетсіз деректер деректерден қажетті түсініктерді алуда фондық шу ретінде қызмет етеді.

Жасырын семантикалық талдау

Ықтималдық жасырын семантикалық талдау(pLSA)

Ықтималдық жасырын семантикалық талдау (PLSA), кейде ықтималдық жасырын семантикалық индекстеу (PLSI, әсіресе ақпаратты іздеу шеңберлерінде) ретінде белгілі, екі режимді және бірге пайда болған деректерді талдауға арналған статистикалық тәсіл болып табылады.

Шын мәнінде, PLSA пайда болған жасырын семантикалық талдауға ұқсас, байқалатын айнымалылардың төмен өлшемді көрінісі олардың белгілі бір жасырын айнымалыларға жақындығы тұрғысынан алынуы мүмкін.

Ықтималдық жасырын сенантикалық талдау

Python тілінде тақырыпты модельдеумен тәжірибелік жұмыс

Енді мен сізге Python көмегімен тақырыпты модельдеу тапсырмасын беремін бағдарламалау тілі нақты мысалды қолдану.

Мен зерттеу мақалаларын модельдейтін боламын. Мен мұнда қолданатын деректер жинағы kaggle.com сайтынан алынған. Сіз осы жұмыста қолданатын барлық файлдарды осы жерден оңай ала аласыз бет.

Барлық маңызды кітапханаларды импорттау арқылы Python көмегімен тақырыпты модельдеуді бастайық:

Кітапханаларды импорттау

Келесі қадам осы тапсырмада пайдаланатын барлық деректер жиынын оқу болып табылады:

Деректер жиынын оқыңыз

Зерттеу деректерін талдау

EDA (Exploratory Data Analysis) – көрнекі элементтерді пайдаланатын статистикалық әдіс. Ол трендтерді, үлгілерді және сынақ болжамдарын табу үшін статистикалық қорытындылар мен графикалық көріністерді пайдаланады.

Деректерде қандай да бір үлгілер немесе қатынастар бар-жоғын білу үшін тақырыпты модельдеуді бастамас бұрын мен зерттеу деректерін талдауды жасаймын:

Пойыз деректер жинағының нөлдік мәндерін табыңыз

Пойыздың нөлдік мәндерінің шығысы

Енді біз сынақ деректер жиынының нөлдік мәндерін табамыз:

Сынақ деректер жиынының нөлдік мәндерін табыңыз

Сынақ нөлдік мәндерін шығару

Енді мен айнымалылар арасындағы байланысты тексеру үшін гистограмма мен қорап сызбасын саламын.

Жоспарлау

Графиктің нәтижесі 1

Пойыз аннотациялар жинағындағы таңбалар саны айтарлықтай өзгереді.

Пойызда бізде кемінде 54 және максимум 4551 таңба бар. 1065 - таңбалардың орташа саны.

Сюжет 2

Графиктің нәтижесі 2

Тест жинағы оқу жинағына қарағанда қызықтырақ болып көрінеді, өйткені тест жинағында 46 таңба, ал оқу жинағында 2841 таңба бар.

Нәтижесінде тест жинағының медианасы 1058 таңбаға ие болды, бұл оқу жинағына ұқсас.

Сюжет 3

Сюжеттің нәтижесі 3

Оқу жинағындағы сөздердің саны әріптер санына ұқсас үлгі бойынша жүреді.

Кемінде 8 сөз, ең көбі 665 сөз рұқсат етіледі. Нәтижесінде сөздің медианалық саны 153-ке тең.

Сюжет 4

Графиктің нәтижесі 4

Рефератта кемінде жеті сөз және тест жинағында ең көбі 452 сөз болуы керек.

Бұл жағдайда медиана 153 болып табылады, бұл жаттығу жиынындағы медианамен бірдей.

Тақырыпты модельдеу үшін тегтерді пайдалану

Тақырыпты модельдеудің бірнеше стратегиялары бар. Мен бұл жаттығуда тегтерді қолданамын; тегтерді тексеру арқылы мұны қалай жасауға болатынын қарастырайық:

Тақырыпты модельдеу үшін тегтерді пайдалану

Тақырыпты модельдеу нәтижесі

Тақырыпты модельдеудің қолданбалары

Мәтіннің қысқаша мазмұнын құжаттың немесе кітаптың тақырыбын анықтау үшін пайдалануға болады.
Оны емтихан ұпайларынан үміткерлердің теріс пікірін жою үшін пайдалануға болады.
Тақырыпты модельдеу графикалық модельдердегі сөздер арасындағы семантикалық қатынастарды құру үшін пайдаланылуы мүмкін.
Ол клиенттің сұрауындағы кілт сөздерді анықтау және оларға жауап беру арқылы тұтынушыларға қызмет көрсетуді жақсарта алады. Клиенттердің сізге деген сенімі артады, өйткені сіз оларға қажетті сәтте және еш қиындық тудырмай, оларға қажетті көмек көрсеттіңіз. Нәтижесінде клиенттердің адалдығы күрт артып, компанияның құны артады.

қорытынды

Тақырыптық модельдеу – мәтіндер жинағында бар дерексіз «пәндерді» ашу үшін қолданылатын статистикалық модельдеу түрі.

Бұл статистикалық модельдің бір түрі машина оқыту және мәтіндер жиынтығында бар дерексіз ұғымдарды ашу үшін табиғи тілді өңдеу.

Бұл негізгі мәтіндегі жасырын семантикалық үлгілерді табу үшін кеңінен қолданылатын мәтінді іздеу әдісі.

Жаңадан бастаушыларға арналған тақырыпты модельдеуге кіріспе

Тақырыпты модельдеу дегеніміз не?