Թեմայի մոդելավորման ներածություն սկսնակների համար

Բառը[Թաքցնել][Ցուցադրում]

Ի՞նչ է թեմայի մոդելավորումը:
Թեմայի մոդելավորման բաղադրիչները+-
- Հավանական մոդել
- Տեղեկատվության որոնում
Թեմայի մոդելավորման տարբեր մեթոդներ+-
Գործնականում Python-ում թեմաների մոդելավորում+-
- Հետախուզական տվյալների վերլուծություն
- Թեմայի մոդելավորման համար պիտակների օգտագործումը
Թեմայի մոդելավորման կիրառություններ
Եզրափակում

Համոզված եմ, որ դուք լսել եք արհեստական ինտելեկտի, ինչպես նաև այնպիսի բառերի մասին, ինչպիսիք են մեքենայական ուսուցումը և բնական լեզվի մշակումը (NLP):

Հատկապես, եթե դուք աշխատում եք մի ընկերությունում, որն ամեն օր զբաղվում է հարյուրավոր, եթե ոչ հազարավոր հաճախորդների հետ կապերով:

Սոցիալական մեդիայի հրապարակումների, էլ. նամակների, չաթերի, բաց հարցման պատասխանների և այլ աղբյուրների տվյալների վերլուծությունը պարզ գործընթաց չէ, և այն էլ ավելի դժվար է դառնում, երբ վստահվում է միայն մարդկանց:

Ահա թե ինչու շատ մարդիկ ոգևորված են ներուժով Արհեստական բանականություն իրենց ամենօրյա աշխատանքի և ձեռնարկությունների համար:

AI-ի վրա հիմնված տեքստի վերլուծությունը օգտագործում է մոտեցումների կամ ալգորիթմների լայն շրջանակ՝ լեզուն օրգանապես մեկնաբանելու համար, որոնցից մեկը թեմայի վերլուծությունն է, որն օգտագործվում է տեքստերից առարկաները ավտոմատ կերպով հայտնաբերելու համար:

Բիզնեսները կարող են օգտագործել թեմայի վերլուծության մոդելներ՝ հեշտ գործերը մեքենաների վրա փոխանցելու համար, այլ ոչ թե աշխատողներին չափազանց շատ տվյալներ բեռնաթափելու համար:

Մտածեք, թե որքան ժամանակ կարող է ձեր թիմը խնայել և հատկացնել ավելի կարևոր աշխատանքի, եթե համակարգիչը կարողանա ամեն առավոտ զտել հաճախորդների հարցումների կամ աջակցության խնդիրների անվերջ ցուցակները:

Այս ուղեցույցում մենք կանդրադառնանք թեմայի մոդելավորմանը, թեմայի մոդելավորման տարբեր մեթոդներին և ձեռք կբերենք գործնական փորձ դրա հետ:

Ի՞նչ է թեմայի մոդելավորումը:

Թեմայի մոդելավորումը տեքստի մայնինգի մի տեսակ է, որտեղ չվերահսկվող և վերահսկվող վիճակագրական տվյալները Machine Learning տեխնիկան օգտագործվում է կորպուսի կամ չկառուցված տեքստի զգալի ծավալի միտումները հայտնաբերելու համար:

Այն կարող է վերցնել ձեր հսկայական փաստաթղթերի հավաքածուն և օգտագործել նմանության մեթոդ՝ բառերը տերմինների կլաստերների դասավորելու և առարկաներ հայտնաբերելու համար:

Դա մի փոքր բարդ և դժվար է թվում, ուստի եկեք պարզեցնենք առարկայի մոդելավորման ընթացակարգը:

Ենթադրենք, որ դուք թերթ եք կարդում, որի ձեռքին գունավոր լուսարձակներ կան:

Մի՞թե դա հնաոճ չէ:

Ես հասկանում եմ, որ այս օրերին քչերն են տպագիր թերթ կարդում. ամեն ինչ թվային է, և լուսանցքները անցյալում են: Ձևացրու, թե քո հայրն է կամ մայրը:

Այսպիսով, երբ թերթ ես կարդում, կարևոր տերմիններն ես առանձնացնում։

Եվս մեկ ենթադրություն.

Դուք օգտագործում եք այլ երանգ՝ տարբեր թեմաների հիմնաբառերն ընդգծելու համար: Դուք դասակարգում եք հիմնաբառերը՝ կախված տրամադրված գույնից և թեմաներից:

Բառերի յուրաքանչյուր հավաքածու, որը նշված է որոշակի գույնով, տվյալ թեմայի հիմնաբառերի ցանկն է: Ձեր ընտրած տարբեր գույների քանակը ցույց է տալիս թեմաների քանակը:

Սա ամենահիմնական թեմայի մոդելավորումն է: Այն օգնում է տեքստային մեծ հավաքածուների ըմբռնմանը, կազմակերպմանը և ամփոփմանը:

Այնուամենայնիվ, հիշեք, որ արդյունավետ լինելու համար ավտոմատացված թեմայի մոդելները պահանջում են շատ բովանդակություն: Եթե դուք ունեք կարճ թուղթ, կարող եք գնալ հին դպրոց և օգտագործել լուսարձակներ:

Օգտակար է նաև որոշ ժամանակ հատկացնել տվյալներին ծանոթանալու համար: Սա ձեզ հիմնական պատկերացում կտա, թե ինչ պետք է գտնի թեմայի մոդելը:

Օրինակ, այդ օրագիրը կարող է լինել ձեր ներկա և նախկին հարաբերությունների մասին: Այսպիսով, ես ակնկալում եմ, որ իմ տեքստային մայնինգ ռոբոտ-ընկերը հանդես կգա նմանատիպ գաղափարներով:

Սա կարող է օգնել ձեզ ավելի լավ վերլուծել ձեր նշած առարկաների որակը և, անհրաժեշտության դեպքում, շտկել հիմնաբառերի հավաքածուները:

Թեմայի մոդելավորման բաղադրիչները

Հավանական մոդել

Պատահական փոփոխականները և հավանականության բաշխումները ներառված են հավանականական մոդելներում իրադարձության կամ երևույթի ներկայացման մեջ:

Դետերմինիստական մոդելը տրամադրում է իրադարձության մեկ պոտենցիալ եզրակացություն, մինչդեռ հավանականական մոդելը տալիս է հավանականության բաշխում որպես լուծում:

Այս մոդելները հաշվի են առնում այն իրականությունը, որ մենք հազվադեպ ենք իրավիճակի ամբողջական իմացություն: Գրեթե միշտ կա պատահականության տարր, որը պետք է դիտարկել:

Օրինակ, կյանքի ապահովագրությունը հիմնված է այն իրականության վրա, որ մենք գիտենք, որ կմահանանք, բայց չգիտենք, թե երբ: Այս մոդելները կարող են լինել մասամբ դետերմինիստական, մասամբ պատահական կամ ամբողջովին պատահական:

Տեղեկատվության որոնում

Տեղեկատվության որոնումը (IR) ծրագրային ծրագիր է, որը կազմակերպում, պահպանում, առբերում և գնահատում է փաստաթղթերի պահոցներից, մասնավորապես՝ տեքստային տեղեկատվությունը:

Տեխնոլոգիան օգնում է օգտատերերին բացահայտել իրենց անհրաժեշտ տեղեկատվությունը, սակայն այն հստակ չի տալիս նրանց հարցումների պատասխանները: Այն տեղեկացնում է փաստաթղթերի առկայության և գտնվելու մասին, որոնք կարող են տրամադրել անհրաժեշտ տեղեկատվություն:

Համապատասխան փաստաթղթերն այն փաստաթղթերն են, որոնք բավարարում են օգտագործողի կարիքները: Անթերի IR համակարգը կվերադարձնի միայն ընտրված փաստաթղթերը:

Թեմայի համախմբվածություն

Թեմայի համախմբումը գնահատում է մեկ թեմա՝ հաշվարկելով թեմայի բարձր գնահատական ունեցող տերմինների իմաստային նմանության աստիճանը: Այս չափիչները օգնում են տարբերակել առարկաները, որոնք իմաստային կերպով մեկնաբանելի են և թեմաները, որոնք վիճակագրական եզրակացության արտեֆակտ են:

Եթե մի խումբ պնդումներ կամ փաստեր աջակցում են միմյանց, ասվում է, որ դրանք համահունչ են:

Որպես արդյունք, համահունչ փաստերի հավաքածուն կարելի է հասկանալ մի համատեքստում, որն ընդգրկում է բոլոր փաստերը կամ մեծամասնությունը: «Խաղը թիմային մարզաձև է», «խաղը խաղում է գնդակով», և «խաղը հսկայական ֆիզիկական ջանք է պահանջում» բոլորը համահունչ փաստերի օրինակներ են:

Թեմայի մոդելավորման տարբեր մեթոդներ

Այս կրիտիկական ընթացակարգը կարող է իրականացվել տարբեր ալգորիթմների կամ մեթոդաբանությունների միջոցով: Դրանց թվում են.

Դիրիխլեի թաքնված տեղաբաշխում (LDA)
Ոչ բացասական մատրիցային ֆակտորիզացիա (NMF)
Թաքնված իմաստային վերլուծություն (LSA)
Հավանական թաքնված իմաստային վերլուծություն (pLSA)

Դիրիխլեի թաքնված տեղաբաշխում (LDA)

Կորպուսում մի քանի տեքստերի միջև փոխհարաբերությունները հայտնաբերելու համար օգտագործվում է Լատենտ Դիրիխլեի հատկացման վիճակագրական և գրաֆիկական հայեցակարգը:

Օգտագործելով Variational Exception Maximization (VEM) մոտեցումը, ստացվում է հավանականության ամենամեծ գնահատականը տեքստի ամբողջական կորպուսից:

ՍՊԸ

Ավանդաբար, բառերի տոպրակից ընտրվում են վերին մի քանի բառերը:

Այնուամենայնիվ, նախադասությունը լիովին անիմաստ է.

Այս տեխնիկայի համաձայն՝ յուրաքանչյուր տեքստ կներկայացվի առարկաների հավանականական բաշխմամբ, իսկ յուրաքանչյուր թեմա՝ բառերի հավանականական բաշխմամբ:

Ոչ բացասական մատրիցային ֆակտորիզացիա (NMF)

Ոչ բացասական արժեքներով մատրիցա ֆակտորիզացումը նորագույն առանձնահատկությունների արդյունահանման մոտեցում է:

Երբ կան շատ որակներ, և ատրիբուտները մշուշոտ են կամ վատ կանխատեսելիություն ունեն, NMF-ը շահավետ է: NMF-ը կարող է առաջացնել նշանակալի նախշեր, առարկաներ կամ թեմաներ՝ համատեղելով բնութագրերը:

Ոչ բացասական մատրիցային ֆակտորիզացիա

NMF-ն ստեղծում է յուրաքանչյուր հատկանիշ՝ որպես սկզբնական ատրիբուտների հավաքածուի գծային համադրություն:

Յուրաքանչյուր հատկանիշ պարունակում է մի շարք գործակիցներ, որոնք ներկայացնում են հատկանիշի վրա յուրաքանչյուր հատկանիշի կարևորությունը: Յուրաքանչյուր թվային հատկանիշ և յուրաքանչյուր կատեգորիայի հատկանիշի յուրաքանչյուր արժեք ունի իր գործակիցը:

Բոլոր գործակիցները դրական են։

Լատենտ իմաստային վերլուծություն

Դա մեկ այլ չվերահսկվող ուսուցման մեթոդ է, որն օգտագործվում է մի շարք փաստաթղթերում բառերի միջև ասոցիացիաներ հանելու համար, դա գաղտնի իմաստային վերլուծությունն է:

Սա օգնում է մեզ ընտրել համապատասխան փաստաթղթերը: Դրա հիմնական գործառույթն է նվազեցնել տեքստային տվյալների հսկայական կորպուսի ծավալականությունը:

Այս անհարկի տվյալները ծառայում են որպես ֆոնային աղմուկ՝ տվյալներից անհրաժեշտ պատկերացումներ ձեռք բերելու համար:

Լատենտ իմաստային վերլուծություն

Հավանական թաքնված իմաստային վերլուծություն (pLSA)

Հավանական թաքնված իմաստային վերլուծություն (PLSA), որը երբեմն հայտնի է որպես հավանական թաքնված իմաստային ինդեքսավորում (PLSI, հատկապես տեղեկատվության որոնման օղակներում), վիճակագրական մոտեցում է երկու ռեժիմի և համակցված տվյալների վերլուծության համար:

Իրականում, թաքնված իմաստային վերլուծության նման, որից առաջացել է PLSA-ն, դիտարկվող փոփոխականների ցածրաչափ ներկայացումը կարող է ստացվել որոշակի թաքնված փոփոխականների հետ նրանց հարաբերության առումով:

Հավանական թաքնված սենանտիկ վերլուծություն

Գործնականում Python-ում թեմաների մոդելավորում

Այժմ ես ձեզ կանցկացնեմ Python-ով առարկայական մոդելավորման առաջադրանքը ծրագրավորման լեզու օգտագործելով իրական աշխարհի օրինակ:

Ես մոդելավորելու եմ հետազոտական հոդվածներ: Տվյալների հավաքածուն, որը ես կօգտագործեմ այստեղ, գալիս է kaggle.com-ից: Այստեղից կարող եք հեշտությամբ ստանալ բոլոր այն ֆայլերը, որոնք ես օգտագործում եմ այս աշխատանքում էջ.

Եկեք սկսենք Python-ի օգտագործմամբ թեմայի մոդելավորումը՝ ներմուծելով բոլոր հիմնական գրադարանները.

Գրադարանների ներմուծում

Հետևյալ քայլը պետք է կարդալ բոլոր տվյալների հավաքածուները, որոնք ես կօգտագործեմ այս առաջադրանքում.

Կարդացեք Տվյալների հավաքածուն

Հետախուզական տվյալների վերլուծություն

EDA (հետախուզական տվյալների վերլուծություն) վիճակագրական մեթոդ է, որն օգտագործում է տեսողական տարրեր: Այն օգտագործում է վիճակագրական ամփոփագրեր և գրաֆիկական ներկայացումներ՝ միտումները, օրինաչափությունները և փորձարկման ենթադրությունները հայտնաբերելու համար:

Ես կանեմ որոշ հետախուզական տվյալների վերլուծություն՝ նախքան թեմայի մոդելավորումը սկսելը, որպեսզի տեսնեմ՝ արդյոք տվյալների մեջ կան որևէ օրինաչափություն կամ հարաբերություններ.

Գտեք գնացքների տվյալների հավաքածուի զրո արժեքները

Գնացքի զրոյական արժեքների ելք

Այժմ մենք կգտնենք թեստային տվյալների զրոյական արժեքները.

Գտեք թեստային տվյալների հավաքածուի զրոյական արժեքները

Փորձնական զրոյական արժեքների ելք

Այժմ ես կգծեմ հիստոգրամ և տուփի սխեման՝ փոփոխականների միջև կապը ստուգելու համար:

Դավադրություն

Հողամասի արդյունք 1

Գնացքի ամփոփագրերի նիշերի քանակը մեծապես տարբերվում է:

Գնացքում մենք ունենք նվազագույնը 54 և առավելագույնը 4551 նիշ: 1065-ը նիշերի միջին քանակն է:

Սյուժե 2

Հողամասի արդյունք 2

Թեստային հավաքածուն ավելի հետաքրքիր է թվում, քան ուսուցման հավաքածուն, քանի որ թեստային հավաքածուն ունի 46 նիշ, մինչդեռ ուսումնական հավաքածուն ունի 2841:

Արդյունքում, թեստային հավաքածուն ուներ 1058 նիշերի միջին, որը նման է ուսուցման հավաքածուին:

Սյուժե 3

Հողամասի արդյունք 3

Ուսումնական հավաքածուի բառերի թիվը հետևում է տառերի թվի նույն ձևին:

Թույլատրվում է նվազագույնը 8 բառ և առավելագույնը 665 բառ: Արդյունքում, բառերի միջին հաշվարկը 153 է:

Սյուժե 4

Հողամասի արդյունք 4

Պահանջվում է առնվազն յոթ բառ վերացական և առավելագույնը 452 բառ թեստային հավաքածուում:

Միջինը, այս դեպքում, 153 է, որը նույնական է մարզումների մեդիանին:

Թեմայի մոդելավորման համար պիտակների օգտագործումը

Կան թեմաների մոդելավորման մի քանի ռազմավարություններ: Այս վարժությունում ես կօգտագործեմ պիտակներ. եկեք տեսնենք, թե ինչպես դա անել՝ ուսումնասիրելով պիտակները.

Թեմայի մոդելավորման համար պիտակների օգտագործումը

Թեմայի մոդելավորման արդյունք

Թեմայի մոդելավորման կիրառություններ

Տեքստային ամփոփագիրը կարող է օգտագործվել փաստաթղթի կամ գրքի թեման տարբերելու համար:
Այն կարող է օգտագործվել քննությունների գնահատականից թեկնածուների կողմնակալությունը հեռացնելու համար:
Թեմայի մոդելավորումը կարող է օգտագործվել գրաֆիկի վրա հիմնված մոդելներում բառերի միջև իմաստային հարաբերություններ կառուցելու համար:
Այն կարող է բարելավել հաճախորդների սպասարկումը` հայտնաբերելով և պատասխանելով հաճախորդի հարցման հիմնաբառերին: Հաճախորդները ավելի շատ կհավատան ձեր հանդեպ, քանի որ դուք նրանց տրամադրել եք անհրաժեշտ օգնությունը համապատասխան պահին և առանց որևէ դժվարություն պատճառելու նրանց: Արդյունքում հաճախորդների հավատարմությունը կտրուկ աճում է, իսկ ընկերության արժեքը՝ մեծանում:

Եզրափակում

Թեմայի մոդելավորումը վիճակագրական մոդելավորման տեսակ է, որն օգտագործվում է տեքստերի հավաքածուում գոյություն ունեցող վերացական «առարկաները» բացահայտելու համար:

Դա վիճակագրական մոդելի ձև է, որն օգտագործվում է Machine Learning և բնական լեզվի մշակում` տեքստերի մի շարքում գոյություն ունեցող վերացական հասկացությունների բացահայտման համար:

Դա տեքստի արդյունահանման մեթոդ է, որը լայնորեն օգտագործվում է մարմնի տեքստում թաքնված իմաստային օրինաչափություններ գտնելու համար:

Թեմայի մոդելավորման ներածություն սկսնակների համար

Ի՞նչ է թեմայի մոդելավորումը: