Բառը[Թաքցնել][Ցուցադրում]
Համոզված եմ, որ դուք լսել եք արհեստական ինտելեկտի, ինչպես նաև այնպիսի բառերի մասին, ինչպիսիք են մեքենայական ուսուցումը և բնական լեզվի մշակումը (NLP):
Հատկապես, եթե դուք աշխատում եք մի ընկերությունում, որն ամեն օր զբաղվում է հարյուրավոր, եթե ոչ հազարավոր հաճախորդների հետ կապերով:
Սոցիալական մեդիայի հրապարակումների, էլ. նամակների, չաթերի, բաց հարցման պատասխանների և այլ աղբյուրների տվյալների վերլուծությունը պարզ գործընթաց չէ, և այն էլ ավելի դժվար է դառնում, երբ վստահվում է միայն մարդկանց:
Ահա թե ինչու շատ մարդիկ ոգևորված են ներուժով Արհեստական բանականություն իրենց ամենօրյա աշխատանքի և ձեռնարկությունների համար:
AI-ի վրա հիմնված տեքստի վերլուծությունը օգտագործում է մոտեցումների կամ ալգորիթմների լայն շրջանակ՝ լեզուն օրգանապես մեկնաբանելու համար, որոնցից մեկը թեմայի վերլուծությունն է, որն օգտագործվում է տեքստերից առարկաները ավտոմատ կերպով հայտնաբերելու համար:
Բիզնեսները կարող են օգտագործել թեմայի վերլուծության մոդելներ՝ հեշտ գործերը մեքենաների վրա փոխանցելու համար, այլ ոչ թե աշխատողներին չափազանց շատ տվյալներ բեռնաթափելու համար:
Մտածեք, թե որքան ժամանակ կարող է ձեր թիմը խնայել և հատկացնել ավելի կարևոր աշխատանքի, եթե համակարգիչը կարողանա ամեն առավոտ զտել հաճախորդների հարցումների կամ աջակցության խնդիրների անվերջ ցուցակները:
Այս ուղեցույցում մենք կանդրադառնանք թեմայի մոդելավորմանը, թեմայի մոդելավորման տարբեր մեթոդներին և ձեռք կբերենք գործնական փորձ դրա հետ:
Ի՞նչ է թեմայի մոդելավորումը:
Թեմայի մոդելավորումը տեքստի մայնինգի մի տեսակ է, որտեղ չվերահսկվող և վերահսկվող վիճակագրական տվյալները Machine Learning տեխնիկան օգտագործվում է կորպուսի կամ չկառուցված տեքստի զգալի ծավալի միտումները հայտնաբերելու համար:
Այն կարող է վերցնել ձեր հսկայական փաստաթղթերի հավաքածուն և օգտագործել նմանության մեթոդ՝ բառերը տերմինների կլաստերների դասավորելու և առարկաներ հայտնաբերելու համար:
Դա մի փոքր բարդ և դժվար է թվում, ուստի եկեք պարզեցնենք առարկայի մոդելավորման ընթացակարգը:
Ենթադրենք, որ դուք թերթ եք կարդում, որի ձեռքին գունավոր լուսարձակներ կան:
Մի՞թե դա հնաոճ չէ:
Ես հասկանում եմ, որ այս օրերին քչերն են տպագիր թերթ կարդում. ամեն ինչ թվային է, և լուսանցքները անցյալում են: Ձևացրու, թե քո հայրն է կամ մայրը:
Այսպիսով, երբ թերթ ես կարդում, կարևոր տերմիններն ես առանձնացնում։
Եվս մեկ ենթադրություն.
Դուք օգտագործում եք այլ երանգ՝ տարբեր թեմաների հիմնաբառերն ընդգծելու համար: Դուք դասակարգում եք հիմնաբառերը՝ կախված տրամադրված գույնից և թեմաներից:
Բառերի յուրաքանչյուր հավաքածու, որը նշված է որոշակի գույնով, տվյալ թեմայի հիմնաբառերի ցանկն է: Ձեր ընտրած տարբեր գույների քանակը ցույց է տալիս թեմաների քանակը:
Սա ամենահիմնական թեմայի մոդելավորումն է: Այն օգնում է տեքստային մեծ հավաքածուների ըմբռնմանը, կազմակերպմանը և ամփոփմանը:
Այնուամենայնիվ, հիշեք, որ արդյունավետ լինելու համար ավտոմատացված թեմայի մոդելները պահանջում են շատ բովանդակություն: Եթե դուք ունեք կարճ թուղթ, կարող եք գնալ հին դպրոց և օգտագործել լուսարձակներ:
Օգտակար է նաև որոշ ժամանակ հատկացնել տվյալներին ծանոթանալու համար: Սա ձեզ հիմնական պատկերացում կտա, թե ինչ պետք է գտնի թեմայի մոդելը:
Օրինակ, այդ օրագիրը կարող է լինել ձեր ներկա և նախկին հարաբերությունների մասին: Այսպիսով, ես ակնկալում եմ, որ իմ տեքստային մայնինգ ռոբոտ-ընկերը հանդես կգա նմանատիպ գաղափարներով:
Սա կարող է օգնել ձեզ ավելի լավ վերլուծել ձեր նշած առարկաների որակը և, անհրաժեշտության դեպքում, շտկել հիմնաբառերի հավաքածուները:
Թեմայի մոդելավորման բաղադրիչները
Հավանական մոդել
Պատահական փոփոխականները և հավանականության բաշխումները ներառված են հավանականական մոդելներում իրադարձության կամ երևույթի ներկայացման մեջ:
Դետերմինիստական մոդելը տրամադրում է իրադարձության մեկ պոտենցիալ եզրակացություն, մինչդեռ հավանականական մոդելը տալիս է հավանականության բաշխում որպես լուծում:
Այս մոդելները հաշվի են առնում այն իրականությունը, որ մենք հազվադեպ ենք իրավիճակի ամբողջական իմացություն: Գրեթե միշտ կա պատահականության տարր, որը պետք է դիտարկել:
Օրինակ, կյանքի ապահովագրությունը հիմնված է այն իրականության վրա, որ մենք գիտենք, որ կմահանանք, բայց չգիտենք, թե երբ: Այս մոդելները կարող են լինել մասամբ դետերմինիստական, մասամբ պատահական կամ ամբողջովին պատահական:
Տեղեկատվության որոնում
Տեղեկատվության որոնումը (IR) ծրագրային ծրագիր է, որը կազմակերպում, պահպանում, առբերում և գնահատում է փաստաթղթերի պահոցներից, մասնավորապես՝ տեքստային տեղեկատվությունը:
Տեխնոլոգիան օգնում է օգտատերերին բացահայտել իրենց անհրաժեշտ տեղեկատվությունը, սակայն այն հստակ չի տալիս նրանց հարցումների պատասխանները: Այն տեղեկացնում է փաստաթղթերի առկայության և գտնվելու մասին, որոնք կարող են տրամադրել անհրաժեշտ տեղեկատվություն:
Համապատասխան փաստաթղթերն այն փաստաթղթերն են, որոնք բավարարում են օգտագործողի կարիքները: Անթերի IR համակարգը կվերադարձնի միայն ընտրված փաստաթղթերը:
Թեմայի համախմբվածություն
Թեմայի համախմբումը գնահատում է մեկ թեմա՝ հաշվարկելով թեմայի բարձր գնահատական ունեցող տերմինների իմաստային նմանության աստիճանը: Այս չափիչները օգնում են տարբերակել առարկաները, որոնք իմաստային կերպով մեկնաբանելի են և թեմաները, որոնք վիճակագրական եզրակացության արտեֆակտ են:
Եթե մի խումբ պնդումներ կամ փաստեր աջակցում են միմյանց, ասվում է, որ դրանք համահունչ են:
Որպես արդյունք, համահունչ փաստերի հավաքածուն կարելի է հասկանալ մի համատեքստում, որն ընդգրկում է բոլոր փաստերը կամ մեծամասնությունը: «Խաղը թիմային մարզաձև է», «խաղը խաղում է գնդակով», և «խաղը հսկայական ֆիզիկական ջանք է պահանջում» բոլորը համահունչ փաստերի օրինակներ են:
Թեմայի մոդելավորման տարբեր մեթոդներ
Այս կրիտիկական ընթացակարգը կարող է իրականացվել տարբեր ալգորիթմների կամ մեթոդաբանությունների միջոցով: Դրանց թվում են.
- Դիրիխլեի թաքնված տեղաբաշխում (LDA)
- Ոչ բացասական մատրիցային ֆակտորիզացիա (NMF)
- Թաքնված իմաստային վերլուծություն (LSA)
- Հավանական թաքնված իմաստային վերլուծություն (pLSA)
Դիրիխլեի թաքնված տեղաբաշխում (LDA)
Կորպուսում մի քանի տեքստերի միջև փոխհարաբերությունները հայտնաբերելու համար օգտագործվում է Լատենտ Դիրիխլեի հատկացման վիճակագրական և գրաֆիկական հայեցակարգը:
Օգտագործելով Variational Exception Maximization (VEM) մոտեցումը, ստացվում է հավանականության ամենամեծ գնահատականը տեքստի ամբողջական կորպուսից:
Ավանդաբար, բառերի տոպրակից ընտրվում են վերին մի քանի բառերը:
Այնուամենայնիվ, նախադասությունը լիովին անիմաստ է.
Այս տեխնիկայի համաձայն՝ յուրաքանչյուր տեքստ կներկայացվի առարկաների հավանականական բաշխմամբ, իսկ յուրաքանչյուր թեմա՝ բառերի հավանականական բաշխմամբ:
Ոչ բացասական մատրիցային ֆակտորիզացիա (NMF)
Ոչ բացասական արժեքներով մատրիցա ֆակտորիզացումը նորագույն առանձնահատկությունների արդյունահանման մոտեցում է:
Երբ կան շատ որակներ, և ատրիբուտները մշուշոտ են կամ վատ կանխատեսելիություն ունեն, NMF-ը շահավետ է: NMF-ը կարող է առաջացնել նշանակալի նախշեր, առարկաներ կամ թեմաներ՝ համատեղելով բնութագրերը:
NMF-ն ստեղծում է յուրաքանչյուր հատկանիշ՝ որպես սկզբնական ատրիբուտների հավաքածուի գծային համադրություն:
Յուրաքանչյուր հատկանիշ պարունակում է մի շարք գործակիցներ, որոնք ներկայացնում են հատկանիշի վրա յուրաքանչյուր հատկանիշի կարևորությունը: Յուրաքանչյուր թվային հատկանիշ և յուրաքանչյուր կատեգորիայի հատկանիշի յուրաքանչյուր արժեք ունի իր գործակիցը:
Բոլոր գործակիցները դրական են։
Լատենտ իմաստային վերլուծություն
Դա մեկ այլ չվերահսկվող ուսուցման մեթոդ է, որն օգտագործվում է մի շարք փաստաթղթերում բառերի միջև ասոցիացիաներ հանելու համար, դա գաղտնի իմաստային վերլուծությունն է:
Սա օգնում է մեզ ընտրել համապատասխան փաստաթղթերը: Դրա հիմնական գործառույթն է նվազեցնել տեքստային տվյալների հսկայական կորպուսի ծավալականությունը:
Այս անհարկի տվյալները ծառայում են որպես ֆոնային աղմուկ՝ տվյալներից անհրաժեշտ պատկերացումներ ձեռք բերելու համար:
Հավանական թաքնված իմաստային վերլուծություն (pLSA)
Հավանական թաքնված իմաստային վերլուծություն (PLSA), որը երբեմն հայտնի է որպես հավանական թաքնված իմաստային ինդեքսավորում (PLSI, հատկապես տեղեկատվության որոնման օղակներում), վիճակագրական մոտեցում է երկու ռեժիմի և համակցված տվյալների վերլուծության համար:
Իրականում, թաքնված իմաստային վերլուծության նման, որից առաջացել է PLSA-ն, դիտարկվող փոփոխականների ցածրաչափ ներկայացումը կարող է ստացվել որոշակի թաքնված փոփոխականների հետ նրանց հարաբերության առումով:
Գործնականում Python-ում թեմաների մոդելավորում
Այժմ ես ձեզ կանցկացնեմ Python-ով առարկայական մոդելավորման առաջադրանքը ծրագրավորման լեզու օգտագործելով իրական աշխարհի օրինակ:
Ես մոդելավորելու եմ հետազոտական հոդվածներ: Տվյալների հավաքածուն, որը ես կօգտագործեմ այստեղ, գալիս է kaggle.com-ից: Այստեղից կարող եք հեշտությամբ ստանալ բոլոր այն ֆայլերը, որոնք ես օգտագործում եմ այս աշխատանքում էջ.
Եկեք սկսենք Python-ի օգտագործմամբ թեմայի մոդելավորումը՝ ներմուծելով բոլոր հիմնական գրադարանները.
Հետևյալ քայլը պետք է կարդալ բոլոր տվյալների հավաքածուները, որոնք ես կօգտագործեմ այս առաջադրանքում.
Հետախուզական տվյալների վերլուծություն
EDA (հետախուզական տվյալների վերլուծություն) վիճակագրական մեթոդ է, որն օգտագործում է տեսողական տարրեր: Այն օգտագործում է վիճակագրական ամփոփագրեր և գրաֆիկական ներկայացումներ՝ միտումները, օրինաչափությունները և փորձարկման ենթադրությունները հայտնաբերելու համար:
Ես կանեմ որոշ հետախուզական տվյալների վերլուծություն՝ նախքան թեմայի մոդելավորումը սկսելը, որպեսզի տեսնեմ՝ արդյոք տվյալների մեջ կան որևէ օրինաչափություն կամ հարաբերություններ.
Այժմ մենք կգտնենք թեստային տվյալների զրոյական արժեքները.
Այժմ ես կգծեմ հիստոգրամ և տուփի սխեման՝ փոփոխականների միջև կապը ստուգելու համար:
Գնացքի ամփոփագրերի նիշերի քանակը մեծապես տարբերվում է:
Գնացքում մենք ունենք նվազագույնը 54 և առավելագույնը 4551 նիշ: 1065-ը նիշերի միջին քանակն է:
Թեստային հավաքածուն ավելի հետաքրքիր է թվում, քան ուսուցման հավաքածուն, քանի որ թեստային հավաքածուն ունի 46 նիշ, մինչդեռ ուսումնական հավաքածուն ունի 2841:
Արդյունքում, թեստային հավաքածուն ուներ 1058 նիշերի միջին, որը նման է ուսուցման հավաքածուին:
Ուսումնական հավաքածուի բառերի թիվը հետևում է տառերի թվի նույն ձևին:
Թույլատրվում է նվազագույնը 8 բառ և առավելագույնը 665 բառ: Արդյունքում, բառերի միջին հաշվարկը 153 է:
Պահանջվում է առնվազն յոթ բառ վերացական և առավելագույնը 452 բառ թեստային հավաքածուում:
Միջինը, այս դեպքում, 153 է, որը նույնական է մարզումների մեդիանին:
Թեմայի մոդելավորման համար պիտակների օգտագործումը
Կան թեմաների մոդելավորման մի քանի ռազմավարություններ: Այս վարժությունում ես կօգտագործեմ պիտակներ. եկեք տեսնենք, թե ինչպես դա անել՝ ուսումնասիրելով պիտակները.
Թեմայի մոդելավորման կիրառություններ
- Տեքստային ամփոփագիրը կարող է օգտագործվել փաստաթղթի կամ գրքի թեման տարբերելու համար:
- Այն կարող է օգտագործվել քննությունների գնահատականից թեկնածուների կողմնակալությունը հեռացնելու համար:
- Թեմայի մոդելավորումը կարող է օգտագործվել գրաֆիկի վրա հիմնված մոդելներում բառերի միջև իմաստային հարաբերություններ կառուցելու համար:
- Այն կարող է բարելավել հաճախորդների սպասարկումը` հայտնաբերելով և պատասխանելով հաճախորդի հարցման հիմնաբառերին: Հաճախորդները ավելի շատ կհավատան ձեր հանդեպ, քանի որ դուք նրանց տրամադրել եք անհրաժեշտ օգնությունը համապատասխան պահին և առանց որևէ դժվարություն պատճառելու նրանց: Արդյունքում հաճախորդների հավատարմությունը կտրուկ աճում է, իսկ ընկերության արժեքը՝ մեծանում:
Եզրափակում
Թեմայի մոդելավորումը վիճակագրական մոդելավորման տեսակ է, որն օգտագործվում է տեքստերի հավաքածուում գոյություն ունեցող վերացական «առարկաները» բացահայտելու համար:
Դա վիճակագրական մոդելի ձև է, որն օգտագործվում է Machine Learning և բնական լեզվի մշակում` տեքստերի մի շարքում գոյություն ունեցող վերացական հասկացությունների բացահայտման համար:
Դա տեքստի արդյունահանման մեթոդ է, որը լայնորեն օգտագործվում է մարմնի տեքստում թաքնված իմաստային օրինաչափություններ գտնելու համար:
Թողնել գրառում