Жаңы баштагандар үчүн тема моделдөөсүнө киришүү

Мазмуну[Жашыруу][Көрсөтүү]

Теманы моделдөө деген эмне?
Теманы моделдөөнүн компоненттери+-
- Ыктималдуу модель
- Маалыматтык издөө
Теманы моделдөөнүн ар кандай ыкмалары+-
Python тилинде темаларды моделдөө менен практикалык иш-чаралар+-
- Чалгындоо маалыматтарын талдоо
- Теманы моделдөө үчүн тегдерди колдонуу
Темаларды моделдөөнүн колдонмолору
жыйынтыктоо

Сиз жасалма интеллект, ошондой эле машина үйрөнүү жана табигый тилди иштетүү (NLP) сыяктуу сөздөрдү укканыңызга ишенем.

Айрыкча, эгер сиз күн сайын жүздөгөн, болбосо миңдеген кардар байланыштарын тейлеген фирмада иштесеңиз.

Социалдык тармактардагы жарыялардын, электрондук каттардын, чаттардын, ачык сурамжылоонун жоопторунун жана башка булактардын маалыматтарын талдоо жөнөкөй процесс эмес жана адамдарга гана ишенип берилгенде ого бетер кыйындайт.

Ошондуктан көптөгөн адамдар потенциалына шыктанышат Жасалма интеллект алардын кунделук иштери учун жана ишканалар учун .

AI менен иштеген текстти талдоо тилди органикалык чечмелөө үчүн кеңири ыкмаларды же алгоритмдерди колдонот, алардын бири - теманы талдоо, ал тексттерден предметтерди автоматтык түрдө табуу үчүн колдонулат.

Ишкерлер теманы талдоо моделдерин өтө көп маалымат менен жумушчуларга жүктөөнүн ордуна жеңил жумуштарды машиналарга өткөрүп берүү үчүн колдоно алышат.

Эгерде компьютер күн сайын эртең менен кардарларды сурамжылоолордун чексиз тизмелерин же колдоо маселелерин чыпкалай алса, сиздин командаңыз канча убакытты үнөмдөп, көбүрөөк маанилүү ишке жумшаарын карап көрүңүз.

Бул колдонмодо биз теманы моделдештирүү, теманы моделдөөнүн ар кандай ыкмаларын карап чыгабыз жана аны менен практикалык тажрыйбага ээ болобуз.

Теманы моделдөө деген эмне?

Темаларды моделдөө - бул көзөмөлсүз жана көзөмөлдөнгөн статистикалык текстти иштетүүнүн бир түрү машина үйрөнүү методдор корпустагы тенденцияларды же структураланбаган тексттин олуттуу көлөмүн аныктоо үчүн колдонулат.

Бул сиздин ири документтердин коллекциясын алып, сөздөрдү терминдердин кластерлерине жайгаштыруу жана предметтерди ачуу үчүн окшоштук ыкмасын колдоно алат.

Бул бир аз татаал жана оор көрүнөт, андыктан предметти моделдөө процедурасын жөнөкөйлөтүп көрөлү!

Колуңузда түстүү фалайтерлердин топтому менен гезит окуп жатасыз дейли.

Бул эски модада эмеспи?

Мен түшүнөм, бул күндөрү басма сөздөн гезит окугандар аз; баары санарип, ал эми хайлайтерлер өткөн нерсе! Атаң же апаңдай көрүнгүлө!

Демек, гезитти окуганда маанилүү терминдерди баса белгилейсиң.

Дагы бир божомол!

Ар кандай темалардын ачкыч сөздөрүнө басым жасоо үчүн башка түстү колдоносуз. Сиз берилген түскө жана темаларга жараша ачкыч сөздөрдү категорияга бөлөсүз.

Белгилүү бир түс менен белгиленген сөздөрдүн ар бир жыйнагы берилген тема үчүн ачкыч сөздөрдүн тизмеси болуп саналат. Сиз тандаган ар кандай түстөрдүн саны темалардын санын көрсөтөт.

Бул эң негизги тема моделдөө. Бул чоң текст жыйнактарын түшүнүүгө, уюштурууга жана жыйынтыктоого жардам берет.

Бирок, эффективдүү болушу үчүн, автоматташтырылган тема моделдери көп мазмунду талап кылаарын унутпаңыз. Эгер сизде кыска кагаз болсо, анда сиз эски мектепке барып, хайлайтерлерди колдонгуңуз келиши мүмкүн!

Маалыматтар менен таанышууга бир аз убакыт бөлүү да пайдалуу. Бул сизге тема модели эмнени табышы керектиги жөнүндө негизги түшүнүк берет.

Мисалы, ал күндөлүк сиздин азыркы жана мурунку мамилелериңиз жөнүндө болушу мүмкүн. Ошентип, мен өзүмдүн текстти иштетүүчү робот-досумдун ушундай идеяларды ойлоп табышын күтөт элем.

Бул сиз аныктаган предметтердин сапатын жакшыраак талдап чыгууга жана зарыл болсо, ачкыч сөздөр топтомун чыңдоого жардам берет.

Теманы моделдөөнүн компоненттери

Ыктималдуу модель

Кокус өзгөрмөлөр жана ыктымалдык бөлүштүрүү ыктымалдык моделдердеги окуянын же кубулуштун чагылдырылышына киргизилет.

Детерминисттик модель окуя үчүн бирдиктүү потенциалдуу корутундуну камсыз кылат, ал эми ыктымалдык модели чечим катары ыктымалдык бөлүштүрүүнү камсыз кылат.

Бул моделдер биз сейрек кырдаал жөнүндө толук билимге ээ болгон чындыкты эске алат. Кокустуктун бир элементи дээрлик дайыма эске алынат.

Мисалы, өмүрдү камсыздандыруу биз өлөөрүбүздү биле турган чындыкка негизделет, бирок качан болорун билбейбиз. Бул моделдер жарым-жартылай детерминисттик, жарым-жартылай кокустук же толугу менен кокустук болушу мүмкүн.

Маалыматтык издөө

Маалымат издөө (IR) - бул документ репозиторийлеринен маалыматты, өзгөчө тексттик маалыматты уюштурган, сактаган, издөөчү жана баалоочу программалык камсыздоо.

Технология колдонуучуларга керектүү маалыматты табууга жардам берет, бирок алардын суроолоруна так жооп бербейт. Ал керектүү маалыматты бере турган кагаздардын бар экендиги жана жайгашкан жери жөнүндө кабарлайт.

Тиешелүү документтер колдонуучунун муктаждыктарына жооп берген документтер болуп саналат. Кемчиликсиз IR системасы тандалган документтерди гана кайтарат.

Тема шайкештиги

Теманын ырааттуулугу теманын жогорку балл алган терминдеринин ортосундагы семантикалык окшоштук даражасын эсептөө менен бир темага упай берет. Бул көрсөткүчтөр семантикалык жактан чечмеленүүчү предметтерди жана статистикалык тыянак артефакты болгон темаларды айырмалоого жардам берет.

Эгерде дооматтардын же фактылардын тобу бири-бирин колдосо, алар ырааттуу деп айтылат.

Натыйжада, бирдиктүү фактылар топтому фактылардын бардыгын же көпчүлүгүн камтыган контекстте түшүнүүгө болот. «Оюн – бул командалык спорт», «оюн топ менен ойнолот» жана «оюн абдан чоң физикалык күч-аракетти талап кылат» - мунун баары бирдиктүү фактылардын мисалдары.

Теманы моделдөөнүн ар кандай ыкмалары

Бул маанилүү жол-жобосу ар кандай алгоритмдер же методологиялар менен ишке ашырылышы мүмкүн. Алардын арасында:

Жашыруун Дирихлет бөлүштүрүү (LDA)
Терс эмес матрицалык факторизация (NMF)
Жашыруун семантикалык анализ (LSA)
Ыктымалдык жашыруун семантикалык анализ (pLSA)

Жашыруун Дирихлет бөлүштүрүү (LDA)

Корпустун бир нече тексттеринин ортосундагы мамилелерди аныктоо үчүн, Latent Dirichlet Allocation статистикалык жана графикалык концепциясы колдонулат.

Variational Exception Maximization (VEM) ыкмасын колдонуу менен, тексттин толук корпусунан эң чоң ыктымалдык баа берилет.

LTD

Салт боюнча, бир баштык сөздөрдүн эң жогорку бир нече сөзү тандалат.

Бирок, сүйлөм толугу менен маанисиз.

Бул ыкмага ылайык, ар бир текст предметтердин ыктымалдык бөлүштүрүлүшү менен, ал эми ар бир тема сөздөрдүн ыктымалдык бөлүштүрүлүшү менен көрсөтүлөт.

Терс эмес матрицалык факторизация (NMF)

Терс эмес маанилер менен матрицаны факторизациялоо – өзгөчөлүктөрдү чыгаруунун эң алдыңкы ыкмасы.

Көптөгөн сапаттар жана атрибуттар бүдөмүк же алдын ала айтуу начар болгондо, NMF пайдалуу. NMF мүнөздөмөлөрдү айкалыштыруу менен маанилүү үлгүлөрдү, предметтерди же темаларды жаратышы мүмкүн.

Терс эмес матрицалык факторизация

NMF ар бир функцияны баштапкы атрибуттар топтомунун сызыктуу айкалышы катары жаратат.

Ар бир өзгөчөлүк өзгөчөлүктөгү ар бир атрибуттун маанилүүлүгүн билдирген коэффициенттердин жыйындысын камтыйт. Ар бир сандык атрибут жана ар бир категория атрибутунун ар бир мааниси өзүнүн коэффициентине ээ.

Бардык коэффициенттер оң.

Латенттик семантикалык анализ

Документтердин топтомундагы сөздөрдүн ортосундагы байланыштарды алуу үчүн колдонулган дагы бир көзөмөлсүз окутуу ыкмасы - жашыруун семантикалык анализ.

Бул бизге туура документтерди тандоого жардам берет. Анын негизги милдети тексттик маалыматтардын эбегейсиз корпусунун өлчөмдүүлүгүн азайтуу болуп саналат.

Бул керексиз маалыматтар маалыматтардан керектүү түшүнүктөрдү алууда фондо ызы-чуу болуп кызмат кылат.

Латенттик семантикалык анализ

Ыктымалдык жашыруун семантикалык анализ (pLSA)

Ыктымал жашыруун семантикалык анализ (PLSA), кээде ыктымалдык жашыруун семантикалык индекстөө (PLSI, өзгөчө маалымат издөө чөйрөлөрүндө) катары белгилүү, эки режимдүү жана биргелешип пайда болгон маалыматтарды талдоо үчүн статистикалык ыкма болуп саналат.

Чынында, PLSA пайда болгон жашыруун семантикалык анализге окшош, байкалган өзгөрмөлөрдүн аз өлчөмдүү өкүлчүлүгү алардын белгилүү бир жашыруун өзгөрмөлөргө жакындыгы боюнча алынышы мүмкүн.

Ыктымалдык жашыруун сенантикалык анализ

Python тилинде темаларды моделдөө менен практикалык иш-чаралар

Эми мен сизге Python менен предметтик моделдөө тапшырмасын аткарам программалоо тили реалдуу дүйнөнүн мисалын колдонуу.

Мен илимий макалаларды моделдейм. Мен бул жерде колдоно турган маалымат топтому kaggle.com сайтынан алынган. Бул иште мен колдонуп жаткан файлдардын баарын ушундан оңой ала аласыз бет.

Келгиле, бардык керектүү китепканаларды импорттоо менен Python аркылуу Темаларды моделдөө менен баштайлы:

Китепканаларды импорттоо

Төмөнкү кадам мен бул тапшырмада колдоно турган бардык маалымат топтомдорун окуу:

Маалыматтар топтомун окуңуз

Чалгындоо маалыматтарын талдоо

EDA (Exploratory Data Analysis) – бул визуалдык элементтерди колдонгон статистикалык ыкма. Ал тенденцияларды, үлгүлөрдү жана тесттик божомолдорду табуу үчүн статистикалык жыйынтыктарды жана графикалык өкүлчүлүктөрдү колдонот.

Берилиштерде кандайдыр бир калыптар же мамилелер бар же жок экенин билүү үчүн теманы моделдештирүү баштаардан мурун мен бир аз чалгындоо маалыматтарын талдоо жасайм:

Поезддин маалымат топтомунун нөлдүк маанилерин табыңыз

Поезддин нөлдүк маанилеринин чыгышы

Эми биз тесттик маалымат топтомунун нөлдүк маанилерин табабыз:

Сыноодогу маалыматтар топтомунун нөлдүк маанилерин табыңыз

Сынактын нөл маанилеринин чыгышы

Эми мен өзгөрмөлөрдүн ортосундагы байланышты текшерүү үчүн гистограмманы жана кутучаны түзөм.

курушу

Графиктин натыйжасы 1

Поезддин аннотациялар топтомундагы каармандардын саны абдан өзгөрүп турат.

Поездде бизде минимум 54, эң көп дегенде 4551 белги бар. 1065 - символдордун орточо саны.

Сюжет 2

Графиктин натыйжасы 2

Тесттер топтому окуу топтомуна караганда кызыктуураак окшойт, анткени тест топтомунда 46 белги, ал эми окуу топтомунда 2841 белги бар.

Натыйжада, тесттик топтом 1058 белгиден турган медианага ээ болду, бул окуу топтомуна окшош.

Сюжет 3

Сюжеттин натыйжасы 3

Окутуучу топтомдогу сөздөрдүн саны тамгалардын санына окшош схемага ылайык келет.

Минималдуу 8 сөз, эң көп дегенде 665 сөзгө уруксат берилет. Натыйжада, медианалык сөздөрдүн саны 153 болуп саналат.

Сюжет 4

Графиктин натыйжасы 4

Рефератта кеминде жети сөз жана тесттик топтомдо эң көп дегенде 452 сөз болушу керек.

Бул учурда медиана 153 болуп саналат, бул машыгуу топтомундагы медианага окшош.

Теманы моделдөө үчүн тегдерди колдонуу

Бир нече тема моделдөө стратегиялары бар. Мен бул көнүгүүдө тегдерди колдоном; келгиле, тегдерди карап, муну кантип жасоону карап көрөлү:

Теманы моделдөө үчүн тегдерди колдонуу

Теманы моделдөөнүн натыйжасы

Темаларды моделдөөнүн колдонмолору

Тексттик кыскача документтин же китептин темасын аныктоо үчүн колдонулушу мүмкүн.
Бул экзамен баллынан талапкердин бир жактуулугун алып салуу үчүн колдонулушу мүмкүн.
Графикке негизделген моделдердеги сөздөрдүн ортосундагы семантикалык мамилелерди куруу үчүн теманы моделдөө колдонулушу мүмкүн.
Ал кардардын суроосуна ачкыч сөздөрдү таап, аларга жооп берүү менен кардарларды тейлөөнү жакшыртат. Кардарлар сизге көбүрөөк ишенишет, анткени сиз аларга керектүү учурда керектүү жардамды берип, аларга эч кандай кыйынчылык жаратпайсыз. Натыйжада, кардарлардын лоялдуулугу кескин жогорулап, компаниянын баалуулугу жогорулайт.

жыйынтыктоо

Темаларды моделдөө – бул тексттердин жыйнагында бар абстрактуу “предметтерди” ачуу үчүн колдонулган статистикалык моделдөөнүн бир түрү.

Бул колдонулган статистикалык моделдин бир түрү машина үйрөнүү жана тексттердин жыйындысында бар абстрактуу түшүнүктөрдү ачуу үчүн табигый тилди иштетүү.

Бул текстти казып алуу ыкмасы, ал тексттин жашыруун семантикалык үлгүлөрүн табуу үчүн кеңири колдонулат.

Жаңы баштагандар үчүн тема моделдөө киришүү

Теманы моделдөө деген эмне?