Гарчиг[Нуух][Үзүүлэх]
Та хиймэл оюун ухаан, түүнчлэн машин сурах, байгалийн хэл боловсруулах (NLP) гэх мэт үгсийн талаар сонссон гэдэгт итгэлтэй байна.
Ялангуяа та өдөр бүр хэдэн зуун, магадгүй мянга мянган харилцагчтай харьцдаг пүүст ажилладаг бол.
Олон нийтийн мэдээллийн хэрэгсэл, цахим шуудан, чат, нээлттэй санал асуулгын хариулт болон бусад эх сурвалжийн мэдээлэлд дүн шинжилгээ хийх нь энгийн процесс биш бөгөөд зөвхөн хүмүүст итгэмжлэгдсэн тохиолдолд бүр ч хэцүү болдог.
Тийм ч учраас олон хүмүүс боломжийн талаар урам зоригтой байдаг хиймэл оюун тэдний өдөр тутмын ажилд болон аж ахуйн нэгжүүдэд .
Хиймэл оюун ухаантай текстийн шинжилгээ нь хэлийг органик байдлаар тайлбарлахын тулд өргөн хүрээний арга барил эсвэл алгоритмыг ашигладаг бөгөөд тэдгээрийн нэг нь текстээс сэдвийг автоматаар илрүүлэхэд ашигладаг сэдвийн шинжилгээ юм.
Бизнесүүд хэт их өгөгдөлтэй ажилчдыг ачаалахын оронд хялбар ажлуудыг машинд шилжүүлэхийн тулд сэдвийн шинжилгээний загварыг ашиглаж болно.
Хэрэв компьютер өглөө бүр хэрэглэгчийн санал асуулга эсвэл дэмжлэгийн асуудлын төгсгөлгүй жагсаалтыг шүүж чадвал танай баг хэр их цагийг хэмнэж, илүү чухал ажилд зориулах талаар бодож үзээрэй.
Энэхүү гарын авлагад бид сэдвийн загварчлал, сэдвийг загварчлах янз бүрийн аргуудыг судалж, практик туршлага олж авах болно.
Сэдвийн загварчлал гэж юу вэ?
Сэдвийн загварчлал гэдэг нь статистикийн хяналтгүй, хяналтгүй байдаг текст олборлолтын нэг төрөл юм машин суралцах техникийг корпус эсвэл ихээхэн хэмжээний бүтэцгүй текстийн чиг хандлагыг илрүүлэхэд ашигладаг.
Энэ нь таны асар их баримт бичгийн цуглуулгыг авч, ижил төстэй аргыг ашиглан үгсийг нэр томьёоны бүлэг болгон цэгцэлж, сэдвүүдийг олж илрүүлэх боломжтой.
Энэ нь жаахан төвөгтэй бөгөөд хэцүү мэт санагдаж байгаа тул сэдвийг загварчлах процедурыг хялбаршуулж үзье!
Та гартаа өнгөт тодруулагчтай сонин уншиж байна гэж бодъё.
Энэ чинь хуучинсаг юм биш үү?
Өнөө үед цөөн хүн сонин хэвлэл уншдаг гэдгийг би ойлгож байна; Бүх зүйл дижитал, тодруулагч нь өнгөрсөн зүйл юм! Аав эсвэл ээжийнхээ дүрд хувир!
Тиймээс та сонин уншиж байхдаа чухал нэр томъёог онцлон тэмдэглэдэг.
Өөр нэг таамаглал!
Та янз бүрийн сэдвүүдийн түлхүүр үгсийг онцлохын тулд өөр өнгө ашигладаг. Та өгсөн өнгө, сэдвээс хамааран түлхүүр үгсийг ангилдаг.
Тодорхой өнгөөр тэмдэглэгдсэн үгсийн цуглуулга бүр нь тухайн сэдвийн түлхүүр үгсийн жагсаалт юм. Таны сонгосон өнгөний хэмжээ нь сэдвүүдийн тоог харуулдаг.
Энэ бол сэдвийн загварчлалын хамгийн үндсэн загвар юм. Энэ нь том текстийн цуглуулгыг ойлгох, зохион байгуулах, нэгтгэн дүгнэхэд тусалдаг.
Гэсэн хэдий ч үр дүнтэй байхын тулд автоматжуулсан сэдвийн загварууд нь маш их контент шаарддаг гэдгийг санаарай. Хэрэв танд богино хэмжээний цаас байгаа бол хуучин сургуульдаа явж, тодруулагч хэрэглээрэй!
Өгөгдөлтэй танилцахад багагүй хугацаа зарцуулах нь бас ашигтай. Энэ нь тухайн сэдвийн загвар юу олох ёстой талаар үндсэн ойлголт өгөх болно.
Жишээлбэл, өдрийн тэмдэглэл нь таны одоогийн болон өмнөх харилцааны тухай байж болно. Тиймээс би өөрийн текст олборлогч робот-нөхөртөө үүнтэй төстэй санаануудыг гаргана гэж найдаж байна.
Энэ нь таны тодорхойлсон сэдвүүдийн чанарыг илүү сайн шинжлэхэд тусалж, шаардлагатай бол түлхүүр үгийн багцыг өөрчлөхөд тусална.
Сэдвийн загварчлалын бүрэлдэхүүн хэсгүүд
Магадлалын загвар
Санамсаргүй хувьсагч ба магадлалын тархалтыг магадлалын загварт үйл явдал, үзэгдлийн дүрслэлд оруулсан болно.
Детерминистик загвар нь үйл явдлын нэг боломжит дүгнэлтийг өгдөг бол магадлалын загвар нь магадлалын тархалтыг шийдлээр хангадаг.
Эдгээр загварууд нь бид нөхцөл байдлын талаар бүрэн мэдлэгтэй байх нь ховор байдаг бодит байдлыг авч үздэг. Бараг үргэлж санамсаргүй байдлын элементийг анхаарч үзэх хэрэгтэй.
Жишээлбэл, амьдралын даатгал нь бид үхнэ гэдгээ мэддэг боловч хэзээ үхэхээ мэдэхгүй байгаа бодит байдалд тулгуурладаг. Эдгээр загварууд нь хэсэгчлэн тодорхойлогч, хэсэгчлэн санамсаргүй эсвэл бүхэлдээ санамсаргүй байж болно.
Мэдээллийн хайлт
Мэдээллийн эрэл хайгуул (IR) нь баримт бичгийн агуулахаас мэдээлэл, ялангуяа текстэн мэдээллийг цэгцлэх, хадгалах, сэргээх, үнэлэх програм хангамжийн програм юм.
Энэхүү технологи нь хэрэглэгчдэд хэрэгцээтэй мэдээллээ олж илрүүлэхэд тусалдаг боловч тэдний асуултын хариултыг тодорхой өгдөггүй. Энэ нь шаардлагатай мэдээллээр хангаж болох бичиг баримт байгаа эсэх, байршлын талаар мэдэгдэнэ.
Холбогдох баримт бичиг нь хэрэглэгчийн хэрэгцээнд нийцсэн баримт бичиг юм. Алдаагүй IR систем нь зөвхөн сонгосон баримт бичгүүдийг буцаана.
Сэдвийн уялдаа холбоо
Сэдвийн уялдаа холбоо нь тухайн сэдвийн өндөр оноо авсан нэр томьёоны утгын ижил төстэй байдлын зэргийг тооцож нэг сэдвийг онооно. Эдгээр хэмжүүрүүд нь утгын хувьд тайлбарлах боломжтой сэдвүүд болон статистикийн дүгнэлтийн олдвор болох сэдвүүдийг хооронд нь ялгахад тусалдаг.
Хэрэв хэсэг бүлэг нэхэмжлэл, баримтууд бие биенээ дэмжиж байвал тэдгээрийг уялдаа холбоотой гэж үздэг.
Үүний үр дүнд нэгдмэл баримтыг бүхэлд нь эсвэл ихэнх баримтыг багтаасан нөхцөл байдалд ойлгож болно. "Тоглоом бол багийн спорт", "тоглоомыг бөмбөгөөр тоглодог", "тоглоом нь асар их биеийн хүч чармайлт шаарддаг" зэрэг нь нэгдмэл баримтуудын жишээ юм.
Сэдвийн загварчлалын янз бүрийн аргууд
Энэхүү чухал процедурыг янз бүрийн алгоритм эсвэл арга зүйгээр гүйцэтгэж болно. Тэдгээрийн дотор:
- Далд Дирихлет хуваарилалт (LDA)
- Сөрөг бус матрицын хүчин зүйлчлэл (NMF)
- Далд семантик шинжилгээ (LSA)
- Магадлалын далд семантик шинжилгээ(pLSA)
Далд Дирихлетийн хуваарилалт(LDA)
Корпус дахь олон текстийн хоорондын хамаарлыг илрүүлэхийн тулд Латент Дирихлетийн хуваарилалтын статистик болон график ойлголтыг ашигладаг.
Variational Exception Maximization (VEM) аргыг ашигласнаар текстийн бүх хэсгээс хамгийн их магадлалын тооцоололд хүрдэг.
Уламжлал ёсоор бол ууттай үгсээс эхний хэдэн үгийг сонгодог.
Гэсэн хэдий ч өгүүлбэр нь бүрэн утгагүй юм.
Энэ аргын дагуу текст бүрийг сэдвүүдийн магадлалын хуваарилалтаар, сэдэв бүрийг үгийн магадлалын хуваарилалтаар төлөөлнө.
Сөрөг бус матрицын хүчин зүйлчлэл (NMF)
Сөрөг бус утга бүхий матрицыг хүчин зүйл болгох нь шинж чанарыг задлах хамгийн сүүлийн үеийн арга юм.
Олон шинж чанаруудтай, шинж чанарууд нь тодорхойгүй эсвэл таамаглах чадвар муутай тохиолдолд NMF нь ашигтай байдаг. NMF нь шинж чанаруудыг нэгтгэснээр чухал загвар, сэдэв эсвэл сэдвийг бий болгож чадна.
NMF нь шинж чанар бүрийг анхны шинж чанарын багцын шугаман хослол хэлбэрээр үүсгэдэг.
Онцлог бүр нь шинж чанар дээрх шинж чанар бүрийн ач холбогдлыг илэрхийлдэг олон тооны коэффициентуудыг агуулдаг. Тоон шинж чанар, категори бүрийн утга тус бүр өөрийн гэсэн коэффициенттэй байдаг.
Бүх коэффициентүүд эерэг байна.
Далд семантик шинжилгээ
Энэ нь баримт бичгийн багц дахь үгсийн холбоог задлахад ашигладаг хяналтгүй сургалтын өөр нэг арга бол далд семантик шинжилгээ юм.
Энэ нь бидэнд зохих баримт бичгийг сонгоход тусална. Үүний үндсэн үүрэг бол текст мэдээллийн асар том корпусын хэмжээст байдлыг багасгах явдал юм.
Эдгээр шаардлагагүй өгөгдөл нь өгөгдлөөс шаардлагатай ойлголтыг олж авахад арын чимээ болдог.
Магадлалын далд семантик шинжилгээ(pLSA)
Магадлалын далд семантик шинжилгээ (PLSA), заримдаа магадлалын далд семантик индексжүүлэлт (PLSI, ялангуяа мэдээлэл хайх хүрээлэлд) гэж нэрлэгддэг бөгөөд хоёр горимт болон хавсарсан өгөгдөлд дүн шинжилгээ хийх статистик арга юм.
Үнэн хэрэгтээ, PLSA үүссэн далд семантик шинжилгээтэй адилаар ажиглагдсан хувьсагчдын бага хэмжээст дүрслэлийг тодорхой далд хувьсагчдад хамааралтай байдлаар нь гаргаж авч болно.
Python хэл дээр сэдвийн загварчлалыг ашиглах боломжтой
Одоо би танд Python-ийн загварчлалын даалгаврыг өгөх болно програмчлалын хэл бодит ертөнцийн жишээг ашиглан.
Би судалгааны нийтлэлүүдийг загварчлах болно. Миний энд ашиглах өгөгдлийн багцыг kaggle.com сайтаас авсан. Та эндээс миний энэ ажилд ашиглаж байгаа бүх файлыг хялбархан олж авах боломжтой Page.
Бүх чухал номын санг импортлох замаар Python ашиглан Сэдвийн загварчлалыг эхлүүлцгээе:
Дараах алхам бол миний энэ даалгаварт ашиглах бүх өгөгдлийн багцыг унших явдал юм.
Хайгуулын мэдээллийн шинжилгээ
EDA (Exploratory Data Analysis) нь харааны элементүүдийг ашигладаг статистикийн арга юм. Энэ нь чиг хандлага, хэв маяг, туршилтын таамаглалыг илрүүлэхийн тулд статистикийн хураангуй болон график дүрслэлийг ашигладаг.
Сэдвийн загварчлалыг эхлүүлэхийн өмнө би өгөгдөлд ямар нэгэн хэв маяг, хамаарал байгаа эсэхийг мэдэхийн тулд хайгуулын мэдээллийн дүн шинжилгээ хийх болно.
Одоо бид тестийн өгөгдлийн багцын тэг утгыг олох болно:
Одоо би хувьсагчдын хоорондын хамаарлыг шалгахын тулд гистограмм болон хайрцагны график зурах болно.
"Галт тэрэгний хураангуй" багц дахь тэмдэгтүүдийн хэмжээ ихээхэн ялгаатай байна.
Галт тэргэнд бид хамгийн багадаа 54, дээд тал нь 4551 тэмдэгттэй. 1065 бол тэмдэгтүүдийн дундаж тоо юм.
Тестийн багц нь 46 тэмдэгттэй бол сургалтын багц нь 2841 тэмдэгттэй тул тестийн багц нь сургалтын багцаас илүү сонирхолтой харагдаж байна.
Үүний үр дүнд тестийн багц нь 1058 тэмдэгтийн медиантай болсон нь сургалтын багцтай төстэй юм.
Сургалтын багц дахь үгсийн тоо нь үсгийн тоотой ижил төстэй хэв маягийг дагадаг.
Хамгийн багадаа 8 үг, дээд тал нь 665 үг оруулахыг зөвшөөрнө. Үүний үр дүнд дундаж үгийн тоо 153 байна.
Товчхондоо хамгийн багадаа долоон үг, тестийн багцад хамгийн ихдээ 452 үг байх шаардлагатай.
Энэ тохиолдолд медиан нь 153 бөгөөд сургалтын багц дахь медиантай ижил байна.
Сэдвийн загварчлалд шошго ашиглах
Сэдвийн загварчлалын хэд хэдэн стратеги байдаг. Би энэ дасгалд шошго ашиглах болно; шошгыг шалгаж үүнийг хэрхэн хийхийг харцгаая:
Сэдвийн загварчлалын хэрэглээ
- Баримт бичиг эсвэл номын сэдвийг ялгахад текстийн хураангуйг ашиглаж болно.
- Энэ нь шалгалтын онооноос нэр дэвшигчийн гажуудлыг арилгахад ашиглаж болно.
- Сэдвийн загварчлалыг графикт суурилсан загварт үгсийн хоорондын утгын харилцааг бий болгоход ашиглаж болно.
- Энэ нь үйлчлүүлэгчийн лавлагааны түлхүүр үгсийг илрүүлж, хариу өгөх замаар хэрэглэгчийн үйлчилгээг сайжруулж чадна. Та тэдэнд шаардлагатай үед нь тусламж үзүүлж, тэдэнд төвөг учруулахгүйгээр үйлчлүүлэгчид танд илүү их итгэх болно. Үүний үр дүнд үйлчлүүлэгчдийн үнэнч байдал эрс нэмэгдэж, компанийн үнэ цэнэ нэмэгддэг.
Дүгнэлт
Сэдвийн загварчлал нь текстийн цуглуулгад байдаг хийсвэр "субъектуудыг" илрүүлэхэд ашигладаг статистикийн загварчлал юм.
Энэ нь ашигласан статистик загварын нэг хэлбэр юм машин суралцах мөн олон тооны бичвэрт байдаг хийсвэр ойлголтыг илрүүлэхийн тулд байгалийн хэлний боловсруулалт.
Энэ нь үндсэн текст дэх далд утгын хэв маягийг олоход өргөн хэрэглэгддэг текст олборлох арга юм.
хариу үлдээх