Гарчиг[Нуух][Үзүүлэх]
Бизнесүүд 2021 он гэхэд хэрэглэгчийн харилцан үйлчлэлийн мэдээллийг олж авах ажлыг бүрэн эзэмшсэн байх болно.
Нөгөөтэйгүүр, эдгээр мэдээллийн цэгүүдэд хэт найдах нь байгууллагууд хэрэглэгчийн оруулсан мэдээллийг статистик гэж үзэхэд хүргэдэг - энэ нь хэрэглэгчийн дуу хоолойг сонсох нэг хэмжээст арга юм.
Үйлчлүүлэгчийн дуу хоолойг таних тэмдэг, дугаар болгон хувиргах боломжгүй.
Үүнийг уншиж, нягталж, юуны түрүүнд ойлгох ёстой.
Үнэн хэрэгтээ компаниуд утасны дуудлага, цахим шуудан, шууд чат зэргээр дамжуулан хэрэглэгчидтэйгээ харилцах суваг бүртээ юу хэлэхийг идэвхтэй сонсох ёстой.
Компани бүр хэрэглэгчийн сэтгэгдлийг хянах, үнэлэх ажлыг нэн тэргүүнд тавих ёстой ч компаниуд уламжлал ёсоор энэ өгөгдлийг боловсруулж, утга учиртай оюун ухаан болгон хувиргах гэж тэмцсээр ирсэн.
Мэдрэмжийн шинжилгээнд энэ нь байхаа больсон.
Энэ зааварт бид мэдрэмжийн шинжилгээ, түүний давуу тал, хэрхэн ашиглах талаар дэлгэрэнгүй авч үзэх болно. NLTK мэдээллийн санд мэдрэмжийн шинжилгээ хийх номын сан.
Сэтгэлийн шинжилгээ гэж юу вэ?
Сэтгэцийн шинжилгээ нь ихэвчлэн яриа олборлолт гэж нэрлэгддэг бөгөөд хүмүүсийн мэдрэмж, бодол санаа, үзэл бодлыг шинжлэх арга юм.
Мэдрэмжийн шинжилгээ нь бизнес эрхлэгчдэд хэрэглэгчдийнхээ талаарх ойлголтыг илүү сайн олж авах, орлогоо нэмэгдүүлэх, үйлчлүүлэгчийн саналд тулгуурлан бүтээгдэхүүн үйлчилгээгээ сайжруулах боломжийг олгодог.
Үйлчлүүлэгчийн сэтгэл хөдлөлийг шинжлэх чадвартай програм хангамжийн систем болон түүнийг гаргах гэж оролдож буй худалдагч/хэрэглэгчийн үйлчилгээний төлөөлөгчийн хоорондох ялгаа нь эхнийх нь түүхий текстээс бодитой үр дүнг гаргах чадвар юм - энэ нь үндсэндээ байгалийн хэлээр боловсруулалт (NLP) болон хэрэгждэг. машин суралцах арга.
Сэтгэл хөдлөлийг тодорхойлохоос эхлээд текстийг ангилах хүртэл мэдрэмжийн шинжилгээ нь өргөн хүрээний хэрэглээтэй. Бид пүүст бүтээгдэхүүний үнэлгээ эсвэл хэрэглэгчийн санал хүсэлтийг хянахад туслахын тулд текстэн мэдээлэлд сэтгэл хөдлөлийн шинжилгээ хийдэг.
Өөр өөр олон нийтийн мэдээллийн сайтууд үүнийг нийтлэлийн мэдрэмжийг үнэлэхэд ашигладаг бөгөөд хэрэв сэтгэл хөдлөл нь хэтэрхий хүчтэй эсвэл хүчирхийлэлтэй, эсвэл босго хэмжээнээс доогуур байвал уг бичлэгийг устгадаг эсвэл нуудаг.
Мэдрэмжийн шинжилгээг сэтгэл хөдлөлийг тодорхойлохоос эхлээд текстийг ангилах хүртэл бүх зүйлд ашиглаж болно.
Мэдрэмжийн шинжилгээний хамгийн түгээмэл хэрэглээ бол текстэн өгөгдөлд ашигладаг бөгөөд энэ нь компанид бүтээгдэхүүний үнэлгээ эсвэл хэрэглэгчийн сэтгэгдлийг хянахад тусалдаг.
Өөр өөр олон нийтийн мэдээллийн сайтууд үүнийг нийтлэлийн мэдрэмжийг үнэлэхэд ашигладаг бөгөөд хэрэв сэтгэл хөдлөл нь хэтэрхий хүчтэй эсвэл хүчирхийлэлтэй эсвэл босго хэмжээнээс доогуур байвал тэд нийтлэлийг устгадаг эсвэл нуудаг.
Мэдрэмжийн шинжилгээний ашиг тус
Сэтгэцийн шинжилгээний хамгийн чухал давуу талуудын заримыг үл тоомсорлож болохгүй.
- Зорилтот хүн ам зүйн дунд танай брэндийн талаарх ойлголтыг үнэлэхэд тусална уу.
- Бүтээгдэхүүнээ хөгжүүлэхэд тань туслах зорилгоор үйлчлүүлэгчийн шууд санал хүсэлтийг өгдөг.
- Борлуулалтын орлого, эрэл хайгуулыг нэмэгдүүлдэг.
- Танай бүтээгдэхүүний аваргуудын борлуулалтын боломж нэмэгдсэн.
- Хэрэглэгчийн идэвхтэй үйлчилгээ нь практик сонголт юм.
Тоо нь танд маркетингийн кампанит ажлын гүйцэтгэл, эрэл хайгуулын дуудлагад оролцсон хэмжээ, хэрэглэгчийн дэмжлэгт хүлээгдэж буй тасалбарын тоо зэрэг мэдээллийг өгөх боломжтой.
Гэсэн хэдий ч энэ нь яагаад тодорхой үйл явдал болсон, юунаас үүдэлтэй болохыг танд хэлэхгүй. Жишээлбэл, Google, Facebook зэрэг аналитик хэрэгслүүд нь таны маркетингийн хүчин чармайлтын гүйцэтгэлийг үнэлэхэд тусална.
Гэхдээ тэд танд тухайн кампанит ажил яагаад амжилттай болсон талаар гүнзгий мэдлэг өгөхгүй.
Мэдрэмжийн шинжилгээ нь энэ тал дээр тоглоомыг өөрчлөх чадвартай.
Мэдрэмжийн шинжилгээ – Асуудлын мэдэгдэл
Үүний зорилго нь жиргээнд үндэслэн АНУ-ын зургаан агаарын тээврийн компанийн талаарх жиргээнд эерэг, сөрөг эсвэл төвийг сахисан сэтгэл хөдлөл байгаа эсэхийг тодорхойлох явдал юм.
Энэ бол бид текстийн мөрийг урьдчилан тодорхойлсон ангилалд ангилах ёстой стандарт удирдлагатай сургалтын ажил юм.
шийдэл
Бид энэ асуудлыг шийдвэрлэхийн тулд стандарт машин сургалтын процессыг ашиглах болно. Бид шаардлагатай номын сан, мэдээллийн багцыг импортлох замаар эхэлнэ.
Дараа нь бид өгөгдөлд ямар нэгэн хэв маяг байгаа эсэхийг тодорхойлохын тулд хайгуулын мэдээллийн дүн шинжилгээ хийх болно. Үүний дараа бид текстийн оролтын тоон өгөгдлийг хувиргахын тулд текстийн урьдчилсан боловсруулалтыг хийнэ машин суралцах системийг ашиглаж болно.
Эцэст нь бид машин сургалтын аргуудыг ашиглан мэдрэмжийн шинжилгээний загваруудаа сургаж, үнэлэх болно.
1. Номын санг импортлох
Шаардлагатай номын сангуудыг ачаална уу.
2. Мэдээллийн багц импортлох
Энэ нийтлэлийг олж болох өгөгдлийн багц дээр үндэслэх болно Github. Датасетийг Pandas-ийн унших CSV функцийг ашиглан импортлох болно, доор харуулав:
Head() функцийг ашиглан өгөгдлийн багцын эхний таван мөрийг шалгана уу:
Үр дүн:
3. Өгөгдлийн шинжилгээ
Ямар нэгэн чиг хандлага байгаа эсэхийг тодорхойлохын тулд өгөгдлийг судалж үзье. Гэхдээ эхлээд бид графикуудыг илүү харагдахуйц болгохын тулд анхдагч график хэмжээг өөрчлөх болно.
Агаарын тээврийн компани тус бүрээс ирсэн жиргээний тооноос эхэлье. Үүний тулд бид дугуй диаграмыг ашиглана:
Агаарын тээврийн компани бүрийн олон нийтийн жиргээний хувь хэмжээг гаралт дээр харуулав.
Бүх жиргээн дээр мэдрэмж хэрхэн тархаж байгааг харцгаая.
Үр дүн:
Одоо тодорхой агаарын тээврийн компани бүрийн сэтгэл хөдлөлийн хуваарилалтыг авч үзье.
Үр дүнгээс харахад бараг бүх агаарын тээврийн компаниудын жиргээний дийлэнх хэсэг нь тааламжгүй, төвийг сахисан, сайн жиргээг дагасан байна. Virgin America бол гурван мэдрэмжийн хувь хэмжээг харьцуулж болох цорын ганц агаарын тээврийн компани юм.
Үр дүн:
Эцэст нь бид Seaborn номын санг ашиглан жиргээчдийн итгэлийн дундаж түвшинг гурван мэдрэмжийн ангилалаас авна.
Үр дүн:
Үр дүн нь сөрөг жиргээнд итгэх итгэлийн түвшин эерэг эсвэл төвийг сахисан жиргээнээс илүү байгааг харуулж байна.
4. Өгөгдлийг цэвэрлэх
Жиргээнээс олон хэллэг, цэг таслалыг олж болно. Машин сургалтын загварыг сургахын өмнө бид жиргээгээ цэвэрлэх хэрэгтэй.
Гэсэн хэдий ч бид жиргээг цэвэрлэж эхлэхээсээ өмнө өгөгдлийн багцаа онцлог болон шошгоны багц болгон хуваах хэрэгтэй.
Бид өгөгдлийг онцлог шинж чанар болон сургалтын багц болгон хуваасны дараа тэдгээрийг цэвэрлэж болно. Үүнийг хийхийн тулд ердийн хэллэгийг ашиглана.
5. Текстийн тоон дүрслэл
Машин сургалтын загваруудыг сургахын тулд статистикийн алгоритмууд нь математикийг ашигладаг. Харин математик нь зөвхөн тоогоор ажилладаг.
Бид эхлээд статистикийн алгоритмуудыг шийдвэрлэхийн тулд текстийг тоо болгон хувиргах ёстой. Үүнийг хийх үндсэн гурван арга байдаг: Баг, TF-IDF, Word2Vec.
Аз болоход, Python-ийн Scikit-Learn модулийн TfidfVectorizer анги нь текстийн функцуудыг TF-IDF функцийн вектор болгон хувиргахад ашиглагдаж болно.
6. Мэдээлэлд суурилсан сургалт, тестийн багц үүсгэх
Эцэст нь бид алгоритмуудаа сургахаасаа өмнө өгөгдлөө сургалт, туршилтын багц болгон хуваах ёстой.
Сургалтын багцыг алгоритмыг сургахад ашиглах ба тестийн багцыг машин сургалтын загварын гүйцэтгэлийг үнэлэхэд ашиглана.
7. Загвар боловсруулах
Өгөгдлийг сургалт, тестийн багц болгон хуваасны дараа сургалтын өгөгдлөөс суралцахын тулд машин сургалтын техникийг ашигладаг.
Та ямар ч машин сургалтын алгоритмыг ашиглаж болно. Гэхдээ санамсаргүй ойн арга нь хэвийн бус өгөгдлийг даван туулах чадвартай тул ашиглах болно.
8. Урьдчилан таамаглал ба загвар үнэлгээ
Загварыг сургасны дараа эцсийн шат нь таамаглал гаргах явдал юм. Үүнийг хийхийн тулд бид бэлтгэсэн RandomForestClassifier ангийн объектод урьдчилан таамаглах аргыг хэрэглэх ёстой.
Эцэст нь төөрөгдлийн хэмжүүр, F1 хэмжигдэхүүн, нарийвчлал гэх мэт ангиллын хэмжүүрийг машин сургалтын загваруудын гүйцэтгэлийг үнэлэхэд ашиглаж болно.
Үр дүн:
Үр дүнгээс харахад бидний алгоритм 75.30 нарийвчлалтай болсон.
Дүгнэлт
Мэдрэмжийн шинжилгээ нь тодорхой асуудлын талаархи олон нийтийн санаа бодлыг тодорхойлоход тусалдаг тул хамгийн түгээмэл NLP ажлуудын нэг юм.
Python-ийн хэд хэдэн номын сангууд сэтгэлийн дүн шинжилгээ хийхэд хэрхэн тусалж болохыг бид харсан.
Бид АНУ-ын зургаан агаарын тээврийн компанийн тухай олон нийтийн жиргээнд судалгаа хийж, ойролцоогоор 75%-ийн нарийвчлалд хүрсэн.
Та илүү сайн үр дүнд хүрч чадах эсэхээ шалгахын тулд логистик регресс, SVM эсвэл KNN гэх мэт өөр машин сургалтын алгоритмыг туршиж үзэхийг би танд зөвлөж байна.
хариу үлдээх