การวิเคราะห์ความเชื่อมั่น NLP โดยใช้ Python

สารบัญ[ซ่อน][แสดง]

การวิเคราะห์ความรู้สึกคืออะไร?
ประโยชน์ของการวิเคราะห์ความเชื่อมั่น
การวิเคราะห์ความเชื่อมั่น – คำชี้แจงปัญหา+-
สรุป

ธุรกิจต่างๆ จะเข้าใจการได้มาซึ่งข้อมูลปฏิสัมพันธ์ของผู้บริโภคภายในปี 2021

ในทางกลับกัน การพึ่งพาจุดข้อมูลเหล่านี้มากเกินไป มักนำไปสู่องค์กรที่ถือว่าข้อมูลที่ลูกค้าป้อนเข้ามาเป็นสถิติ ซึ่งเป็นแนวทางที่ค่อนข้างมิติเดียวในการฟังเสียงของลูกค้า

ไม่สามารถตราหรือแปลงเสียงของลูกค้าเป็นตัวเลขได้

ต้องอ่าน ย่อ และเหนือสิ่งอื่นใด เข้าใจ

ความจริงก็คือ บริษัทต่างๆ ต้องตั้งใจฟังสิ่งที่ผู้บริโภคพูดในทุกช่องทางที่พวกเขาโต้ตอบกับพวกเขา ไม่ว่าจะเป็นทางโทรศัพท์ อีเมล หรือแชทสด

ทุกบริษัทควรให้ความสำคัญกับการติดตามและประเมินความคิดเห็นของผู้บริโภค แต่เดิมบริษัทต่างๆ มักจะประสบปัญหาในการจัดการข้อมูลนี้และแปลงข้อมูลดังกล่าวให้กลายเป็นข่าวกรองที่มีความหมาย

นี่ไม่ใช่กรณีของการวิเคราะห์ความเชื่อมั่นอีกต่อไป

ในบทช่วยสอนนี้ เราจะเจาะลึกถึงการวิเคราะห์ความเชื่อมั่น ข้อดี และวิธีใช้ เอ็นแอลทีเค ห้องสมุดเพื่อทำการวิเคราะห์ความเชื่อมั่นในข้อมูล

การวิเคราะห์ความรู้สึกคืออะไร?

การวิเคราะห์ความรู้สึก ซึ่งมักเรียกว่าการทำเหมืองการสนทนาเป็นวิธีการวิเคราะห์ความรู้สึก ความคิด และมุมมองของผู้คน

การวิเคราะห์ความคิดเห็นช่วยให้ธุรกิจต่างๆ เข้าใจผู้บริโภคได้ดีขึ้น เพิ่มรายได้ และปรับปรุงผลิตภัณฑ์และบริการโดยอิงจากข้อมูลจากลูกค้า

ความแตกต่างระหว่างระบบซอฟต์แวร์ที่สามารถวิเคราะห์ความรู้สึกของลูกค้าและพนักงานขาย/ตัวแทนฝ่ายบริการลูกค้าที่พยายามอนุมานว่าเป็นความสามารถที่แท้จริงของอดีตในการได้มาซึ่งผลลัพธ์ตามวัตถุประสงค์จากข้อความดิบ ซึ่งทำได้โดยหลักผ่านการประมวลผลภาษาธรรมชาติ (NLP) และ เรียนรู้เครื่อง เทคนิค

ตั้งแต่การระบุอารมณ์ไปจนถึงการจัดหมวดหมู่ข้อความ การวิเคราะห์ความรู้สึกมีการใช้งานที่หลากหลาย เราใช้การวิเคราะห์ความเชื่อมั่นในข้อมูลที่เป็นข้อความเพื่อช่วยตรวจสอบความเชื่อมั่นในการประเมินผลิตภัณฑ์หรือความคิดเห็นของผู้บริโภค

ไซต์โซเชียลมีเดียต่างๆ ใช้เพื่อประเมินความรู้สึกของการโพสต์ และหากอารมณ์รุนแรงหรือรุนแรงเกินไป หรือต่ำกว่าเกณฑ์ โพสต์นั้นจะถูกลบหรือซ่อนไว้

การวิเคราะห์ความรู้สึกสามารถใช้ได้กับทุกอย่างตั้งแต่การระบุอารมณ์ไปจนถึงการจัดหมวดหมู่ข้อความ

การวิเคราะห์ความคิดเห็นที่ได้รับความนิยมมากที่สุดคือการใช้ข้อมูลที่เป็นข้อความ ซึ่งใช้เพื่อช่วยบริษัทในการติดตามความคิดเห็นของการประเมินผลิตภัณฑ์หรือความคิดเห็นของผู้บริโภค

ไซต์โซเชียลมีเดียต่างๆ ยังใช้เพื่อประเมินความรู้สึกของการโพสต์ และหากอารมณ์รุนแรงหรือรุนแรงเกินไป หรือต่ำกว่าเกณฑ์ พวกเขาจะลบหรือปกปิดโพสต์

ประโยชน์ของการวิเคราะห์ความเชื่อมั่น

ต่อไปนี้เป็นประโยชน์ที่สำคัญที่สุดบางประการของการวิเคราะห์ความเชื่อมั่นที่ไม่ควรมองข้าม

ช่วยในการประเมินการรับรู้แบรนด์ของคุณในกลุ่มประชากรเป้าหมายของคุณ
ความคิดเห็นของลูกค้าโดยตรงมีไว้เพื่อช่วยคุณในการพัฒนาผลิตภัณฑ์ของคุณ
เพิ่มรายได้จากการขายและการหาลูกค้าใหม่
โอกาสในการขายเพิ่มสำหรับแชมเปี้ยนของผลิตภัณฑ์ของคุณเพิ่มขึ้น
การบริการลูกค้าเชิงรุกเป็นตัวเลือกที่ใช้งานได้จริง

Numbers สามารถให้ข้อมูลแก่คุณได้ เช่น ประสิทธิภาพดิบของแคมเปญการตลาด จำนวนการมีส่วนร่วมในการโทรหาลูกค้าเป้าหมาย และจำนวนตั๋วที่รอดำเนินการในฝ่ายสนับสนุนลูกค้า

อย่างไรก็ตาม จะไม่บอกคุณว่าเหตุใดจึงเกิดเหตุการณ์เฉพาะหรืออะไรเป็นสาเหตุ เครื่องมือวิเคราะห์ เช่น Google และ Facebook สามารถช่วยคุณประเมินประสิทธิภาพของความพยายามทางการตลาดของคุณได้

แต่พวกเขาไม่ได้ให้ความรู้เชิงลึกแก่คุณว่าทำไมแคมเปญนั้นจึงประสบความสำเร็จ

การวิเคราะห์ความเชื่อมั่นมีศักยภาพที่จะเปลี่ยนแปลงเกมในเรื่องนี้

การวิเคราะห์ความเชื่อมั่น – คำชี้แจงปัญหา

จุดมุ่งหมายคือการพิจารณาว่าทวีตมีอารมณ์ที่ดี แง่ลบ หรือเป็นกลางเกี่ยวกับสายการบิน XNUMX แห่งของสหรัฐฯ ตามทวีตหรือไม่

นี่เป็นงานการเรียนรู้ภายใต้การดูแลมาตรฐาน ซึ่งเราต้องจัดหมวดหมู่สตริงข้อความเป็นหมวดหมู่ที่กำหนดไว้ล่วงหน้าโดยให้สตริงข้อความ

Solution

เราจะใช้กระบวนการแมชชีนเลิร์นนิงมาตรฐานเพื่อแก้ไขปัญหานี้ เราจะเริ่มต้นด้วยการนำเข้าไลบรารีและชุดข้อมูลที่จำเป็น

จากนั้นเราจะทำการวิเคราะห์ข้อมูลเชิงสำรวจเพื่อพิจารณาว่ามีรูปแบบใดๆ ในข้อมูลหรือไม่ ต่อจากนี้ไป เราจะดำเนินการประมวลผลข้อความล่วงหน้าเพื่อเปลี่ยนข้อมูลตัวเลขที่ป้อนด้วยข้อความซึ่ง a เรียนรู้เครื่อง ระบบสามารถใช้งานได้

สุดท้าย เราจะฝึกอบรมและประเมินแบบจำลองการวิเคราะห์ความรู้สึกของเราโดยใช้วิธีการเรียนรู้ของเครื่อง

1. การนำเข้าไลบรารี

โหลดไลบรารีที่จำเป็น

การนำเข้าไลบรารี

2. นำเข้าชุดข้อมูล

บทความนี้จะอิงตามชุดข้อมูลที่สามารถพบได้ใน Github. ชุดข้อมูลจะถูกนำเข้าโดยใช้ฟังก์ชัน CSV การอ่านของ Pandas ดังที่แสดงด้านล่าง:

การนำเข้าชุดข้อมูล

ใช้ฟังก์ชัน head() ตรวจสอบห้าแถวแรกของชุดข้อมูล:

หัวหน้าชุดข้อมูล

Output:

เอาต์พุตของชุดข้อมูลส่วนหัว

3. การวิเคราะห์ข้อมูล

ให้เราตรวจสอบข้อมูลเพื่อดูว่ามีแนวโน้มหรือไม่ แต่ก่อนอื่น เราจะเปลี่ยนขนาดพล็อตเริ่มต้นเพื่อทำให้แผนภูมิมองเห็นได้ชัดเจนขึ้น

การปรับขนาดพล็อต

เริ่มต้นด้วยจำนวนทวีตที่ได้รับจากแต่ละสายการบิน เราจะใช้แผนภูมิวงกลมสำหรับสิ่งนี้:

แผนภูมิวงกลม

เปอร์เซ็นต์ของทวีตสาธารณะสำหรับแต่ละสายการบินจะแสดงในผลลัพธ์

เอาต์พุตแผนภูมิวงกลม

มาดูกันว่าความรู้สึกมีการกระจายไปทั่วทวีตอย่างไร

แผนภูมิวงกลมความหมาย

Output:

ผลลัพธ์แผนภูมิวงกลมความหมาย

ให้เราตรวจสอบการกระจายความรู้สึกสำหรับแต่ละสายการบิน

จากผลการวิจัยพบว่าทวีตจำนวนมากในเกือบทุกสายการบินนั้นไม่เอื้ออำนวย โดยมีทวีตที่เป็นกลางและดีตามมา Virgin America อาจเป็นสายการบินเดียวที่สัดส่วนของความรู้สึกทั้งสามนั้นเทียบเคียงได้

การจัดจำหน่ายของแต่ละสายการบิน

Output:

การกระจายสินค้าแต่ละสายการบิน

สุดท้าย เราจะใช้ห้องสมุด Seaborn เพื่อรับระดับความเชื่อมั่นโดยเฉลี่ยสำหรับทวีตจากสามหมวดหมู่ความเชื่อมั่น

พล็อตบาร์

Output:

เอาท์พุทพล็อตบาร์

ผลลัพธ์แสดงให้เห็นว่าระดับความมั่นใจสำหรับทวีตเชิงลบนั้นมากกว่าทวีตเชิงบวกหรือเป็นกลาง

4. ทำความสะอาดข้อมูล

ศัพท์สแลงและเครื่องหมายวรรคตอนจำนวนมากสามารถพบได้ในทวีต ก่อนที่เราจะฝึกโมเดลแมชชีนเลิร์นนิงได้ เราต้องล้างทวีตของเราเสียก่อน

อย่างไรก็ตาม ก่อนที่เราจะเริ่มทำความสะอาดทวีต เราควรแยกชุดข้อมูลของเราออกเป็นชุดคุณลักษณะและชุดป้ายกำกับ

คุณสมบัติและฉลาก

เราสามารถล้างข้อมูลได้เมื่อเราแยกออกเป็นคุณสมบัติและชุดการฝึก นิพจน์ทั่วไปจะใช้ในการทำเช่นนี้

นิพจน์ปกติ

5. การแสดงตัวเลขของข้อความ

ในการฝึกโมเดลแมชชีนเลิร์นนิง อัลกอริทึมทางสถิติใช้คณิตศาสตร์ ในทางกลับกัน คณิตศาสตร์ใช้ได้กับตัวเลขเท่านั้น

ก่อนอื่นเราต้องแปลงข้อความเป็นตัวเลขเพื่อให้อัลกอริธึมทางสถิติจัดการกับมันได้ มีสามวิธีพื้นฐานในการทำเช่นนั้น: Bag of Words, TF-IDF และ Word2Vec

โชคดีที่คลาส TfidfVectorizer ในโมดูล Scikit-Learn ของ Python สามารถใช้เพื่อแปลงคุณสมบัติข้อความเป็นเวกเตอร์ฟีเจอร์ TF-IDF

ทีเอฟไอดีเอฟ

6. การสร้างชุดการฝึกอบรมและการทดสอบที่ขับเคลื่อนด้วยข้อมูล

สุดท้าย เราต้องแบ่งข้อมูลออกเป็นชุดการฝึกและการทดสอบก่อนฝึกอัลกอริทึม

ชุดฝึกอบรมจะใช้ในการฝึกอัลกอริทึม และชุดทดสอบจะใช้เพื่อประเมินประสิทธิภาพของโมเดลการเรียนรู้ของเครื่อง

ทดสอบรถไฟ

7. การพัฒนาแบบจำลอง

หลังจากแยกข้อมูลออกเป็นชุดฝึกอบรมและชุดทดสอบแล้ว จะใช้เทคนิคการเรียนรู้ของเครื่องเพื่อเรียนรู้จากข้อมูลการฝึก

คุณสามารถใช้อัลกอริธึมการเรียนรู้ของเครื่องใดก็ได้ อย่างไรก็ตาม แนวทาง Random Forest จะถูกใช้เนื่องจากความสามารถในการจัดการกับข้อมูลที่ไม่ได้ทำให้เป็นมาตรฐาน

การฝึกโมเดล

8. การคาดการณ์และการประเมินแบบจำลอง

หลังจากฝึกโมเดลแล้ว ขั้นตอนสุดท้ายคือการทำนาย ในการทำเช่นนี้ เราต้องใช้วิธีการทำนายกับอ็อบเจ็กต์คลาส RandomForestClassifier ที่เราฝึก

การทำนายแบบจำลอง

สุดท้าย การวัดการจัดหมวดหมู่ เช่น ตัวชี้วัดความสับสน การวัด F1 ความแม่นยำ และอื่นๆ สามารถใช้ในการประเมินประสิทธิภาพของโมเดลการเรียนรู้ของเครื่อง

เมตริกการจำแนกประเภท

Output:

เอาต์พุตเมตริกการจำแนกประเภท

อัลกอริธึมของเรามีความแม่นยำ 75.30 ตามที่เห็นจากผลลัพธ์

สรุป

การวิเคราะห์ความเชื่อมั่นเป็นหนึ่งในงาน NLP ที่พบบ่อยที่สุด เนื่องจากช่วยระบุความคิดเห็นของสาธารณชนโดยรวมเกี่ยวกับปัญหาที่เฉพาะเจาะจง

เราเห็นว่าไลบรารี Python จำนวนมากสามารถช่วยในการวิเคราะห์ความเชื่อมั่นได้อย่างไร

เราทำการศึกษาทวีตสาธารณะเกี่ยวกับสายการบินของสหรัฐ 75 สายการบิน และมีความแม่นยำถึง XNUMX%

ฉันขอแนะนำให้คุณลองใช้อัลกอริธึมการเรียนรู้ของเครื่องอื่น เช่น การถดถอยโลจิสติก SVM หรือ KNN เพื่อดูว่าคุณสามารถบรรลุผลลัพธ์ที่ดีขึ้นหรือไม่

การวิเคราะห์ความเชื่อมั่น NLP โดยใช้ Python

การวิเคราะห์ความรู้สึกคืออะไร?

ประโยชน์ของการวิเคราะห์ความเชื่อมั่น