สารบัญ[ซ่อน][แสดง]
ธุรกิจต่างๆ จะเข้าใจการได้มาซึ่งข้อมูลปฏิสัมพันธ์ของผู้บริโภคภายในปี 2021
ในทางกลับกัน การพึ่งพาจุดข้อมูลเหล่านี้มากเกินไป มักนำไปสู่องค์กรที่ถือว่าข้อมูลที่ลูกค้าป้อนเข้ามาเป็นสถิติ ซึ่งเป็นแนวทางที่ค่อนข้างมิติเดียวในการฟังเสียงของลูกค้า
ไม่สามารถตราหรือแปลงเสียงของลูกค้าเป็นตัวเลขได้
ต้องอ่าน ย่อ และเหนือสิ่งอื่นใด เข้าใจ
ความจริงก็คือ บริษัทต่างๆ ต้องตั้งใจฟังสิ่งที่ผู้บริโภคพูดในทุกช่องทางที่พวกเขาโต้ตอบกับพวกเขา ไม่ว่าจะเป็นทางโทรศัพท์ อีเมล หรือแชทสด
ทุกบริษัทควรให้ความสำคัญกับการติดตามและประเมินความคิดเห็นของผู้บริโภค แต่เดิมบริษัทต่างๆ มักจะประสบปัญหาในการจัดการข้อมูลนี้และแปลงข้อมูลดังกล่าวให้กลายเป็นข่าวกรองที่มีความหมาย
นี่ไม่ใช่กรณีของการวิเคราะห์ความเชื่อมั่นอีกต่อไป
ในบทช่วยสอนนี้ เราจะเจาะลึกถึงการวิเคราะห์ความเชื่อมั่น ข้อดี และวิธีใช้ เอ็นแอลทีเค ห้องสมุดเพื่อทำการวิเคราะห์ความเชื่อมั่นในข้อมูล
การวิเคราะห์ความรู้สึกคืออะไร?
การวิเคราะห์ความรู้สึก ซึ่งมักเรียกว่าการทำเหมืองการสนทนาเป็นวิธีการวิเคราะห์ความรู้สึก ความคิด และมุมมองของผู้คน
การวิเคราะห์ความคิดเห็นช่วยให้ธุรกิจต่างๆ เข้าใจผู้บริโภคได้ดีขึ้น เพิ่มรายได้ และปรับปรุงผลิตภัณฑ์และบริการโดยอิงจากข้อมูลจากลูกค้า
ความแตกต่างระหว่างระบบซอฟต์แวร์ที่สามารถวิเคราะห์ความรู้สึกของลูกค้าและพนักงานขาย/ตัวแทนฝ่ายบริการลูกค้าที่พยายามอนุมานว่าเป็นความสามารถที่แท้จริงของอดีตในการได้มาซึ่งผลลัพธ์ตามวัตถุประสงค์จากข้อความดิบ ซึ่งทำได้โดยหลักผ่านการประมวลผลภาษาธรรมชาติ (NLP) และ เรียนรู้เครื่อง เทคนิค
ตั้งแต่การระบุอารมณ์ไปจนถึงการจัดหมวดหมู่ข้อความ การวิเคราะห์ความรู้สึกมีการใช้งานที่หลากหลาย เราใช้การวิเคราะห์ความเชื่อมั่นในข้อมูลที่เป็นข้อความเพื่อช่วยตรวจสอบความเชื่อมั่นในการประเมินผลิตภัณฑ์หรือความคิดเห็นของผู้บริโภค
ไซต์โซเชียลมีเดียต่างๆ ใช้เพื่อประเมินความรู้สึกของการโพสต์ และหากอารมณ์รุนแรงหรือรุนแรงเกินไป หรือต่ำกว่าเกณฑ์ โพสต์นั้นจะถูกลบหรือซ่อนไว้
การวิเคราะห์ความรู้สึกสามารถใช้ได้กับทุกอย่างตั้งแต่การระบุอารมณ์ไปจนถึงการจัดหมวดหมู่ข้อความ
การวิเคราะห์ความคิดเห็นที่ได้รับความนิยมมากที่สุดคือการใช้ข้อมูลที่เป็นข้อความ ซึ่งใช้เพื่อช่วยบริษัทในการติดตามความคิดเห็นของการประเมินผลิตภัณฑ์หรือความคิดเห็นของผู้บริโภค
ไซต์โซเชียลมีเดียต่างๆ ยังใช้เพื่อประเมินความรู้สึกของการโพสต์ และหากอารมณ์รุนแรงหรือรุนแรงเกินไป หรือต่ำกว่าเกณฑ์ พวกเขาจะลบหรือปกปิดโพสต์
ประโยชน์ของการวิเคราะห์ความเชื่อมั่น
ต่อไปนี้เป็นประโยชน์ที่สำคัญที่สุดบางประการของการวิเคราะห์ความเชื่อมั่นที่ไม่ควรมองข้าม
- ช่วยในการประเมินการรับรู้แบรนด์ของคุณในกลุ่มประชากรเป้าหมายของคุณ
- ความคิดเห็นของลูกค้าโดยตรงมีไว้เพื่อช่วยคุณในการพัฒนาผลิตภัณฑ์ของคุณ
- เพิ่มรายได้จากการขายและการหาลูกค้าใหม่
- โอกาสในการขายเพิ่มสำหรับแชมเปี้ยนของผลิตภัณฑ์ของคุณเพิ่มขึ้น
- การบริการลูกค้าเชิงรุกเป็นตัวเลือกที่ใช้งานได้จริง
Numbers สามารถให้ข้อมูลแก่คุณได้ เช่น ประสิทธิภาพดิบของแคมเปญการตลาด จำนวนการมีส่วนร่วมในการโทรหาลูกค้าเป้าหมาย และจำนวนตั๋วที่รอดำเนินการในฝ่ายสนับสนุนลูกค้า
อย่างไรก็ตาม จะไม่บอกคุณว่าเหตุใดจึงเกิดเหตุการณ์เฉพาะหรืออะไรเป็นสาเหตุ เครื่องมือวิเคราะห์ เช่น Google และ Facebook สามารถช่วยคุณประเมินประสิทธิภาพของความพยายามทางการตลาดของคุณได้
แต่พวกเขาไม่ได้ให้ความรู้เชิงลึกแก่คุณว่าทำไมแคมเปญนั้นจึงประสบความสำเร็จ
การวิเคราะห์ความเชื่อมั่นมีศักยภาพที่จะเปลี่ยนแปลงเกมในเรื่องนี้
การวิเคราะห์ความเชื่อมั่น – คำชี้แจงปัญหา
จุดมุ่งหมายคือการพิจารณาว่าทวีตมีอารมณ์ที่ดี แง่ลบ หรือเป็นกลางเกี่ยวกับสายการบิน XNUMX แห่งของสหรัฐฯ ตามทวีตหรือไม่
นี่เป็นงานการเรียนรู้ภายใต้การดูแลมาตรฐาน ซึ่งเราต้องจัดหมวดหมู่สตริงข้อความเป็นหมวดหมู่ที่กำหนดไว้ล่วงหน้าโดยให้สตริงข้อความ
Solution
เราจะใช้กระบวนการแมชชีนเลิร์นนิงมาตรฐานเพื่อแก้ไขปัญหานี้ เราจะเริ่มต้นด้วยการนำเข้าไลบรารีและชุดข้อมูลที่จำเป็น
จากนั้นเราจะทำการวิเคราะห์ข้อมูลเชิงสำรวจเพื่อพิจารณาว่ามีรูปแบบใดๆ ในข้อมูลหรือไม่ ต่อจากนี้ไป เราจะดำเนินการประมวลผลข้อความล่วงหน้าเพื่อเปลี่ยนข้อมูลตัวเลขที่ป้อนด้วยข้อความซึ่ง a เรียนรู้เครื่อง ระบบสามารถใช้งานได้
สุดท้าย เราจะฝึกอบรมและประเมินแบบจำลองการวิเคราะห์ความรู้สึกของเราโดยใช้วิธีการเรียนรู้ของเครื่อง
1. การนำเข้าไลบรารี
โหลดไลบรารีที่จำเป็น
2. นำเข้าชุดข้อมูล
บทความนี้จะอิงตามชุดข้อมูลที่สามารถพบได้ใน Github. ชุดข้อมูลจะถูกนำเข้าโดยใช้ฟังก์ชัน CSV การอ่านของ Pandas ดังที่แสดงด้านล่าง:
ใช้ฟังก์ชัน head() ตรวจสอบห้าแถวแรกของชุดข้อมูล:
Output:
3. การวิเคราะห์ข้อมูล
ให้เราตรวจสอบข้อมูลเพื่อดูว่ามีแนวโน้มหรือไม่ แต่ก่อนอื่น เราจะเปลี่ยนขนาดพล็อตเริ่มต้นเพื่อทำให้แผนภูมิมองเห็นได้ชัดเจนขึ้น
เริ่มต้นด้วยจำนวนทวีตที่ได้รับจากแต่ละสายการบิน เราจะใช้แผนภูมิวงกลมสำหรับสิ่งนี้:
เปอร์เซ็นต์ของทวีตสาธารณะสำหรับแต่ละสายการบินจะแสดงในผลลัพธ์
มาดูกันว่าความรู้สึกมีการกระจายไปทั่วทวีตอย่างไร
Output:
ให้เราตรวจสอบการกระจายความรู้สึกสำหรับแต่ละสายการบิน
จากผลการวิจัยพบว่าทวีตจำนวนมากในเกือบทุกสายการบินนั้นไม่เอื้ออำนวย โดยมีทวีตที่เป็นกลางและดีตามมา Virgin America อาจเป็นสายการบินเดียวที่สัดส่วนของความรู้สึกทั้งสามนั้นเทียบเคียงได้
Output:
สุดท้าย เราจะใช้ห้องสมุด Seaborn เพื่อรับระดับความเชื่อมั่นโดยเฉลี่ยสำหรับทวีตจากสามหมวดหมู่ความเชื่อมั่น
Output:
ผลลัพธ์แสดงให้เห็นว่าระดับความมั่นใจสำหรับทวีตเชิงลบนั้นมากกว่าทวีตเชิงบวกหรือเป็นกลาง
4. ทำความสะอาดข้อมูล
ศัพท์สแลงและเครื่องหมายวรรคตอนจำนวนมากสามารถพบได้ในทวีต ก่อนที่เราจะฝึกโมเดลแมชชีนเลิร์นนิงได้ เราต้องล้างทวีตของเราเสียก่อน
อย่างไรก็ตาม ก่อนที่เราจะเริ่มทำความสะอาดทวีต เราควรแยกชุดข้อมูลของเราออกเป็นชุดคุณลักษณะและชุดป้ายกำกับ
เราสามารถล้างข้อมูลได้เมื่อเราแยกออกเป็นคุณสมบัติและชุดการฝึก นิพจน์ทั่วไปจะใช้ในการทำเช่นนี้
5. การแสดงตัวเลขของข้อความ
ในการฝึกโมเดลแมชชีนเลิร์นนิง อัลกอริทึมทางสถิติใช้คณิตศาสตร์ ในทางกลับกัน คณิตศาสตร์ใช้ได้กับตัวเลขเท่านั้น
ก่อนอื่นเราต้องแปลงข้อความเป็นตัวเลขเพื่อให้อัลกอริธึมทางสถิติจัดการกับมันได้ มีสามวิธีพื้นฐานในการทำเช่นนั้น: Bag of Words, TF-IDF และ Word2Vec
โชคดีที่คลาส TfidfVectorizer ในโมดูล Scikit-Learn ของ Python สามารถใช้เพื่อแปลงคุณสมบัติข้อความเป็นเวกเตอร์ฟีเจอร์ TF-IDF
6. การสร้างชุดการฝึกอบรมและการทดสอบที่ขับเคลื่อนด้วยข้อมูล
สุดท้าย เราต้องแบ่งข้อมูลออกเป็นชุดการฝึกและการทดสอบก่อนฝึกอัลกอริทึม
ชุดฝึกอบรมจะใช้ในการฝึกอัลกอริทึม และชุดทดสอบจะใช้เพื่อประเมินประสิทธิภาพของโมเดลการเรียนรู้ของเครื่อง
7. การพัฒนาแบบจำลอง
หลังจากแยกข้อมูลออกเป็นชุดฝึกอบรมและชุดทดสอบแล้ว จะใช้เทคนิคการเรียนรู้ของเครื่องเพื่อเรียนรู้จากข้อมูลการฝึก
คุณสามารถใช้อัลกอริธึมการเรียนรู้ของเครื่องใดก็ได้ อย่างไรก็ตาม แนวทาง Random Forest จะถูกใช้เนื่องจากความสามารถในการจัดการกับข้อมูลที่ไม่ได้ทำให้เป็นมาตรฐาน
8. การคาดการณ์และการประเมินแบบจำลอง
หลังจากฝึกโมเดลแล้ว ขั้นตอนสุดท้ายคือการทำนาย ในการทำเช่นนี้ เราต้องใช้วิธีการทำนายกับอ็อบเจ็กต์คลาส RandomForestClassifier ที่เราฝึก
สุดท้าย การวัดการจัดหมวดหมู่ เช่น ตัวชี้วัดความสับสน การวัด F1 ความแม่นยำ และอื่นๆ สามารถใช้ในการประเมินประสิทธิภาพของโมเดลการเรียนรู้ของเครื่อง
Output:
อัลกอริธึมของเรามีความแม่นยำ 75.30 ตามที่เห็นจากผลลัพธ์
สรุป
การวิเคราะห์ความเชื่อมั่นเป็นหนึ่งในงาน NLP ที่พบบ่อยที่สุด เนื่องจากช่วยระบุความคิดเห็นของสาธารณชนโดยรวมเกี่ยวกับปัญหาที่เฉพาะเจาะจง
เราเห็นว่าไลบรารี Python จำนวนมากสามารถช่วยในการวิเคราะห์ความเชื่อมั่นได้อย่างไร
เราทำการศึกษาทวีตสาธารณะเกี่ยวกับสายการบินของสหรัฐ 75 สายการบิน และมีความแม่นยำถึง XNUMX%
ฉันขอแนะนำให้คุณลองใช้อัลกอริธึมการเรียนรู้ของเครื่องอื่น เช่น การถดถอยโลจิสติก SVM หรือ KNN เพื่อดูว่าคุณสามารถบรรลุผลลัพธ์ที่ดีขึ้นหรือไม่
เขียนความเห็น