สารบัญ[ซ่อน][แสดง]
เกณฑ์หลักประการหนึ่งสำหรับกิจกรรมองค์กรทุกประเภทคือการใช้ข้อมูลอย่างมีประสิทธิภาพ เมื่อถึงจุดหนึ่ง ปริมาณข้อมูลที่สร้างขึ้นเกินความสามารถในการประมวลผลพื้นฐาน
นั่นคือจุดเริ่มต้นของอัลกอริทึมการเรียนรู้ของเครื่อง อย่างไรก็ตาม ก่อนที่จะเกิดเหตุการณ์เช่นนี้ ข้อมูลต้องได้รับการศึกษาและตีความ โดยสรุปแล้ว มันคือการเรียนรู้ของเครื่องที่ไม่ได้รับการดูแล
ในบทความนี้ เราจะตรวจสอบแมชชีนเลิร์นนิงแบบไม่มีผู้ดูแลในเชิงลึก ซึ่งรวมถึงอัลกอริทึม กรณีใช้งาน และอื่นๆ อีกมากมาย
การเรียนรู้ของเครื่อง Unsupervised คืออะไร?
อัลกอริธึมการเรียนรู้ของเครื่องที่ไม่ได้รับการดูแลจะระบุรูปแบบในชุดข้อมูลที่ไม่มีผลที่ทราบหรือติดป้ายกำกับ ดูแล อัลกอริทึมการเรียนรู้ของเครื่อง มีเอาต์พุตที่มีป้ายกำกับ
การทราบความแตกต่างนี้จะช่วยให้คุณเข้าใจว่าเหตุใดวิธีการเรียนรู้ของเครื่องที่ไม่ได้รับการดูแลจึงไม่สามารถใช้แก้ปัญหาการถดถอยหรือการจัดหมวดหมู่ได้ เนื่องจากคุณไม่ทราบว่าค่า/คำตอบสำหรับข้อมูลผลลัพธ์เป็นอย่างไร คุณไม่สามารถฝึกอัลกอริทึมได้ตามปกติ หากคุณไม่ทราบค่า/คำตอบ
นอกจากนี้ยังสามารถใช้ Unsupervised Learning เพื่อระบุโครงสร้างพื้นฐานของข้อมูลได้ อัลกอริธึมเหล่านี้ตรวจจับรูปแบบที่ซ่อนอยู่หรือการจัดกลุ่มข้อมูลโดยไม่จำเป็นต้องมีปฏิสัมพันธ์กับมนุษย์
ความสามารถในการตรวจจับความเหมือนและความแตกต่างของข้อมูลทำให้เป็นตัวเลือกที่ยอดเยี่ยมสำหรับการวิเคราะห์ข้อมูลเชิงสำรวจ เทคนิคการขายต่อเนื่อง การแบ่งส่วนผู้บริโภค และการระบุรูปภาพ
พิจารณาสถานการณ์ต่อไปนี้: คุณอยู่ในร้านขายของชำและเห็นผลไม้ที่ไม่ปรากฏชื่อที่คุณไม่เคยเห็นมาก่อน คุณสามารถแยกความแตกต่างของผลไม้ที่ไม่รู้จักกับผลไม้อื่นๆ ได้อย่างง่ายดายโดยพิจารณาจากการสังเกตรูปร่าง ขนาด หรือสีของผลไม้นั้น
อัลกอริธึมการเรียนรู้ของเครื่องที่ไม่มีผู้ดูแล
การจัดกลุ่ม
การจัดกลุ่มเป็นวิธีการเรียนรู้แบบไม่มีผู้ดูแลที่ใช้กันอย่างแพร่หลายมากที่สุดโดยไม่ต้องสงสัย วิธีนี้ทำให้รายการข้อมูลที่เกี่ยวข้องในกลุ่มที่สร้างแบบสุ่ม
ด้วยตัวของมันเอง แบบจำลอง ML จะค้นพบรูปแบบ ความเหมือน และ/หรือความแตกต่างใดๆ ในโครงสร้างข้อมูลที่ไม่มีการจัดหมวดหมู่ โมเดลจะสามารถค้นพบการจัดกลุ่มหรือคลาสที่เป็นธรรมชาติในข้อมูล
ประเภท
มีหลายรูปแบบของคลัสเตอร์ที่สามารถใช้ได้ มาดูสิ่งสำคัญที่สุดกันก่อน
- การทำคลัสเตอร์แบบเอกสิทธิ์ ซึ่งบางครั้งเรียกว่าการทำคลัสเตอร์แบบ "ยาก" เป็นการจัดกลุ่มประเภทหนึ่งโดยที่ข้อมูลชิ้นเดียวเป็นของคลัสเตอร์เดียว
- การทำคลัสเตอร์ที่ทับซ้อนกัน ซึ่งมักเรียกว่าการทำคลัสเตอร์แบบ “อ่อน” ช่วยให้ออบเจ็กต์ข้อมูลอยู่ในคลัสเตอร์มากกว่าหนึ่งคลัสเตอร์ในระดับที่แตกต่างกัน นอกจากนี้ การจัดกลุ่มความน่าจะเป็นยังสามารถใช้เพื่อจัดการกับปัญหาการจัดกลุ่มแบบ "อ่อน" หรือการประมาณความหนาแน่น เช่นเดียวกับการประเมินความน่าจะเป็นหรือความเป็นไปได้ของจุดข้อมูลที่เป็นของกลุ่มบางกลุ่ม
- การสร้างลำดับชั้นของรายการข้อมูลที่จัดกลุ่มเป็นเป้าหมายของการจัดกลุ่มตามลำดับชั้น ตามชื่อที่ระบุ รายการข้อมูลจะถูกแยกส่วนหรือรวมกันตามลำดับชั้นเพื่อสร้างคลัสเตอร์
ใช้กรณี:
- การตรวจจับความผิดปกติ:
สามารถตรวจพบค่าผิดปกติประเภทใดก็ได้ในข้อมูลโดยใช้การจัดกลุ่ม ตัวอย่างเช่น บริษัทด้านการขนส่งและลอจิสติกส์ สามารถใช้การตรวจจับความผิดปกติเพื่อค้นหาสิ่งกีดขวางด้านลอจิสติกส์หรือเปิดเผยชิ้นส่วนทางกลที่เสียหาย (การบำรุงรักษาเชิงคาดการณ์)
สถาบันการเงินสามารถใช้เทคโนโลยีนี้ในการตรวจจับธุรกรรมที่เป็นการฉ้อโกงและตอบสนองได้อย่างรวดเร็ว ซึ่งอาจช่วยประหยัดเงินได้มาก เรียนรู้เพิ่มเติมเกี่ยวกับการจำแนกความผิดปกติและการฉ้อโกงโดยดูวิดีโอของเรา
- การแบ่งส่วนลูกค้าและตลาด:
อัลกอริธึมการจัดกลุ่มสามารถช่วยในการจัดกลุ่มบุคคลที่มีลักษณะคล้ายคลึงกันและสร้างบุคลิกของผู้บริโภคเพื่อการตลาดที่มีประสิทธิภาพยิ่งขึ้นและการริเริ่มที่ตรงเป้าหมาย
K- หมายถึง
K-means เป็นวิธีการจัดกลุ่มที่เรียกว่าการแบ่งพาร์ติชันหรือการแบ่งส่วน แบ่งจุดข้อมูลออกเป็นคลัสเตอร์ที่กำหนดไว้ล่วงหน้าที่เรียกว่า K
ในวิธี K-means K คืออินพุตเนื่องจากคุณบอกคอมพิวเตอร์ว่าคุณต้องการระบุคลัสเตอร์กี่กลุ่มในข้อมูลของคุณ ต่อมาแต่ละรายการข้อมูลจะถูกกำหนดให้กับศูนย์กลางคลัสเตอร์ที่ใกล้ที่สุด ซึ่งเรียกว่าเซนทรอยด์ (จุดสีดำในภาพ)
หลังทำหน้าที่เป็นพื้นที่เก็บข้อมูล เทคนิคการจัดกลุ่มสามารถทำได้หลายครั้งจนกว่ากลุ่มจะมีความชัดเจน
Fuzzy K หมายถึง
Fuzzy K-mean เป็นส่วนขยายของเทคนิค K-means ซึ่งใช้ในการทำคลัสเตอร์ที่ทับซ้อนกัน ค่า K แบบคลุมเครือต่างจากเทคนิค K-mean หมายความว่าจุดข้อมูลอาจอยู่ในคลัสเตอร์จำนวนมากที่มีระดับความใกล้ชิดต่างกันไป
ระยะห่างระหว่างจุดข้อมูลและเซนทรอยด์ของคลัสเตอร์ใช้ในการคำนวณความใกล้ชิด ด้วยเหตุนี้ จึงอาจมีบางครั้งที่กลุ่มต่างๆ ทับซ้อนกัน
โมเดลผสมเกาส์เซียน
Gaussian Mixture Models (GMMs) เป็นวิธีการที่ใช้ในการจัดกลุ่มความน่าจะเป็น เนื่องจากไม่ทราบค่าเฉลี่ยและความแปรปรวน แบบจำลองจึงถือว่ามีการแจกแจงแบบเกาส์เซียนจำนวนคงที่ ซึ่งแต่ละชุดจะแสดงคลัสเตอร์ที่แตกต่างกัน
ในการพิจารณาว่าจุดข้อมูลเฉพาะเป็นของคลัสเตอร์ใด วิธีการนั้นจึงถูกใช้เป็นหลัก
การจัดกลุ่มแบบลำดับชั้น
กลยุทธ์การจัดกลุ่มแบบลำดับชั้นสามารถเริ่มต้นด้วยจุดข้อมูลแต่ละจุดที่กำหนดให้กับคลัสเตอร์อื่น จากนั้นคลัสเตอร์สองกลุ่มที่อยู่ใกล้กันมากที่สุดจะถูกผสมเป็นคลัสเตอร์เดียว การรวมแบบวนซ้ำจะดำเนินต่อไปจนกว่าจะมีคลัสเตอร์เดียวเท่านั้นที่ยังคงอยู่ที่ด้านบน
วิธีนี้เรียกว่าจากล่างขึ้นบนหรือรวมกัน หากคุณเริ่มต้นด้วยรายการข้อมูลทั้งหมดที่เชื่อมโยงกับคลัสเตอร์เดียวกัน จากนั้นดำเนินการแยกจนกว่าแต่ละรายการข้อมูลจะถูกกำหนดเป็นคลัสเตอร์ที่แยกจากกัน วิธีการนี้เรียกว่าการทำคลัสเตอร์แบบลำดับชั้นจากบนลงล่างหรือแบบแบ่งชั้น
อัลกอริทึม Apriori
การวิเคราะห์ตะกร้าตลาดทำให้อัลกอริธึม apriori เป็นที่นิยม ส่งผลให้มีเครื่องมือแนะนำที่หลากหลายสำหรับแพลตฟอร์มเพลงและร้านค้าออนไลน์
ใช้ในชุดข้อมูลธุรกรรมเพื่อค้นหาชุดรายการที่พบบ่อย หรือการจัดกลุ่มรายการ เพื่อคาดการณ์แนวโน้มที่จะบริโภคผลิตภัณฑ์หนึ่งโดยพิจารณาจากการบริโภคของอีกผลิตภัณฑ์หนึ่ง
ตัวอย่างเช่น ถ้าฉันเริ่มเล่นวิทยุของ OneRepublic บน Spotify ด้วยเพลง "Counting Stars" เพลงอื่นๆ ในช่องนี้จะเป็นเพลง Imagine Dragon อย่างแน่นอน เช่น "Bad Liar"
สิ่งนี้อิงจากนิสัยการฟังครั้งก่อนของฉันและรูปแบบการฟังของผู้อื่น เมธอด Apriori นับชุดไอเท็มโดยใช้แผนผังแฮช โดยข้ามผ่านชุดข้อมูลที่มีความกว้างก่อน
การลดขนาด
การลดมิติข้อมูลเป็นการเรียนรู้แบบไม่มีผู้ดูแลที่ใช้ชุดกลยุทธ์เพื่อลดจำนวนคุณลักษณะหรือมิติในชุดข้อมูล ให้เราชี้แจง
การรวมข้อมูลให้ได้มากที่สุดในขณะที่สร้าง . ของคุณอาจเป็นเรื่องน่าดึงดูดใจ ชุดข้อมูลสำหรับแมชชีนเลิร์นนิง. อย่าเข้าใจเราผิด: กลยุทธ์นี้ใช้ได้ดีเนื่องจากข้อมูลมักจะให้ผลการค้นพบที่แม่นยำยิ่งขึ้น
สมมติว่าข้อมูลถูกเก็บไว้ในสเปซ N โดยแต่ละคุณลักษณะจะแสดงถึงมิติที่แตกต่างกัน อาจมีมิติข้อมูลหลายร้อยรายการหากมีข้อมูลจำนวนมาก
พิจารณาสเปรดชีต Excel โดยมีคอลัมน์แสดงคุณลักษณะและแถวที่แสดงรายการข้อมูล เมื่อมีมิติข้อมูลมากเกินไป อัลกอริธึม ML อาจทำงานได้ไม่ดีและ การสร้างภาพข้อมูล อาจกลายเป็นเรื่องยาก
ดังนั้นจึงทำให้มีเหตุผลในการจำกัดลักษณะหรือมิติข้อมูล และนำเสนอเฉพาะข้อมูลที่เกี่ยวข้องเท่านั้น การลดขนาดเป็นเพียงแค่นั้น อนุญาตให้ป้อนข้อมูลปริมาณที่จัดการได้โดยไม่กระทบต่อความสมบูรณ์ของชุดข้อมูล
การวิเคราะห์องค์ประกอบหลัก (PCA)
การวิเคราะห์องค์ประกอบหลักคือแนวทางการลดขนาด ใช้เพื่อลดจำนวนคุณลักษณะในชุดข้อมูลขนาดใหญ่ ส่งผลให้ข้อมูลเรียบง่ายขึ้นโดยไม่ลดทอนความแม่นยำ
การบีบอัดชุดข้อมูลทำได้โดยวิธีการที่เรียกว่าการแยกคุณลักษณะ แสดงว่าองค์ประกอบจากชุดเดิมถูกผสมเข้าด้วยกันเป็นชุดใหม่ที่เล็กกว่า ลักษณะใหม่เหล่านี้เรียกว่าองค์ประกอบหลัก
แน่นอนว่ายังมีอัลกอริธึมเพิ่มเติมที่คุณสามารถใช้ได้ในแอปพลิเคชันการเรียนรู้แบบไม่มีผู้ดูแล รายการข้างต้นเป็นเพียงที่แพร่หลายมากที่สุด ซึ่งเป็นเหตุผลว่าทำไมจึงมีการกล่าวถึงในรายละเอียดเพิ่มเติม
การประยุกต์ใช้การเรียนรู้แบบไม่มีผู้ดูแล
- วิธีการเรียนรู้แบบไม่มีผู้ดูแลจะใช้สำหรับงานการรับรู้ทางสายตา เช่น การจดจำวัตถุ
- แมชชีนเลิร์นนิงโดยไม่ได้รับการดูแลจะให้แง่มุมที่สำคัญต่อระบบการถ่ายภาพทางการแพทย์ เช่น การระบุภาพ การจำแนกประเภท และการแบ่งส่วน ซึ่งใช้ในรังสีวิทยาและพยาธิวิทยาเพื่อวินิจฉัยผู้ป่วยอย่างรวดเร็วและเชื่อถือได้
- การเรียนรู้แบบไม่มีผู้ดูแลสามารถช่วยระบุแนวโน้มของข้อมูลที่สามารถใช้เพื่อสร้างกลยุทธ์การขายต่อเนื่องที่มีประสิทธิภาพมากขึ้นโดยใช้ข้อมูลในอดีตเกี่ยวกับพฤติกรรมของผู้บริโภค ในระหว่างขั้นตอนการชำระเงิน ธุรกิจออนไลน์จะใช้ข้อมูลนี้เพื่อแนะนำส่วนเสริมที่เหมาะสมให้กับลูกค้า
- วิธีการเรียนรู้แบบไม่มีผู้ดูแลสามารถกรองข้อมูลปริมาณมหาศาลเพื่อค้นหาค่าผิดปกติ ความผิดปกติเหล่านี้อาจทำให้แจ้งอุปกรณ์ทำงานผิดพลาด ความผิดพลาดของมนุษย์ หรือการละเมิดความปลอดภัย
ปัญหาเกี่ยวกับการเรียนรู้แบบไม่มีผู้ดูแล
การเรียนรู้โดยไม่ได้รับการดูแลเป็นสิ่งที่น่าดึงดูดใจในหลายๆ ด้าน ตั้งแต่ศักยภาพในการค้นหาข้อมูลเชิงลึกที่สำคัญใน ข้อมูลเพื่อหลีกเลี่ยงการติดฉลากข้อมูลราคาแพง การดำเนินงาน อย่างไรก็ตาม มีข้อเสียหลายประการในการใช้กลยุทธ์นี้ในการฝึก โมเดลการเรียนรู้ของเครื่อง ที่คุณควรทราบ นี่คือตัวอย่างบางส่วน.
- เนื่องจากข้อมูลที่ป้อนเข้าไม่มีป้ายกำกับที่ทำหน้าที่เป็นคีย์การตอบสนอง ผลลัพธ์ของโมเดลการเรียนรู้ที่ไม่มีผู้ดูแลจึงอาจแม่นยำน้อยกว่า
- การเรียนรู้โดยไม่ได้รับการดูแลมักจะทำงานกับชุดข้อมูลขนาดใหญ่ ซึ่งสามารถเพิ่มความซับซ้อนในการคำนวณได้
- วิธีการนี้จำเป็นต้องมีการยืนยันผลลัพธ์โดยมนุษย์ ไม่ว่าจะเป็นผู้เชี่ยวชาญภายในหรือภายนอกในเรื่องที่สอบสวน
- อัลกอริทึมจะต้องตรวจสอบและคำนวณทุกสถานการณ์ที่เป็นไปได้ตลอดขั้นตอนการฝึก ซึ่งต้องใช้เวลาพอสมควร
สรุป
การใช้ข้อมูลอย่างมีประสิทธิภาพเป็นกุญแจสำคัญในการสร้างความได้เปรียบในการแข่งขันในตลาดเฉพาะ
คุณสามารถแบ่งกลุ่มข้อมูลโดยใช้อัลกอริธึมแมชชีนเลิร์นนิงที่ไม่ได้รับการดูแล เพื่อตรวจสอบความชอบของผู้ชมเป้าหมายของคุณ หรือเพื่อกำหนดว่าการติดเชื้อบางประเภทตอบสนองต่อการรักษาเฉพาะอย่างไร
มีการใช้งานจริงหลายประการและ นักวิทยาศาสตร์ข้อมูลวิศวกร และสถาปนิกสามารถช่วยเหลือคุณในการกำหนดเป้าหมายและพัฒนาโซลูชัน ML เฉพาะสำหรับบริษัทของคุณ
เขียนความเห็น