โมเดลการเรียนรู้ของเครื่องและการเรียนรู้เชิงลึกส่วนใหญ่อาศัยปริมาณข้อมูลและความหลากหลายเป็นอย่างมากเพื่อให้ทำงานได้ดี ปริมาณและความหลากหลายของข้อมูลที่ให้ในระหว่างการฝึกอบรมมีผลกระทบอย่างมากต่อความแม่นยำในการทำนายของแบบจำลองเหล่านี้
โมเดลการเรียนรู้เชิงลึกที่ได้รับการสอนให้ทำงานอย่างมีประสิทธิภาพในงานที่ซับซ้อนมักรวมถึงเซลล์ประสาทที่ซ่อนอยู่ จำนวนพารามิเตอร์ที่ฝึกได้จะเพิ่มขึ้นตามจำนวนเซลล์ประสาทที่ซ่อนอยู่
ปริมาณข้อมูลที่ต้องการเป็นสัดส่วนกับจำนวนพารามิเตอร์ที่เรียนรู้ได้จากแบบจำลอง วิธีหนึ่งในการจัดการกับความยากของข้อมูลที่จำกัดคือการใช้การแปลงที่หลากหลายกับข้อมูลปัจจุบันเพื่อสังเคราะห์ข้อมูลใหม่
เทคนิคการสังเคราะห์ข้อมูลใหม่จากข้อมูลที่มีอยู่เรียกว่า 'การเพิ่มข้อมูล' การเสริมข้อมูลสามารถใช้เพื่อตอบสนองความต้องการทั้งสองได้: ปริมาณข้อมูลและความหลากหลายของข้อมูลการฝึกอบรมที่จำเป็นในการพัฒนาให้ถูกต้อง แมชชีนเลิร์นนิงหรือโมเดลการเรียนรู้เชิงลึก.
ในบทความนี้ เราจะพิจารณาอย่างใกล้ชิดถึงการเพิ่มข้อมูล ประเภทของข้อมูล เหตุใดจึงจำเป็น และอื่นๆ อีกมากมาย
ดังนั้น Data Augmentation คืออะไร?
การเสริมข้อมูลเป็นกระบวนการของการพัฒนาข้อมูลใหม่และข้อมูลที่เป็นตัวแทนจากข้อมูลที่มีอยู่ คุณสามารถทำสิ่งนี้ได้โดยการรวมเวอร์ชันที่แก้ไขของข้อมูลที่มีอยู่หรือสังเคราะห์ข้อมูลใหม่
ชุดข้อมูลที่ผลิตโดยวิธีนี้จะปรับปรุงการเรียนรู้ของเครื่องของคุณหรือ โมเดลการเรียนรู้เชิงลึก โดยลดความเสี่ยงของการโอเวอร์ฟิตให้เหลือน้อยที่สุด เป็นกระบวนการเปลี่ยนแปลงหรือ "เพิ่ม" ชุดข้อมูลที่มีข้อมูลเพิ่มเติม
ข้อมูลเสริมนี้อาจมีตั้งแต่รูปภาพไปจนถึงข้อความ และช่วยเพิ่มประสิทธิภาพของระบบการเรียนรู้ของเครื่อง
สมมติว่าเราต้องการสร้างแบบจำลองเพื่อจัดหมวดหมู่สายพันธุ์สุนัข และเรามีรูปถ่ายทุกสายพันธุ์จำนวนมาก ยกเว้นปั๊ก ด้วยเหตุนี้ โมเดลจึงมีปัญหาในการจัดหมวดหมู่ปั๊ก
เราสามารถเพิ่มภาพถ่ายปั๊กเพิ่มเติม (จริงหรือเท็จ) ลงในคอลเล็กชัน หรือเราอาจเพิ่มรูปถ่ายปั๊กปัจจุบันของเราเป็นสองเท่า (เช่น โดยการจำลองและบิดเบือนเพื่อให้มีเอกลักษณ์เฉพาะตัว)
ปัจจุบันการเสริมข้อมูลมีประโยชน์อย่างไร?
แอพสำหรับ เรียนรู้เครื่อง กำลังพัฒนาและกระจายความเสี่ยงอย่างรวดเร็ว โดยเฉพาะอย่างยิ่งในด้านการเรียนรู้เชิงลึก ความท้าทายที่อุตสาหกรรมปัญญาประดิษฐ์ต้องเผชิญสามารถเอาชนะได้ด้วยเทคนิคการเสริมข้อมูล
การเพิ่มข้อมูลสามารถปรับปรุงประสิทธิภาพและผลลัพธ์ของโมเดลการเรียนรู้ของเครื่องโดยการเพิ่มตัวอย่างใหม่และหลากหลายให้กับชุดข้อมูลการฝึกอบรม
เมื่อชุดข้อมูลมีขนาดใหญ่และเพียงพอ โมเดลการเรียนรู้ของเครื่องจะทำงานได้ดีขึ้นและแม่นยำยิ่งขึ้น สำหรับโมเดลแมชชีนเลิร์นนิง การรวบรวมข้อมูลและการติดฉลากอาจใช้เวลานานและมีราคาแพง
บริษัทต่างๆ สามารถลดต้นทุนการดำเนินงานได้โดยการเปลี่ยนชุดข้อมูลและใช้กลยุทธ์การเพิ่มข้อมูล
ข้อมูลการทำความสะอาดเป็นหนึ่งในขั้นตอนในการพัฒนาแบบจำลองข้อมูล และจำเป็นสำหรับแบบจำลองที่มีความแม่นยำสูง อย่างไรก็ตาม โมเดลจะไม่สามารถคาดการณ์อินพุตที่เหมาะสมจากโลกแห่งความเป็นจริงได้ หากการล้างข้อมูลทำให้ความสามารถในการแสดงข้อมูลลดลง
โมเดลแมชชีนเลิร์นนิงสามารถเสริมความแข็งแกร่งได้โดยใช้วิธีการเสริมข้อมูล ซึ่งทำให้เกิดความแปรปรวนที่แบบจำลองอาจพบได้ในโลกจริง
ประเภทของการเพิ่มข้อมูล
การเสริมข้อมูลจริง
การเพิ่มข้อมูลจริงจะเกิดขึ้นเมื่อคุณเพิ่มข้อมูลเสริมของแท้ลงในชุดข้อมูล ซึ่งอาจมีตั้งแต่ไฟล์ข้อความที่มีคุณสมบัติเพิ่มเติม (สำหรับภาพที่ติดแท็ก) ไปจนถึงภาพของวัตถุอื่นๆ ที่เทียบได้กับวัตถุดั้งเดิม หรือแม้แต่การบันทึกของจริง
ตัวอย่างเช่น การเพิ่มคุณสมบัติสองสามอย่างให้กับไฟล์รูปภาพ โมเดลการเรียนรู้ของเครื่องสามารถตรวจจับรายการได้ง่ายขึ้น
อาจมีการรวมข้อมูลเมตาเพิ่มเติมเกี่ยวกับรูปภาพแต่ละภาพ (เช่น ชื่อและคำอธิบาย) เพื่อให้โมเดล AI ของเราทราบข้อมูลเพิ่มเติมเกี่ยวกับสิ่งที่แต่ละภาพแสดงถึงก่อนที่จะเริ่มการฝึกอบรมเกี่ยวกับรูปภาพเหล่านั้น
เมื่อถึงเวลาต้องจัดหมวดหมู่ภาพถ่ายสดเป็นหมวดหมู่ที่กำหนดไว้ล่วงหน้า เช่น "แมว" หรือ "สุนัข" โมเดลอาจตรวจจับรายการที่มีอยู่ในภาพได้ดีขึ้นและทำงานได้ดีขึ้นโดยรวม
ข้อมูลสังเคราะห์ การขยาย
นอกจากการเพิ่มข้อมูลจริงแล้ว คุณยังสามารถมีส่วนร่วมได้ ข้อมูลสังเคราะห์ หรือข้อมูลเทียมที่ดูเหมือนจริง
สิ่งนี้มีประโยชน์สำหรับงานที่ยากลำบาก เช่น การถ่ายโอนรูปแบบประสาท แต่ก็ดีสำหรับการออกแบบใดๆ เช่นกัน ไม่ว่าคุณจะใช้ GAN (Generative Adversarial Networks), CNN (Convolutional Neural Networks) หรือสถาปัตยกรรมโครงข่ายประสาทเทียมระดับลึกอื่นๆ
ตัวอย่างเช่น หากเราต้องการจัดหมวดหมู่สุนัขปั๊กอย่างถูกต้องโดยไม่ต้องออกไปถ่ายรูปเป็นจำนวนมาก เราอาจเพิ่มรูปถ่ายปั๊กปลอมลงในคอลเล็กชันภาพสุนัข
การเพิ่มข้อมูลรูปแบบนี้มีประสิทธิภาพโดยเฉพาะอย่างยิ่งในการเพิ่มความแม่นยำของแบบจำลอง เมื่อการรวบรวมข้อมูลทำได้ยาก มีราคาแพง หรือใช้เวลานาน ในสถานการณ์นี้ เรากำลังขยายชุดข้อมูลปลอม
สมมติว่ากลุ่มแรกของเราที่มีรูปถ่ายสายพันธุ์สุนัขจำนวน 1000 รูป มีเพียง 5 ภาพเท่านั้น แทนที่จะเพิ่มภาพถ่ายจริงของสุนัขปั๊กจากสุนัขจริง เรามาสร้างภาพปลอมด้วยการโคลนหนึ่งในภาพปัจจุบันและบิดเบี้ยวเล็กน้อยเพื่อให้ดูเหมือนปั๊ก
เทคนิคการเสริมข้อมูล
วิธีการเสริมข้อมูลทำให้เกิดการปรับเปลี่ยนข้อมูลที่มีอยู่เพียงเล็กน้อย มันเหมือนกับการใช้ถ้อยคำใหม่ เราสามารถแบ่งการเสริมข้อมูลออกเป็นสามประเภท:
ข้อความ
- การแทนที่คำ: วิธีการเสริมข้อมูลนี้รวมถึงการแทนที่คำปัจจุบันด้วยคำพ้องความหมาย ตัวอย่างเช่น "ภาพยนตร์เรื่องนี้โง่" อาจกลายเป็น "ภาพยนตร์เรื่องนี้งี่เง่า"
- ประโยค/การสับเปลี่ยนคำ: กลยุทธ์นี้เกี่ยวข้องกับการเปลี่ยนลำดับของวลีหรือคำในขณะที่ยังคงความสอดคล้องกันโดยรวม
- Syntax-Tree Manipulation: คุณเปลี่ยนประโยคที่มีอยู่ให้ถูกต้องตามหลักไวยากรณ์ในขณะที่ใช้คำศัพท์เดียวกัน
- การลบแบบสุ่ม: แม้ว่ากลยุทธ์นี้จะสร้างการเขียนที่น่าเกลียด แต่ก็มีประสิทธิภาพ เป็นผลให้บรรทัด "ฉันจะไม่ซื้อบันทึกนี้เพราะมีรอยขีดข่วน" กลายเป็น "ฉันจะไม่ซื้อเพราะมันเป็นรอยขีดข่วน" วลีมีความชัดเจนน้อยกว่า แต่ยังคงเป็นการเพิ่มที่น่าเชื่อถือ
- การแปลกลับ: แนวทางนี้ทั้งมีประสิทธิภาพและน่าพึงพอใจ นำข้อความที่เขียนในภาษาของคุณ แปลเป็นภาษาอื่น แล้วแปลกลับเป็นภาษาเดิมของคุณ
ภาพ
- ตัวกรองเคอร์เนล: วิธีการนี้จะทำให้ภาพคมชัดขึ้นหรือเบลอ
- การรวมรูปภาพ: แม้ว่าภาพอาจดูแปลก แต่คุณสามารถผสมรูปภาพได้
- การลบแบบสุ่ม: ลบส่วนเล็กๆ ของรูปภาพปัจจุบัน
- การแปลงรูปทางเรขาคณิต: วิธีการนี้ประกอบด้วยการพลิก หมุน ครอบตัด หรือแปลรูปภาพตามอำเภอใจ
- การพลิกรูปภาพ: คุณสามารถพลิกรูปภาพจากแนวนอนเป็นแนวตั้งได้
- การแปลงพื้นที่สี: คุณสามารถแก้ไขช่องสี RGB หรือปรับปรุงสีปัจจุบันได้
- Re-Scaling เป็นกระบวนการปรับมาตราส่วนภาพ คุณมีตัวเลือกในการปรับขนาดเข้าหรือออก เมื่อคุณปรับขนาดเข้าด้านใน รูปภาพจะเล็กกว่าขนาดเริ่มต้น รูปภาพจะใหญ่กว่าต้นฉบับหากคุณขยายออกด้านนอก
เสียง
- ระดับเสียง: วิธีการนี้เกี่ยวข้องกับการเปลี่ยนระดับเสียง
- เปลี่ยนความเร็ว: เปลี่ยนความเร็วของไฟล์เสียงหรือการบันทึก
- เสียงรบกวนเพิ่มเติม: คุณสามารถเพิ่มเสียงรบกวนให้กับไฟล์เสียงได้มากขึ้น
ใช้กรณี
การถ่ายภาพทางการแพทย์เป็นกรณีการใช้งานที่สำคัญสำหรับการเพิ่มข้อมูลในขณะนี้ คอลเล็กชันรูปภาพทางการแพทย์มีขนาดเล็ก และการแชร์ข้อมูลทำได้ยากเนื่องจากกฎเกณฑ์และข้อกังวลด้านความเป็นส่วนตัว
นอกจากนี้ ชุดข้อมูลยังมีข้อจำกัดมากกว่าในกรณีของความผิดปกติที่ไม่ปกติ บริษัทเกี่ยวกับภาพทางการแพทย์ใช้การเสริมข้อมูลเพื่อกระจายชุดข้อมูลของตน
ความท้าทาย
ความสามารถในการปรับขนาด ชุดข้อมูลที่หลากหลาย และความเกี่ยวข้องคือปัญหาบางอย่างที่ต้องแก้ไขเพื่อพัฒนาเทคนิคการเสริมข้อมูลที่มีประสิทธิภาพ
ในแง่ของความสามารถในการปรับขนาด ข้อมูลเสริมจะต้องสามารถปรับขนาดได้เพื่อให้โมเดลต่างๆ สามารถใช้งานได้ คุณจะต้องแน่ใจว่าสิ่งนี้สามารถทำซ้ำเพื่อใช้กับโมเดลในอนาคตได้ เนื่องจากการตั้งค่าระบบเสริมข้อมูลที่สร้างข้อมูลที่เกี่ยวข้อง มีค่า และปรับปรุงจำนวนมากอาจใช้เวลาพอสมควร
ในแง่ของความหลากหลาย ชุดข้อมูลต่างๆ มีคุณสมบัติที่แตกต่างกันซึ่งต้องพิจารณาในขณะที่พัฒนาข้อมูลเสริม ในการพัฒนาข้อมูลที่ได้รับการปรับปรุงอย่างเหมาะสม ต้องใช้คุณสมบัติของชุดข้อมูลแต่ละชุด
กล่าวอีกนัยหนึ่ง การเพิ่มข้อมูลจะแตกต่างกันระหว่างชุดข้อมูลและกรณีการใช้งาน
สุดท้ายนี้ เพื่อรับประกันว่าข้อดีของข้อมูลที่เพิ่มขึ้นนั้นเกินอันตรายใดๆ ข้อมูลเสริมควรได้รับการประเมินโดยใช้ตัวชี้วัดที่เหมาะสมก่อนที่จะนำไปใช้โดยโมเดลการเรียนรู้ของเครื่อง
ตัวอย่างเช่น การมีอยู่ของสัญญาณรบกวนพื้นหลังที่มีนัยสำคัญหรือรายการที่ไม่เกี่ยวข้องในข้อมูลเสริมที่อิงจากภาพอาจส่งผลเสียต่อประสิทธิภาพของโมเดล
สรุป
ในที่สุด ไม่ว่าคุณจะพยายามคาดการณ์การสูญเสีย ระบุการฉ้อโกงทางการเงิน หรือสร้างให้ดีขึ้น การจำแนกภาพ โมเดล การเพิ่มข้อมูลเป็นวิธีที่สำคัญในการสร้างแบบจำลองที่แม่นยำและแข็งแกร่งยิ่งขึ้น
ด้วยขั้นตอนการฝึกอบรมที่เหนือกว่า การประมวลผลล่วงหน้าอย่างง่ายและการเสริมข้อมูลสามารถช่วยทีมในการพัฒนาแบบจำลองที่ล้ำสมัย
ธุรกิจสามารถใช้การเสริมข้อมูลเพื่อลดระยะเวลาที่ใช้ในการเตรียมข้อมูลการฝึกอบรม และสร้างแบบจำลองการเรียนรู้ของเครื่องที่แม่นยำและรวดเร็วยิ่งขึ้น.
ด้วยการขยายปริมาณข้อมูลที่เกี่ยวข้องในชุดข้อมูล การเพิ่มข้อมูลยังสามารถเป็นประโยชน์ต่อโมเดลการเรียนรู้ของเครื่องที่มีข้อมูลจำนวนมากอยู่แล้ว
เขียนความเห็น