การติดฉลากข้อมูล - สิ่งสำคัญสำหรับโมเดล AI

สารบัญ[ซ่อน][แสดง]

แล้ว Data Labeling คืออะไร?
การติดฉลากข้อมูล: เหตุใดจึงสำคัญ
การติดฉลากข้อมูลทำงานอย่างไร+-
กลยุทธ์การติดฉลากข้อมูล+-
ความท้าทายของการติดฉลากข้อมูล+-
การติดฉลากข้อมูลประเภททั่วไป+-
สรุป

หุ่นยนต์วาดภาพเหมือนในภาพยนตร์นิยายวิทยาศาสตร์ที่เลียนแบบหรือเหนือกว่าสติปัญญาของมนุษย์เมื่อได้ยินคำว่าปัญญาประดิษฐ์ การเรียนรู้เชิงลึก และการเรียนรู้ของเครื่อง

คนอื่นคิดว่าอุปกรณ์เหล่านี้เพียงรับข้อมูลและเรียนรู้จากมันด้วยตัวเอง ก็… มันหลอกลวงนิดหน่อย การติดฉลากข้อมูลเป็นวิธีการที่ใช้ในการฝึกอบรมคอมพิวเตอร์ให้กลายเป็น "อัจฉริยะ" เนื่องจากมีความสามารถจำกัดโดยปราศจากคำแนะนำของมนุษย์

เพื่อฝึกคอมพิวเตอร์ให้ทำหน้าที่ "อย่างชาญฉลาด" เราป้อนข้อมูลในรูปแบบต่างๆ และสอนกลยุทธ์ต่างๆ โดยใช้การติดฉลากข้อมูล

ชุดข้อมูลต้องใส่คำอธิบายประกอบหรือติดป้ายกำกับด้วยการเรียงสับเปลี่ยนของข้อมูลเดียวกันจำนวนมาก ซึ่งเป็นส่วนหนึ่งของการติดฉลากข้อมูลที่เป็นพื้นฐานของวิทยาศาสตร์

ความพยายามและความทุ่มเทที่ใส่ลงไปในผลิตภัณฑ์ขั้นสุดท้ายนั้นน่ายกย่อง แม้ว่าจะเป็นเรื่องที่น่าประหลาดใจและทำให้ชีวิตประจำวันของเราง่ายขึ้น

เรียนรู้เกี่ยวกับ data labeling ในบทความนี้เพื่อเรียนรู้ว่ามันคืออะไร, ทำงานอย่างไร, ประเภทของ data labeling, อุปสรรค และอื่นๆ อีกมากมาย

แล้ว Data Labeling คืออะไร?

In เรียนรู้เครื่องความสามารถและลักษณะของข้อมูลอินพุตเป็นตัวกำหนดขนาดและลักษณะของเอาต์พุต ความแม่นยำของโมเดล AI ของคุณได้รับการปรับปรุงโดยความสามารถของข้อมูลที่ใช้ในการฝึก

ในอีกแง่หนึ่ง การติดฉลากข้อมูลเป็นการกระทำของการติดฉลากหรือใส่คำอธิบายประกอบชุดข้อมูลที่ไม่มีโครงสร้างหรือแบบมีโครงสร้างต่างๆ เพื่อสอนคอมพิวเตอร์ให้ระบุความแตกต่างและรูปแบบระหว่างข้อมูลเหล่านั้น

ภาพประกอบจะช่วยให้คุณเข้าใจสิ่งนี้ จำเป็นต้องแท็กไฟแดงทุกดวงในรูปภาพต่างๆ เพื่อให้คอมพิวเตอร์เรียนรู้ว่าแสงสีแดงเป็นสัญญาณให้หยุด

บนพื้นฐานของสิ่งนี้ AI พัฒนาอัลกอริธึมที่จะตีความแสงสีแดงเป็นสัญญาณหยุดในทุกสถานการณ์ อีกตัวอย่างหนึ่งคือความสามารถในการจัดหมวดหมู่ชุดข้อมูลต่างๆ ภายใต้หัวข้อของแจ๊ส ป๊อป ร็อค คลาสสิก และอื่นๆ เพื่อแยกแนวดนตรีต่างๆ

พูดง่ายๆ ก็คือ การติดฉลากข้อมูลในแมชชีนเลิร์นนิงหมายถึงกระบวนการตรวจจับข้อมูลที่ไม่มีป้ายกำกับ (เช่น รูปภาพ ไฟล์ข้อความ วิดีโอ ฯลฯ) และเพิ่มป้ายกำกับที่เกี่ยวข้องอย่างน้อยหนึ่งรายการเพื่อให้บริบทเพื่อให้โมเดลการเรียนรู้ของเครื่องสามารถเรียนรู้ได้ มัน.

ฉลากอาจกล่าวได้ เช่น เอ็กซเรย์แสดงเนื้องอกหรือไม่ มีการพูดคำใดในคลิปเสียง หรือภาพนกหรือรถยนต์

การติดฉลากข้อมูลเป็นสิ่งจำเป็นสำหรับกรณีการใช้งานต่างๆ รวมถึงการรู้จำคำพูด วิสัยทัศน์คอมพิวเตอร์และการประมวลผลภาษาธรรมชาติ

การติดฉลากข้อมูล: เหตุใดจึงสำคัญ

ประการแรก การปฏิวัติอุตสาหกรรมครั้งที่สี่เน้นที่ทักษะของเครื่องจักรฝึกหัด เป็นผลให้ซอฟต์แวร์ได้รับการจัดอันดับให้เป็นหนึ่งในความก้าวหน้าของซอฟต์แวร์ที่สำคัญที่สุดในปัจจุบัน

ต้องสร้างระบบการเรียนรู้ของเครื่องซึ่งเกี่ยวข้องกับการติดฉลากข้อมูล มันกำหนดความสามารถของระบบ จะไม่มีระบบหากไม่มีการติดฉลากข้อมูล

ความเป็นไปได้ของการติดฉลากข้อมูลจะถูกจำกัดด้วยความคิดสร้างสรรค์ของคุณเท่านั้น การดำเนินการใด ๆ ที่คุณสามารถแมปเข้าสู่ระบบได้จะทำซ้ำด้วยข้อมูลใหม่

หมายความว่าประเภท ปริมาณ และความหลากหลายของข้อมูลที่คุณสามารถสอนให้กับระบบได้จะเป็นตัวกำหนดความฉลาดและความสามารถของระบบ

ประการที่สองคืองานการติดฉลากข้อมูลมาก่อนงานวิทยาศาสตร์ข้อมูล ดังนั้น การติดฉลากข้อมูลจึงจำเป็นสำหรับวิทยาศาสตร์ข้อมูล ความล้มเหลวและข้อผิดพลาดในการติดฉลากข้อมูลส่งผลต่อวิทยาศาสตร์ข้อมูล อีกวิธีหนึ่งคือใช้ความคิดโบราณที่หยาบคาย "ถังขยะเข้าทิ้งขยะ"

ประการที่สาม The Art of Data Labelling หมายถึงการเปลี่ยนแปลงวิธีที่ผู้คนเข้าใกล้การพัฒนาระบบ AI เราปรับปรุงโครงสร้างของการติดฉลากข้อมูลไปพร้อม ๆ กันเพื่อให้บรรลุเป้าหมายของเราได้ดียิ่งขึ้น แทนที่จะพยายามปรับปรุงเทคนิคทางคณิตศาสตร์เพียงอย่างเดียว

ระบบอัตโนมัติสมัยใหม่ใช้สิ่งนี้ และเป็นศูนย์กลางของการแปลง AI ที่กำลังดำเนินการอยู่ ตอนนี้งานความรู้กำลังถูกขับเคลื่อนด้วยเครื่องจักรมากกว่าที่เคย

การติดฉลากข้อมูลทำงานอย่างไร

ลำดับเวลาต่อไปนี้จะถูกปฏิบัติตามระหว่างขั้นตอนการติดฉลากข้อมูล

การรวบรวมข้อมูล

ข้อมูลเป็นรากฐานที่สำคัญของความพยายามในการเรียนรู้ของเครื่อง ขั้นตอนเริ่มต้นในการติดฉลากข้อมูลประกอบด้วยการรวบรวมข้อมูลดิบในปริมาณที่เหมาะสมในรูปแบบต่างๆ

การรวบรวมข้อมูลอาจมีรูปแบบใดรูปแบบหนึ่งจากสองรูปแบบ ได้แก่ มาจากแหล่งข้อมูลภายในที่ธุรกิจใช้อยู่ หรือมาจากแหล่งข้อมูลภายนอกที่เข้าถึงได้โดยสาธารณะ

เนื่องจากอยู่ในรูปแบบดิบ ข้อมูลนี้จึงต้องได้รับการล้างและประมวลผลก่อนที่จะสร้างป้ายกำกับชุดข้อมูล โมเดลจะได้รับการฝึกอบรมโดยใช้ข้อมูลที่ล้างและประมวลผลล่วงหน้านี้ ผลการวิจัยจะแม่นยำยิ่งขึ้นด้วยชุดข้อมูลที่มีขนาดใหญ่และหลากหลายมากขึ้น

การใส่คำอธิบายประกอบข้อมูล

หลังจากการล้างข้อมูล ผู้เชี่ยวชาญด้านโดเมนจะตรวจสอบข้อมูลและติดฉลากโดยใช้เทคนิคการติดฉลากข้อมูลหลายแบบ โมเดลนี้มีบริบทที่มีความหมายซึ่งสามารถนำมาใช้เป็นความจริงพื้นฐานได้

นี่คือตัวแปรที่คุณต้องการให้โมเดลคาดการณ์ เช่น ภาพถ่าย

การันตีคุณภาพ

คุณภาพของข้อมูลซึ่งควรเชื่อถือได้ ถูกต้อง และสม่ำเสมอ มีความสำคัญต่อความสำเร็จของการฝึกโมเดล ML ต้องดำเนินการทดสอบ QA เป็นประจำเพื่อรับประกันการติดฉลากข้อมูลที่ถูกต้องและแม่นยำเหล่านี้

เป็นไปได้ที่จะประเมินความถูกต้องของคำอธิบายประกอบเหล่านี้โดยใช้เทคนิค QA เช่น Consensus และการทดสอบอัลฟ่าของ Cronbach ความถูกต้องของผลลัพธ์ดีขึ้นมากโดยการตรวจสอบ QA เป็นประจำ

โมเดลการฝึกอบรมและการทดสอบ

ขั้นตอนดังกล่าวจะสมเหตุสมผลก็ต่อเมื่อข้อมูลได้รับการตรวจสอบความถูกต้องเท่านั้น เทคนิคนี้จะถูกนำไปทดสอบโดยรวมชุดข้อมูลที่ไม่มีโครงสร้างเพื่อตรวจสอบว่าได้ผลลัพธ์ที่ต้องการหรือไม่

กลยุทธ์การติดฉลากข้อมูล

การติดฉลากข้อมูลเป็นกระบวนการที่ต้องใช้ความเอาใจใส่ในรายละเอียด วิธีการที่ใช้ในการใส่คำอธิบายประกอบข้อมูลจะแตกต่างกันไปตามคำชี้แจงปัญหา จำนวนข้อมูลที่ต้องแท็ก ความซับซ้อนของข้อมูล และรูปแบบ

มาดูตัวเลือกที่ธุรกิจของคุณมีกัน โดยขึ้นอยู่กับทรัพยากรที่มีอยู่และเวลาที่มี

การติดฉลากข้อมูลภายในองค์กร

ตามความหมายของชื่อ การติดฉลากข้อมูลภายในองค์กรจะทำโดยผู้เชี่ยวชาญภายในบริษัท เมื่อคุณมีเวลา บุคลากร และทรัพยากรทางการเงินเพียงพอ ตัวเลือกนี้เป็นตัวเลือกที่ดีที่สุดเนื่องจากช่วยให้มั่นใจได้ถึงการติดฉลากที่แม่นยำที่สุด อย่างไรก็ตามมันเคลื่อนที่ช้า

เอาท์ซอร์ส

อีกทางเลือกหนึ่งในการทำสิ่งต่างๆ ให้สำเร็จคือการจ้าง freelancer สำหรับงาน data label ที่สามารถค้นพบได้ในการหางานและตลาดอิสระต่างๆ เช่น Upwork

การเอาท์ซอร์สเป็นตัวเลือกที่รวดเร็วในการรับบริการการติดฉลากข้อมูล อย่างไรก็ตาม คุณภาพอาจได้รับผลกระทบ เช่นเดียวกับวิธีการก่อนหน้านี้

crowdsourcing

คุณสามารถเข้าสู่ระบบในฐานะผู้ขอและแจกจ่ายงานการติดฉลากต่างๆ ให้กับผู้รับเหมาที่มีอยู่ในแพลตฟอร์มการระดมมวลชนเฉพาะทาง เช่น อังคารเครื่องกลเติร์ก (เอ็มเติร์ก).

วิธีการนี้แม้จะรวดเร็วและราคาไม่แพง แต่ก็ไม่สามารถให้ข้อมูลที่มีคำอธิบายประกอบที่มีคุณภาพดีได้

การติดฉลากข้อมูลโดยอัตโนมัติ

ขั้นตอนนี้อาจได้รับความช่วยเหลือจากซอฟต์แวร์นอกเหนือจากการดำเนินการด้วยตนเอง เมื่อใช้วิธีการเรียนรู้เชิงรุก คุณจะพบแท็กและเพิ่มลงในชุดข้อมูลการฝึกอบรมโดยอัตโนมัติ

โดยพื้นฐานแล้ว ผู้เชี่ยวชาญที่เป็นมนุษย์พัฒนาโมเดล AI Auto-label เพื่อทำเครื่องหมายข้อมูลดิบที่ไม่มีป้ายกำกับ จากนั้นพวกเขาก็ตัดสินใจว่าแบบจำลองนั้นใช้การติดฉลากอย่างเหมาะสมหรือไม่ มนุษย์แก้ไขข้อผิดพลาดหลังจากความล้มเหลวและฝึกอัลกอริทึมใหม่

การพัฒนาข้อมูลสังเคราะห์

แทนที่ข้อมูลในโลกแห่งความเป็นจริง ข้อมูลสังเคราะห์ เป็นชุดข้อมูลที่มีป้ายกำกับซึ่งผลิตขึ้นเอง มันถูกสร้างขึ้นโดยอัลกอริทึมหรือการจำลองด้วยคอมพิวเตอร์และมักจะใช้ ฝึกโมเดลแมชชีนเลิร์นนิง.

ข้อมูลสังเคราะห์เป็นคำตอบที่ดีเยี่ยมสำหรับปัญหาการขาดแคลนข้อมูลและความหลากหลายในบริบทของขั้นตอนการติดฉลาก การสร้าง ข้อมูลสังเคราะห์ ตั้งแต่เริ่มต้นเสนอวิธีแก้ปัญหา

การสร้างการตั้งค่า 3 มิติด้วยรายการและบริเวณโดยรอบโมเดลจะต้องสามารถรับรู้ได้โดยนักพัฒนาชุดข้อมูล สามารถแสดงข้อมูลสังเคราะห์ได้มากเท่าที่จำเป็นสำหรับโครงการ

ความท้าทายของการติดฉลากข้อมูล

ต้องใช้เวลาและความพยายามมากขึ้น

นอกจากจะเป็นการท้าทายในการรับข้อมูลจำนวนมาก (โดยเฉพาะอย่างยิ่งสำหรับอุตสาหกรรมที่มีความเชี่ยวชาญสูง เช่น การดูแลสุขภาพ) การติดฉลากข้อมูลแต่ละชิ้นด้วยมือนั้นทั้งใช้แรงงานมากและลำบาก ซึ่งจำเป็นต้องได้รับความช่วยเหลือจากผู้ติดฉลากที่เป็นมนุษย์

เกือบ 80% ของเวลาที่ใช้ไปกับโปรเจ็กต์ตลอดวงจรการพัฒนา ML นั้นถูกใช้ไปกับการเตรียมข้อมูล ซึ่งรวมถึงการทำฉลากด้วย

ความเป็นไปได้สำหรับความไม่สอดคล้องกัน

โดยส่วนใหญ่ การติดป้ายกำกับข้าม ซึ่งเกิดขึ้นเมื่อหลายคนติดป้ายกำกับชุดข้อมูลเดียวกัน จะส่งผลให้มีความแม่นยำมากขึ้น

อย่างไรก็ตาม เนื่องจากบางครั้งบุคคลอาจมีระดับความสามารถที่แตกต่างกัน มาตรฐานการติดฉลากและป้ายกำกับอาจไม่สอดคล้องกัน ซึ่งเป็นอีกปัญหาหนึ่ง จึงเป็นไปได้ที่ผู้ใส่คำอธิบายประกอบสองคนขึ้นไปจะไม่เห็นด้วยกับแท็กบางแท็ก

ตัวอย่างเช่น ผู้เชี่ยวชาญคนหนึ่งอาจให้คะแนนรีวิวโรงแรมว่าดี ในขณะที่อีกคนหนึ่งอาจมองว่าเป็นการประชดประชันและให้คะแนนรีวิวต่ำ

ความรู้โดเมน

คุณจะรู้สึกว่าจำเป็นต้องจ้างผู้ติดฉลากที่มีความรู้เฉพาะด้านอุตสาหกรรมสำหรับบางภาคส่วน

ตัวอย่างเช่น ผู้ใส่คำอธิบายประกอบที่ไม่มีความรู้เกี่ยวกับโดเมนที่จำเป็น จะมีช่วงเวลาที่ยากลำบากมากในการแท็กรายการอย่างเหมาะสมในขณะที่สร้างแอป ML สำหรับภาคการดูแลสุขภาพ

มีแนวโน้มที่จะเกิดข้อผิดพลาด

การติดฉลากด้วยมือนั้นขึ้นอยู่กับความผิดพลาดของมนุษย์ ไม่ว่าผู้ติดฉลากของคุณจะมีความรู้และระมัดระวังเพียงใด เนื่องจากคำอธิบายประกอบมักทำงานกับชุดข้อมูลดิบจำนวนมาก จึงเป็นสิ่งที่หลีกเลี่ยงไม่ได้

ลองนึกภาพคนที่ใส่คำอธิบายประกอบภาพ 100,000 ภาพด้วยสิ่งต่างๆ มากถึง 10 อย่าง

การติดฉลากข้อมูลประเภททั่วไป

วิสัยทัศน์คอมพิวเตอร์

ในการพัฒนาชุดข้อมูลการฝึกของคุณ ก่อนอื่นคุณต้องติดป้ายกำกับรูปภาพ พิกเซล หรือจุดสำคัญ หรือสร้างขอบเขตที่ล้อมรอบภาพดิจิทัลอย่างสมบูรณ์ ซึ่งเรียกว่ากล่องขอบเขต เมื่อสร้างระบบวิชันซิสเต็มของคอมพิวเตอร์

ภาพถ่ายสามารถจำแนกได้หลายวิธี รวมถึงตามเนื้อหา (สิ่งที่อยู่ในภาพจริง ๆ ) และคุณภาพ (เช่น ผลิตภัณฑ์เทียบกับช็อตไลฟ์สไตล์)

รูปภาพสามารถแบ่งออกเป็นส่วนต่างๆ ในระดับพิกเซลได้ แบบจำลองคอมพิวเตอร์วิทัศน์ที่พัฒนาขึ้นโดยใช้ข้อมูลการฝึกเหล่านี้สามารถใช้เพื่อจัดประเภทภาพโดยอัตโนมัติ กำหนดตำแหน่งของวัตถุ เน้นพื้นที่สำคัญในภาพ และแบ่งกลุ่มภาพได้

ประมวลผลภาษาธรรมชาติ

ก่อนสร้างชุดข้อมูลการฝึกอบรมการประมวลผลภาษาธรรมชาติ คุณต้องเลือกส่วนข้อความที่เกี่ยวข้องด้วยตนเองหรือจัดประเภทเนื้อหาด้วยป้ายกำกับที่ระบุ

ตัวอย่างเช่น คุณอาจต้องการจดจำรูปแบบคำพูด จำแนกคำนามที่เหมาะสม เช่น สถานที่และผู้คน และระบุข้อความในภาพ ไฟล์ PDF หรือสื่ออื่นๆ คุณอาจต้องการกำหนดความรู้สึกหรือเจตนาของการนำเสนอข้อความ

สร้างกรอบล้อมรอบข้อความในชุดข้อมูลการฝึกของคุณเพื่อทำสิ่งนี้ให้สำเร็จ จากนั้นจึงถอดเสียงด้วยตนเอง

การรู้จำอักขระด้วยแสงการระบุชื่อเอนทิตี และการวิเคราะห์ความรู้สึกทั้งหมดดำเนินการโดยใช้แบบจำลองการประมวลผลภาษาธรรมชาติ

การประมวลผลภาพและเสียง

การประมวลผลเสียงจะเปลี่ยนเสียงทุกประเภทให้อยู่ในรูปแบบที่มีโครงสร้างเพื่อให้สามารถนำไปใช้ในการเรียนรู้ของเครื่อง ซึ่งรวมถึงเสียงพูด เสียงสัตว์ (เสียงเห่า เสียงนกหวีด หรือเสียงเจี๊ยวๆ) และเสียงอาคาร (กระจกแตก การสแกน หรือเสียงไซเรน)

บ่อยครั้ง ก่อนที่คุณจะจัดการกับเสียง คุณต้องแปลงเป็นข้อความด้วยตนเอง หลังจากนั้น การจัดหมวดหมู่และเพิ่มแท็กให้กับเสียง คุณสามารถเรียนรู้ข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับเสียงนั้นได้ ของคุณ ชุดข้อมูลการฝึกอบรม นี่คือเสียงที่จัดประเภท

สรุป

โดยสรุป การระบุข้อมูลของคุณเป็นส่วนสำคัญของการฝึกโมเดล AI อย่างไรก็ตาม องค์กรที่ดำเนินไปอย่างรวดเร็วไม่สามารถใช้เวลาทำด้วยตนเองได้ เนื่องจากต้องใช้เวลานานและใช้พลังงานมาก

นอกจากนี้ยังเป็นขั้นตอนที่มีแนวโน้มว่าจะไม่ถูกต้องและไม่ได้รับประกันความถูกต้องแม่นยำมากนัก ไม่ต้องลำบากขนาดนั้น ซึ่งเป็นข่าวดี

เทคโนโลยีการติดฉลากข้อมูลในปัจจุบันช่วยให้เกิดการทำงานร่วมกันระหว่างมนุษย์และเครื่องจักรเพื่อให้ข้อมูลที่แม่นยำและมีประโยชน์สำหรับแอปพลิเคชันการเรียนรู้ของเครื่องที่หลากหลาย

การติดฉลากข้อมูล – สิ่งสำคัญสำหรับโมเดล AI

แล้ว Data Labeling คืออะไร?

การติดฉลากข้อมูล: เหตุใดจึงสำคัญ