สารบัญ[ซ่อน][แสดง]
หุ่นยนต์วาดภาพเหมือนในภาพยนตร์นิยายวิทยาศาสตร์ที่เลียนแบบหรือเหนือกว่าสติปัญญาของมนุษย์เมื่อได้ยินคำว่าปัญญาประดิษฐ์ การเรียนรู้เชิงลึก และการเรียนรู้ของเครื่อง
คนอื่นคิดว่าอุปกรณ์เหล่านี้เพียงรับข้อมูลและเรียนรู้จากมันด้วยตัวเอง ก็… มันหลอกลวงนิดหน่อย การติดฉลากข้อมูลเป็นวิธีการที่ใช้ในการฝึกอบรมคอมพิวเตอร์ให้กลายเป็น "อัจฉริยะ" เนื่องจากมีความสามารถจำกัดโดยปราศจากคำแนะนำของมนุษย์
เพื่อฝึกคอมพิวเตอร์ให้ทำหน้าที่ "อย่างชาญฉลาด" เราป้อนข้อมูลในรูปแบบต่างๆ และสอนกลยุทธ์ต่างๆ โดยใช้การติดฉลากข้อมูล
ชุดข้อมูลต้องใส่คำอธิบายประกอบหรือติดป้ายกำกับด้วยการเรียงสับเปลี่ยนของข้อมูลเดียวกันจำนวนมาก ซึ่งเป็นส่วนหนึ่งของการติดฉลากข้อมูลที่เป็นพื้นฐานของวิทยาศาสตร์
ความพยายามและความทุ่มเทที่ใส่ลงไปในผลิตภัณฑ์ขั้นสุดท้ายนั้นน่ายกย่อง แม้ว่าจะเป็นเรื่องที่น่าประหลาดใจและทำให้ชีวิตประจำวันของเราง่ายขึ้น
เรียนรู้เกี่ยวกับ data labeling ในบทความนี้เพื่อเรียนรู้ว่ามันคืออะไร, ทำงานอย่างไร, ประเภทของ data labeling, อุปสรรค และอื่นๆ อีกมากมาย
แล้ว Data Labeling คืออะไร?
In เรียนรู้เครื่องความสามารถและลักษณะของข้อมูลอินพุตเป็นตัวกำหนดขนาดและลักษณะของเอาต์พุต ความแม่นยำของโมเดล AI ของคุณได้รับการปรับปรุงโดยความสามารถของข้อมูลที่ใช้ในการฝึก
ในอีกแง่หนึ่ง การติดฉลากข้อมูลเป็นการกระทำของการติดฉลากหรือใส่คำอธิบายประกอบชุดข้อมูลที่ไม่มีโครงสร้างหรือแบบมีโครงสร้างต่างๆ เพื่อสอนคอมพิวเตอร์ให้ระบุความแตกต่างและรูปแบบระหว่างข้อมูลเหล่านั้น
ภาพประกอบจะช่วยให้คุณเข้าใจสิ่งนี้ จำเป็นต้องแท็กไฟแดงทุกดวงในรูปภาพต่างๆ เพื่อให้คอมพิวเตอร์เรียนรู้ว่าแสงสีแดงเป็นสัญญาณให้หยุด
บนพื้นฐานของสิ่งนี้ AI พัฒนาอัลกอริธึมที่จะตีความแสงสีแดงเป็นสัญญาณหยุดในทุกสถานการณ์ อีกตัวอย่างหนึ่งคือความสามารถในการจัดหมวดหมู่ชุดข้อมูลต่างๆ ภายใต้หัวข้อของแจ๊ส ป๊อป ร็อค คลาสสิก และอื่นๆ เพื่อแยกแนวดนตรีต่างๆ
พูดง่ายๆ ก็คือ การติดฉลากข้อมูลในแมชชีนเลิร์นนิงหมายถึงกระบวนการตรวจจับข้อมูลที่ไม่มีป้ายกำกับ (เช่น รูปภาพ ไฟล์ข้อความ วิดีโอ ฯลฯ) และเพิ่มป้ายกำกับที่เกี่ยวข้องอย่างน้อยหนึ่งรายการเพื่อให้บริบทเพื่อให้โมเดลการเรียนรู้ของเครื่องสามารถเรียนรู้ได้ มัน.
ฉลากอาจกล่าวได้ เช่น เอ็กซเรย์แสดงเนื้องอกหรือไม่ มีการพูดคำใดในคลิปเสียง หรือภาพนกหรือรถยนต์
การติดฉลากข้อมูลเป็นสิ่งจำเป็นสำหรับกรณีการใช้งานต่างๆ รวมถึงการรู้จำคำพูด วิสัยทัศน์คอมพิวเตอร์และการประมวลผลภาษาธรรมชาติ
การติดฉลากข้อมูล: เหตุใดจึงสำคัญ
ประการแรก การปฏิวัติอุตสาหกรรมครั้งที่สี่เน้นที่ทักษะของเครื่องจักรฝึกหัด เป็นผลให้ซอฟต์แวร์ได้รับการจัดอันดับให้เป็นหนึ่งในความก้าวหน้าของซอฟต์แวร์ที่สำคัญที่สุดในปัจจุบัน
ต้องสร้างระบบการเรียนรู้ของเครื่องซึ่งเกี่ยวข้องกับการติดฉลากข้อมูล มันกำหนดความสามารถของระบบ จะไม่มีระบบหากไม่มีการติดฉลากข้อมูล
ความเป็นไปได้ของการติดฉลากข้อมูลจะถูกจำกัดด้วยความคิดสร้างสรรค์ของคุณเท่านั้น การดำเนินการใด ๆ ที่คุณสามารถแมปเข้าสู่ระบบได้จะทำซ้ำด้วยข้อมูลใหม่
หมายความว่าประเภท ปริมาณ และความหลากหลายของข้อมูลที่คุณสามารถสอนให้กับระบบได้จะเป็นตัวกำหนดความฉลาดและความสามารถของระบบ
ประการที่สองคืองานการติดฉลากข้อมูลมาก่อนงานวิทยาศาสตร์ข้อมูล ดังนั้น การติดฉลากข้อมูลจึงจำเป็นสำหรับวิทยาศาสตร์ข้อมูล ความล้มเหลวและข้อผิดพลาดในการติดฉลากข้อมูลส่งผลต่อวิทยาศาสตร์ข้อมูล อีกวิธีหนึ่งคือใช้ความคิดโบราณที่หยาบคาย "ถังขยะเข้าทิ้งขยะ"
ประการที่สาม The Art of Data Labelling หมายถึงการเปลี่ยนแปลงวิธีที่ผู้คนเข้าใกล้การพัฒนาระบบ AI เราปรับปรุงโครงสร้างของการติดฉลากข้อมูลไปพร้อม ๆ กันเพื่อให้บรรลุเป้าหมายของเราได้ดียิ่งขึ้น แทนที่จะพยายามปรับปรุงเทคนิคทางคณิตศาสตร์เพียงอย่างเดียว
ระบบอัตโนมัติสมัยใหม่ใช้สิ่งนี้ และเป็นศูนย์กลางของการแปลง AI ที่กำลังดำเนินการอยู่ ตอนนี้งานความรู้กำลังถูกขับเคลื่อนด้วยเครื่องจักรมากกว่าที่เคย
การติดฉลากข้อมูลทำงานอย่างไร
ลำดับเวลาต่อไปนี้จะถูกปฏิบัติตามระหว่างขั้นตอนการติดฉลากข้อมูล
การรวบรวมข้อมูล
ข้อมูลเป็นรากฐานที่สำคัญของความพยายามในการเรียนรู้ของเครื่อง ขั้นตอนเริ่มต้นในการติดฉลากข้อมูลประกอบด้วยการรวบรวมข้อมูลดิบในปริมาณที่เหมาะสมในรูปแบบต่างๆ
การรวบรวมข้อมูลอาจมีรูปแบบใดรูปแบบหนึ่งจากสองรูปแบบ ได้แก่ มาจากแหล่งข้อมูลภายในที่ธุรกิจใช้อยู่ หรือมาจากแหล่งข้อมูลภายนอกที่เข้าถึงได้โดยสาธารณะ
เนื่องจากอยู่ในรูปแบบดิบ ข้อมูลนี้จึงต้องได้รับการล้างและประมวลผลก่อนที่จะสร้างป้ายกำกับชุดข้อมูล โมเดลจะได้รับการฝึกอบรมโดยใช้ข้อมูลที่ล้างและประมวลผลล่วงหน้านี้ ผลการวิจัยจะแม่นยำยิ่งขึ้นด้วยชุดข้อมูลที่มีขนาดใหญ่และหลากหลายมากขึ้น
การใส่คำอธิบายประกอบข้อมูล
หลังจากการล้างข้อมูล ผู้เชี่ยวชาญด้านโดเมนจะตรวจสอบข้อมูลและติดฉลากโดยใช้เทคนิคการติดฉลากข้อมูลหลายแบบ โมเดลนี้มีบริบทที่มีความหมายซึ่งสามารถนำมาใช้เป็นความจริงพื้นฐานได้
นี่คือตัวแปรที่คุณต้องการให้โมเดลคาดการณ์ เช่น ภาพถ่าย
การันตีคุณภาพ
คุณภาพของข้อมูลซึ่งควรเชื่อถือได้ ถูกต้อง และสม่ำเสมอ มีความสำคัญต่อความสำเร็จของการฝึกโมเดล ML ต้องดำเนินการทดสอบ QA เป็นประจำเพื่อรับประกันการติดฉลากข้อมูลที่ถูกต้องและแม่นยำเหล่านี้
เป็นไปได้ที่จะประเมินความถูกต้องของคำอธิบายประกอบเหล่านี้โดยใช้เทคนิค QA เช่น Consensus และการทดสอบอัลฟ่าของ Cronbach ความถูกต้องของผลลัพธ์ดีขึ้นมากโดยการตรวจสอบ QA เป็นประจำ
โมเดลการฝึกอบรมและการทดสอบ
ขั้นตอนดังกล่าวจะสมเหตุสมผลก็ต่อเมื่อข้อมูลได้รับการตรวจสอบความถูกต้องเท่านั้น เทคนิคนี้จะถูกนำไปทดสอบโดยรวมชุดข้อมูลที่ไม่มีโครงสร้างเพื่อตรวจสอบว่าได้ผลลัพธ์ที่ต้องการหรือไม่
กลยุทธ์การติดฉลากข้อมูล
การติดฉลากข้อมูลเป็นกระบวนการที่ต้องใช้ความเอาใจใส่ในรายละเอียด วิธีการที่ใช้ในการใส่คำอธิบายประกอบข้อมูลจะแตกต่างกันไปตามคำชี้แจงปัญหา จำนวนข้อมูลที่ต้องแท็ก ความซับซ้อนของข้อมูล และรูปแบบ
มาดูตัวเลือกที่ธุรกิจของคุณมีกัน โดยขึ้นอยู่กับทรัพยากรที่มีอยู่และเวลาที่มี
การติดฉลากข้อมูลภายในองค์กร
ตามความหมายของชื่อ การติดฉลากข้อมูลภายในองค์กรจะทำโดยผู้เชี่ยวชาญภายในบริษัท เมื่อคุณมีเวลา บุคลากร และทรัพยากรทางการเงินเพียงพอ ตัวเลือกนี้เป็นตัวเลือกที่ดีที่สุดเนื่องจากช่วยให้มั่นใจได้ถึงการติดฉลากที่แม่นยำที่สุด อย่างไรก็ตามมันเคลื่อนที่ช้า
เอาท์ซอร์ส
อีกทางเลือกหนึ่งในการทำสิ่งต่างๆ ให้สำเร็จคือการจ้าง freelancer สำหรับงาน data label ที่สามารถค้นพบได้ในการหางานและตลาดอิสระต่างๆ เช่น Upwork
การเอาท์ซอร์สเป็นตัวเลือกที่รวดเร็วในการรับบริการการติดฉลากข้อมูล อย่างไรก็ตาม คุณภาพอาจได้รับผลกระทบ เช่นเดียวกับวิธีการก่อนหน้านี้
crowdsourcing
คุณสามารถเข้าสู่ระบบในฐานะผู้ขอและแจกจ่ายงานการติดฉลากต่างๆ ให้กับผู้รับเหมาที่มีอยู่ในแพลตฟอร์มการระดมมวลชนเฉพาะทาง เช่น อังคารเครื่องกลเติร์ก (เอ็มเติร์ก).
วิธีการนี้แม้จะรวดเร็วและราคาไม่แพง แต่ก็ไม่สามารถให้ข้อมูลที่มีคำอธิบายประกอบที่มีคุณภาพดีได้
การติดฉลากข้อมูลโดยอัตโนมัติ
ขั้นตอนนี้อาจได้รับความช่วยเหลือจากซอฟต์แวร์นอกเหนือจากการดำเนินการด้วยตนเอง เมื่อใช้วิธีการเรียนรู้เชิงรุก คุณจะพบแท็กและเพิ่มลงในชุดข้อมูลการฝึกอบรมโดยอัตโนมัติ
โดยพื้นฐานแล้ว ผู้เชี่ยวชาญที่เป็นมนุษย์พัฒนาโมเดล AI Auto-label เพื่อทำเครื่องหมายข้อมูลดิบที่ไม่มีป้ายกำกับ จากนั้นพวกเขาก็ตัดสินใจว่าแบบจำลองนั้นใช้การติดฉลากอย่างเหมาะสมหรือไม่ มนุษย์แก้ไขข้อผิดพลาดหลังจากความล้มเหลวและฝึกอัลกอริทึมใหม่
การพัฒนาข้อมูลสังเคราะห์
แทนที่ข้อมูลในโลกแห่งความเป็นจริง ข้อมูลสังเคราะห์ เป็นชุดข้อมูลที่มีป้ายกำกับซึ่งผลิตขึ้นเอง มันถูกสร้างขึ้นโดยอัลกอริทึมหรือการจำลองด้วยคอมพิวเตอร์และมักจะใช้ ฝึกโมเดลแมชชีนเลิร์นนิง.
ข้อมูลสังเคราะห์เป็นคำตอบที่ดีเยี่ยมสำหรับปัญหาการขาดแคลนข้อมูลและความหลากหลายในบริบทของขั้นตอนการติดฉลาก การสร้าง ข้อมูลสังเคราะห์ ตั้งแต่เริ่มต้นเสนอวิธีแก้ปัญหา
การสร้างการตั้งค่า 3 มิติด้วยรายการและบริเวณโดยรอบโมเดลจะต้องสามารถรับรู้ได้โดยนักพัฒนาชุดข้อมูล สามารถแสดงข้อมูลสังเคราะห์ได้มากเท่าที่จำเป็นสำหรับโครงการ
ความท้าทายของการติดฉลากข้อมูล
ต้องใช้เวลาและความพยายามมากขึ้น
นอกจากจะเป็นการท้าทายในการรับข้อมูลจำนวนมาก (โดยเฉพาะอย่างยิ่งสำหรับอุตสาหกรรมที่มีความเชี่ยวชาญสูง เช่น การดูแลสุขภาพ) การติดฉลากข้อมูลแต่ละชิ้นด้วยมือนั้นทั้งใช้แรงงานมากและลำบาก ซึ่งจำเป็นต้องได้รับความช่วยเหลือจากผู้ติดฉลากที่เป็นมนุษย์
เกือบ 80% ของเวลาที่ใช้ไปกับโปรเจ็กต์ตลอดวงจรการพัฒนา ML นั้นถูกใช้ไปกับการเตรียมข้อมูล ซึ่งรวมถึงการทำฉลากด้วย
ความเป็นไปได้สำหรับความไม่สอดคล้องกัน
โดยส่วนใหญ่ การติดป้ายกำกับข้าม ซึ่งเกิดขึ้นเมื่อหลายคนติดป้ายกำกับชุดข้อมูลเดียวกัน จะส่งผลให้มีความแม่นยำมากขึ้น
อย่างไรก็ตาม เนื่องจากบางครั้งบุคคลอาจมีระดับความสามารถที่แตกต่างกัน มาตรฐานการติดฉลากและป้ายกำกับอาจไม่สอดคล้องกัน ซึ่งเป็นอีกปัญหาหนึ่ง จึงเป็นไปได้ที่ผู้ใส่คำอธิบายประกอบสองคนขึ้นไปจะไม่เห็นด้วยกับแท็กบางแท็ก
ตัวอย่างเช่น ผู้เชี่ยวชาญคนหนึ่งอาจให้คะแนนรีวิวโรงแรมว่าดี ในขณะที่อีกคนหนึ่งอาจมองว่าเป็นการประชดประชันและให้คะแนนรีวิวต่ำ
ความรู้โดเมน
คุณจะรู้สึกว่าจำเป็นต้องจ้างผู้ติดฉลากที่มีความรู้เฉพาะด้านอุตสาหกรรมสำหรับบางภาคส่วน
ตัวอย่างเช่น ผู้ใส่คำอธิบายประกอบที่ไม่มีความรู้เกี่ยวกับโดเมนที่จำเป็น จะมีช่วงเวลาที่ยากลำบากมากในการแท็กรายการอย่างเหมาะสมในขณะที่สร้างแอป ML สำหรับภาคการดูแลสุขภาพ
มีแนวโน้มที่จะเกิดข้อผิดพลาด
การติดฉลากด้วยมือนั้นขึ้นอยู่กับความผิดพลาดของมนุษย์ ไม่ว่าผู้ติดฉลากของคุณจะมีความรู้และระมัดระวังเพียงใด เนื่องจากคำอธิบายประกอบมักทำงานกับชุดข้อมูลดิบจำนวนมาก จึงเป็นสิ่งที่หลีกเลี่ยงไม่ได้
ลองนึกภาพคนที่ใส่คำอธิบายประกอบภาพ 100,000 ภาพด้วยสิ่งต่างๆ มากถึง 10 อย่าง
การติดฉลากข้อมูลประเภททั่วไป
วิสัยทัศน์คอมพิวเตอร์
ในการพัฒนาชุดข้อมูลการฝึกของคุณ ก่อนอื่นคุณต้องติดป้ายกำกับรูปภาพ พิกเซล หรือจุดสำคัญ หรือสร้างขอบเขตที่ล้อมรอบภาพดิจิทัลอย่างสมบูรณ์ ซึ่งเรียกว่ากล่องขอบเขต เมื่อสร้างระบบวิชันซิสเต็มของคอมพิวเตอร์
ภาพถ่ายสามารถจำแนกได้หลายวิธี รวมถึงตามเนื้อหา (สิ่งที่อยู่ในภาพจริง ๆ ) และคุณภาพ (เช่น ผลิตภัณฑ์เทียบกับช็อตไลฟ์สไตล์)
รูปภาพสามารถแบ่งออกเป็นส่วนต่างๆ ในระดับพิกเซลได้ แบบจำลองคอมพิวเตอร์วิทัศน์ที่พัฒนาขึ้นโดยใช้ข้อมูลการฝึกเหล่านี้สามารถใช้เพื่อจัดประเภทภาพโดยอัตโนมัติ กำหนดตำแหน่งของวัตถุ เน้นพื้นที่สำคัญในภาพ และแบ่งกลุ่มภาพได้
ประมวลผลภาษาธรรมชาติ
ก่อนสร้างชุดข้อมูลการฝึกอบรมการประมวลผลภาษาธรรมชาติ คุณต้องเลือกส่วนข้อความที่เกี่ยวข้องด้วยตนเองหรือจัดประเภทเนื้อหาด้วยป้ายกำกับที่ระบุ
ตัวอย่างเช่น คุณอาจต้องการจดจำรูปแบบคำพูด จำแนกคำนามที่เหมาะสม เช่น สถานที่และผู้คน และระบุข้อความในภาพ ไฟล์ PDF หรือสื่ออื่นๆ คุณอาจต้องการกำหนดความรู้สึกหรือเจตนาของการนำเสนอข้อความ
สร้างกรอบล้อมรอบข้อความในชุดข้อมูลการฝึกของคุณเพื่อทำสิ่งนี้ให้สำเร็จ จากนั้นจึงถอดเสียงด้วยตนเอง
การรู้จำอักขระด้วยแสงการระบุชื่อเอนทิตี และการวิเคราะห์ความรู้สึกทั้งหมดดำเนินการโดยใช้แบบจำลองการประมวลผลภาษาธรรมชาติ
การประมวลผลภาพและเสียง
การประมวลผลเสียงจะเปลี่ยนเสียงทุกประเภทให้อยู่ในรูปแบบที่มีโครงสร้างเพื่อให้สามารถนำไปใช้ในการเรียนรู้ของเครื่อง ซึ่งรวมถึงเสียงพูด เสียงสัตว์ (เสียงเห่า เสียงนกหวีด หรือเสียงเจี๊ยวๆ) และเสียงอาคาร (กระจกแตก การสแกน หรือเสียงไซเรน)
บ่อยครั้ง ก่อนที่คุณจะจัดการกับเสียง คุณต้องแปลงเป็นข้อความด้วยตนเอง หลังจากนั้น การจัดหมวดหมู่และเพิ่มแท็กให้กับเสียง คุณสามารถเรียนรู้ข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับเสียงนั้นได้ ของคุณ ชุดข้อมูลการฝึกอบรม นี่คือเสียงที่จัดประเภท
สรุป
โดยสรุป การระบุข้อมูลของคุณเป็นส่วนสำคัญของการฝึกโมเดล AI อย่างไรก็ตาม องค์กรที่ดำเนินไปอย่างรวดเร็วไม่สามารถใช้เวลาทำด้วยตนเองได้ เนื่องจากต้องใช้เวลานานและใช้พลังงานมาก
นอกจากนี้ยังเป็นขั้นตอนที่มีแนวโน้มว่าจะไม่ถูกต้องและไม่ได้รับประกันความถูกต้องแม่นยำมากนัก ไม่ต้องลำบากขนาดนั้น ซึ่งเป็นข่าวดี
เทคโนโลยีการติดฉลากข้อมูลในปัจจุบันช่วยให้เกิดการทำงานร่วมกันระหว่างมนุษย์และเครื่องจักรเพื่อให้ข้อมูลที่แม่นยำและมีประโยชน์สำหรับแอปพลิเคชันการเรียนรู้ของเครื่องที่หลากหลาย
เขียนความเห็น