สารบัญ[ซ่อน][แสดง]
โลกกำลังเปลี่ยนแปลงอย่างรวดเร็วเนื่องจากปัญญาประดิษฐ์และแมชชีนเลิร์นนิง ซึ่งมีผลกระทบต่อชีวิตประจำวันของเราในทุกๆ ด้าน
ตั้งแต่ผู้ช่วยเสียงที่ใช้ NLP และแมชชีนเลิร์นนิงในการจองการนัดหมาย ค้นหากิจกรรมในปฏิทินของเรา และเล่นเพลงไปยังอุปกรณ์ที่มีความแม่นยำมากจนสามารถคาดการณ์ความต้องการของเราก่อนที่เราจะพิจารณาด้วยซ้ำ
คอมพิวเตอร์สามารถเล่นหมากรุก ผ่าตัด และพัฒนาเป็นเครื่องจักรที่ฉลาดขึ้นและเหมือนมนุษย์มากขึ้นด้วยความช่วยเหลือของอัลกอริธึมการเรียนรู้ของเครื่อง
เราอยู่ในช่วงเวลาแห่งความก้าวหน้าทางเทคโนโลยีอย่างต่อเนื่อง และเมื่อเห็นว่าคอมพิวเตอร์พัฒนาผ่านช่วงเวลาอย่างไร เราก็สามารถคาดการณ์ว่าจะเกิดอะไรขึ้นในอนาคต
การทำให้เป็นประชาธิปไตยของเครื่องมือและวิธีการคำนวณเป็นหนึ่งในประเด็นสำคัญของการปฏิวัตินี้ที่โดดเด่น นักวิทยาศาสตร์ข้อมูล ได้สร้างคอมพิวเตอร์ที่บีบอัดข้อมูลที่มีประสิทธิภาพในช่วงห้าปีที่ผ่านมาโดยใช้วิธีการที่ทันสมัย ผลลัพธ์เป็นที่น่าอัศจรรย์
ในโพสต์นี้เราจะดูอย่างใกล้ชิดที่ เรียนรู้เครื่อง อัลกอริธึมและรูปแบบต่างๆ ทั้งหมด
แล้วอัลกอริธึมการเรียนรู้ของเครื่องคืออะไร?
แนวทางที่ระบบ AI ใช้เพื่อดำเนินงาน โดยทั่วไปแล้ว การทำนายค่าเอาต์พุตจากข้อมูลอินพุตที่กำหนด เรียกว่าอัลกอริธึมการเรียนรู้ของเครื่อง
อัลกอริธึมการเรียนรู้ของเครื่องเป็นกระบวนการที่ใช้ข้อมูลและใช้เพื่อสร้างแบบจำลองการเรียนรู้ของเครื่องที่พร้อมสำหรับการผลิต หากแมชชีนเลิร์นนิงเป็นรถไฟที่ทำงาน อัลกอริทึมของแมชชีนเลิร์นนิงก็คือหัวรถจักรที่ขับเคลื่อนงานไปด้วย
แนวทางการเรียนรู้ของเครื่องที่ดีที่สุดที่จะใช้นั้นพิจารณาจากปัญหาทางธุรกิจที่คุณพยายามแก้ไข ประเภทของชุดข้อมูลที่คุณใช้ และทรัพยากรที่คุณมี
อัลกอริธึมการเรียนรู้ของเครื่องคืออัลกอริธึมที่เปลี่ยนชุดข้อมูลให้เป็นแบบจำลอง ขึ้นอยู่กับประเภทของปัญหาที่คุณพยายามจะตอบ พลังการประมวลผลที่มีอยู่ และประเภทของข้อมูลที่คุณมี อัลกอริธึมการเรียนรู้ภายใต้การดูแล ไม่ได้รับการดูแล หรือการเสริมกำลังสามารถทำงานได้ดี
ดังนั้นเราจึงพูดคุยเกี่ยวกับการเรียนรู้ภายใต้การดูแล ไม่ได้รับการดูแล และการเสริมกำลัง แต่สิ่งเหล่านี้คืออะไร? มาสำรวจกัน
การเรียนรู้ภายใต้การดูแล ไม่ได้รับการดูแล และการเสริมกำลัง
การเรียนรู้ภายใต้การดูแล
ในการเรียนรู้ภายใต้การดูแล โมเดล AI ได้รับการพัฒนาตามข้อมูลที่ได้รับและป้ายกำกับที่แสดงถึงผลลัพธ์ที่คาดการณ์ไว้ โดยอิงจากอินพุตและเอาต์พุต ตัวแบบจะพัฒนาสมการการแมป และใช้สมการการแมปนั้น คาดการณ์ป้ายกำกับของอินพุตในอนาคต
สมมติว่าเราต้องสร้างแบบจำลองที่สามารถแยกแยะระหว่างสุนัขกับแมวได้ ภาพถ่ายแมวและสุนัขหลายภาพถูกป้อนเข้าสู่โมเดลพร้อมฉลากระบุว่าเป็นแมวหรือสุนัขเพื่อฝึกนางแบบ
ตัวแบบพยายามสร้างสมการที่เกี่ยวข้องกับป้ายกำกับบนภาพถ่ายที่ป้อนให้กับภาพเหล่านั้น แม้ว่าตัวแบบจะไม่เคยเห็นภาพดังกล่าวมาก่อน แต่หลังจากการฝึกแล้ว ก็สามารถระบุได้ว่าเป็นของแมวหรือสุนัข
การเรียนรู้ที่ไม่มีผู้ดูแล
การเรียนรู้แบบไม่มีผู้ดูแลเกี่ยวข้องกับการฝึกอบรมโมเดล AI เฉพาะกับอินพุตโดยไม่ต้องติดป้ายกำกับ โมเดลแบ่งข้อมูลที่ป้อนออกเป็นกลุ่มที่มีคุณสมบัติที่เกี่ยวข้องกัน
ป้ายกำกับในอนาคตของอินพุตจะถูกคาดการณ์ขึ้นอยู่กับว่าแอตทริบิวต์ตรงกับการจัดประเภทใดประเภทหนึ่งอย่างใกล้ชิด พิจารณาสถานการณ์ที่เราต้องแบ่งกลุ่มของลูกบอลสีแดงและสีน้ำเงินออกเป็นสองประเภท
สมมติว่าลักษณะอื่นๆ ของลูกบอลเหมือนกัน ยกเว้นสี บนพื้นฐานของวิธีการแบ่งลูกบอลออกเป็นสองคลาส โมเดลจะมองหาคุณลักษณะที่แตกต่างกันระหว่างลูกบอล
ลูกบอลสองกลุ่ม—หนึ่งสีน้ำเงินและหนึ่งสีแดง—เกิดขึ้นเมื่อลูกบอลถูกแบ่งออกเป็นสองกลุ่มตามสีของพวกมัน
การเรียนรู้เสริมแรง
ในการเรียนรู้แบบเสริมกำลัง โมเดล AI พยายามที่จะเพิ่มผลกำไรโดยรวมให้สูงสุดด้วยการดำเนินการและทำได้ในสถานการณ์เฉพาะ คำติชมเกี่ยวกับผลลัพธ์ก่อนหน้าช่วยให้โมเดลเรียนรู้
ลองนึกถึงสถานการณ์เมื่อหุ่นยนต์ได้รับคำสั่งให้เลือกเส้นทางระหว่างจุด A และจุด B หุ่นยนต์จะเลือกหลักสูตรใดหลักสูตรหนึ่งก่อนเนื่องจากไม่มีประสบการณ์มาก่อน
หุ่นยนต์ได้รับข้อมูลในเส้นทางที่ใช้และได้รับความรู้จากมัน หุ่นยนต์สามารถใช้ข้อมูลเข้าเพื่อแก้ไขปัญหาในครั้งต่อไปที่พบสถานการณ์ที่คล้ายคลึงกัน
ตัวอย่างเช่น หากหุ่นยนต์เลือกตัวเลือก B และได้รับรางวัล เช่น ผลตอบรับในเชิงบวก คราวนี้ก็เข้าใจดีว่าจะต้องเลือกวิธี B เพื่อเพิ่มรางวัล
ในที่สุดสิ่งที่คุณรอคอยก็คืออัลกอริธึม
อัลกอริธึมการเรียนรู้ของเครื่องหลัก
1. การถดถอยเชิงเส้น
วิธีการเรียนรู้ของเครื่องที่ง่ายที่สุดที่เบี่ยงเบนจากการเรียนรู้ภายใต้การดูแลคือการถดถอยเชิงเส้น ด้วยความรู้จากตัวแปรอิสระ ส่วนใหญ่จะใช้เพื่อแก้ไขปัญหาการถดถอยและสร้างการคาดการณ์เกี่ยวกับตัวแปรตามอย่างต่อเนื่อง
การหาเส้นที่เหมาะสมที่สุดซึ่งสามารถช่วยในการทำนายผลลัพธ์สำหรับตัวแปรตามอย่างต่อเนื่องคือเป้าหมายของการถดถอยเชิงเส้น ราคาบ้าน อายุ และค่าจ้างเป็นตัวอย่างของค่านิยมที่ต่อเนื่องกัน
แบบจำลองที่เรียกว่าการถดถอยเชิงเส้นอย่างง่ายใช้เส้นตรงในการคำนวณความสัมพันธ์ระหว่างตัวแปรอิสระ XNUMX ตัวกับตัวแปรตาม XNUMX ตัว มีตัวแปรอิสระมากกว่าสองตัวในการถดถอยเชิงเส้นพหุคูณ
ตัวแบบการถดถอยเชิงเส้นมีสมมติฐานพื้นฐานสี่ข้อ:
- ลิเนียริตี้: มีการเชื่อมต่อเชิงเส้นระหว่าง X กับค่าเฉลี่ยของ Y
- Homoscedasticity: สำหรับทุกค่าของ X ความแปรปรวนที่เหลือจะเท่ากัน
- ความเป็นอิสระ: การสังเกตเป็นอิสระจากกันในแง่ของความเป็นอิสระ
- Normality: เมื่อ X คงที่ Y จะถูกกระจายตามปกติ
การถดถอยเชิงเส้นดำเนินการอย่างน่าชื่นชมสำหรับข้อมูลที่สามารถแยกตามเส้น สามารถควบคุมการปรับให้เหมาะสมโดยใช้เทคนิคการทำให้เป็นมาตรฐาน การตรวจสอบความถูกต้องข้าม และการลดขนาด อย่างไรก็ตาม มีบางกรณีที่จำเป็นต้องมีวิศวกรรมคุณลักษณะที่กว้างขวาง ซึ่งบางครั้งอาจส่งผลให้เกิดการโอเวอร์ฟิตและสัญญาณรบกวน
2. การถดถอยโลจิสติก
การถดถอยโลจิสติกเป็นอีกหนึ่งเทคนิคการเรียนรู้ของเครื่องที่แตกต่างจากการเรียนรู้ภายใต้การดูแล การใช้งานหลักคือการจำแนกประเภท ในขณะที่ยังสามารถใช้สำหรับปัญหาการถดถอย
การถดถอยโลจิสติกใช้เพื่อคาดการณ์ตัวแปรตามหมวดหมู่โดยใช้ข้อมูลจากปัจจัยอิสระ เป้าหมายคือการจัดประเภทผลลัพธ์ ซึ่งสามารถตกได้ระหว่าง 0 ถึง 1 เท่านั้น
ผลรวมถ่วงน้ำหนักของอินพุตประมวลผลโดยฟังก์ชัน sigmoid ซึ่งเป็นฟังก์ชันการเปิดใช้งานที่แปลงค่าระหว่าง 0 ถึง 1
พื้นฐานของการถดถอยโลจิสติกคือการประมาณความน่าจะเป็นสูงสุด ซึ่งเป็นวิธีการคำนวณพารามิเตอร์ของการแจกแจงความน่าจะเป็นที่สันนิษฐานจากข้อมูลที่สังเกตได้เฉพาะ
3. ต้นไม้การตัดสินใจ
วิธีการเรียนรู้ของเครื่องอีกวิธีหนึ่งที่แยกออกจากการเรียนรู้ภายใต้การดูแลคือแผนผังการตัดสินใจ สำหรับทั้งประเด็นการจำแนกประเภทและการถดถอย สามารถใช้แนวทางแผนผังการตัดสินใจได้
เครื่องมือในการตัดสินใจนี้ ซึ่งคล้ายกับต้นไม้ ใช้การแสดงภาพเพื่อแสดงผลลัพธ์ที่คาดหวัง ต้นทุน และผลสะท้อนของการกระทำ โดยการแบ่งข้อมูลออกเป็นส่วนๆ แนวคิดนี้คล้ายคลึงกับความคิดของมนุษย์
ข้อมูลถูกแบ่งออกเป็นส่วนต่าง ๆ มากที่สุดเท่าที่เราจะแยกย่อยได้ วัตถุประสงค์หลักของ Decision Tree คือการสร้างแบบจำลองการฝึกอบรมที่สามารถใช้เพื่อคาดการณ์คลาสของตัวแปรเป้าหมายได้ ค่าที่หายไปสามารถจัดการได้โดยอัตโนมัติโดยใช้แผนผังการตัดสินใจ
ไม่มีข้อกำหนดสำหรับการเข้ารหัสแบบช็อตเดียว ตัวแปรจำลอง หรือขั้นตอนการปรับข้อมูลล่วงหน้าอื่นๆ มันเข้มงวดในแง่ที่ว่าการเพิ่มข้อมูลใหม่เข้าไปนั้นทำได้ยาก หากคุณได้รับข้อมูลที่มีป้ายกำกับเพิ่มเติม คุณควรฝึกโครงสร้างใหม่ในชุดข้อมูลทั้งหมด
ด้วยเหตุนี้ โครงสร้างการตัดสินใจจึงเป็นทางเลือกที่ไม่ดีสำหรับแอปพลิเคชันใดๆ ที่จำเป็นต้องเปลี่ยนโมเดลแบบไดนามิก
ขึ้นอยู่กับชนิดของตัวแปรเป้าหมาย ต้นไม้การตัดสินใจแบ่งออกเป็นสองประเภท:
- ตัวแปรตามหมวดหมู่: ต้นไม้การตัดสินใจที่ตัวแปรเป้าหมายเป็นหมวดหมู่
- ตัวแปรต่อเนื่อง: โครงสร้างการตัดสินใจที่ตัวแปรเป้าหมายเป็นแบบต่อเนื่อง
4. ป่าสุ่ม
วิธีการสุ่มฟอเรสต์เป็นเทคนิคการเรียนรู้ของเครื่องต่อไปและเป็นอัลกอริธึมการเรียนรู้ด้วยเครื่องภายใต้การดูแลที่ใช้อย่างกว้างขวางในประเด็นการจำแนกและการถดถอย นอกจากนี้ยังเป็นวิธีการแบบต้นไม้ คล้ายกับแผนผังการตัดสินใจ
ป่าของต้นไม้หรือต้นไม้ตัดสินใจจำนวนมากถูกใช้โดยวิธีการสุ่มป่าเพื่อตัดสิน เมื่อจัดการงานการจำแนกประเภท วิธีฟอเรสต์แบบสุ่มใช้ตัวแปรตามหมวดหมู่ในขณะที่จัดการงานการถดถอยด้วยชุดข้อมูลที่มีตัวแปรต่อเนื่อง
วงดนตรีหรือการผสมผสานของหลาย ๆ แบบจำลองคือสิ่งที่วิธีการสุ่มฟอเรสต์ทำ ซึ่งหมายความว่าการทำนายจะทำโดยใช้กลุ่มของแบบจำลองแทนที่จะเป็นเพียงแบบจำลองเดียว
ความสามารถในการใช้สำหรับปัญหาการจำแนกประเภทและปัญหาการถดถอย ซึ่งประกอบกันเป็นระบบการเรียนรู้ของเครื่องที่ทันสมัยส่วนใหญ่ เป็นประโยชน์หลักของป่าสุ่ม
Ensemble ใช้กลยุทธ์ที่แตกต่างกันสองแบบ:
- การบรรจุหีบห่อ: เมื่อทำเช่นนี้ จะมีการสร้างข้อมูลเพิ่มเติมสำหรับชุดข้อมูลการฝึกอบรม เพื่อลดความผันแปรในการคาดการณ์ ให้ดำเนินการนี้
- การส่งเสริมเป็นกระบวนการของการรวมผู้เรียนที่อ่อนแอกับผู้เรียนที่เข้มแข็งโดยการสร้างแบบจำลองที่ต่อเนื่องกัน ส่งผลให้รูปแบบสุดท้ายมีความแม่นยำสูงสุด
5. อ่าวไร้เดียงสา
ปัญหาการจำแนกประเภทไบนารี (สองชั้น) และหลายคลาสสามารถแก้ไขได้โดยใช้เทคนิค Naive Bayes เมื่ออธิบายวิธีการโดยใช้ค่าไบนารีหรือค่าอินพุตประเภท จะเป็นการเข้าใจได้ง่ายที่สุด ข้อสันนิษฐานที่ทำโดยตัวแยกประเภท Naive Bayes คือการมีอยู่ของคุณลักษณะหนึ่งในชั้นเรียนไม่มีผลต่อการมีอยู่ของคุณลักษณะอื่นๆ
สูตรข้างต้นระบุว่า:
- P(H): ความน่าจะเป็นที่สมมติฐาน H ถูกต้อง ความน่าจะเป็นก่อนหน้านี้เรียกว่าสิ่งนี้
- P(E): ความน่าจะเป็นของหลักฐาน
- P(E|H): ความน่าจะเป็นที่สมมติฐานได้รับการสนับสนุนจากหลักฐาน
- P(H|E): ความน่าจะเป็นที่สมมติฐานเป็นจริง เมื่อพิจารณาจากหลักฐาน
ตัวแยกประเภท Naive Bayes จะพิจารณาคุณลักษณะแต่ละอย่างแยกกันเมื่อพิจารณาความน่าจะเป็นของผลลัพธ์ที่แน่นอน แม้ว่าแอตทริบิวต์เหล่านี้จะเชื่อมต่อถึงกันก็ตาม โมเดล Naive Bayesian นั้นสร้างได้ง่ายและมีประสิทธิภาพสำหรับชุดข้อมูลขนาดใหญ่
เป็นที่ทราบกันดีว่าทำงานได้ดีกว่าเทคนิคการจัดหมวดหมู่ที่ซับซ้อนที่สุดในขณะที่เป็นพื้นฐาน เป็นชุดของอัลกอริธึมที่อิงตามทฤษฎีบทของเบย์ มากกว่าวิธีเดียว
6. K-เพื่อนบ้านที่ใกล้ที่สุด
เทคนิค K-Nearest Neighbors (kNN) เป็นส่วนย่อยของการเรียนรู้ของเครื่องภายใต้การดูแล ซึ่งสามารถใช้เพื่อแก้ไขปัญหาการจำแนกประเภทและการถดถอย อัลกอริทึมของ KNN สันนิษฐานว่าสามารถพบวัตถุที่เปรียบเทียบกันได้ในบริเวณใกล้เคียง
ฉันจำได้ว่าเป็นการรวมตัวของคนที่มีความคิดเหมือนกัน kNN ใช้ประโยชน์จากแนวคิดเรื่องความคล้ายคลึงระหว่างจุดข้อมูลอื่นๆ โดยใช้ความใกล้ชิด ความใกล้ชิด หรือระยะทาง ในการติดป้ายกำกับข้อมูลที่มองไม่เห็นตามจุดข้อมูลที่สามารถสังเกตได้ที่ใกล้ที่สุดที่ติดป้ายกำกับ ใช้วิธีทางคณิตศาสตร์เพื่อกำหนดการแยกระหว่างจุดต่างๆ บนกราฟ
คุณต้องกำหนดระยะห่างระหว่างจุดข้อมูลเพื่อระบุจุดที่ใกล้เคียงที่สุด การวัดระยะทาง เช่น ระยะทางแบบยุคลิด ระยะทางแฮมมิง ระยะทางแมนฮัตตัน และระยะทาง Minkowski สามารถนำมาใช้ได้ K เรียกว่าเลขเพื่อนบ้านที่ใกล้ที่สุด และมักเป็นเลขคี่
KNN สามารถใช้กับปัญหาการจำแนกประเภทและการถดถอยได้ การคาดคะเนที่เกิดขึ้นเมื่อใช้ KNN กับปัญหาการถดถอยนั้นยึดตามค่าเฉลี่ยหรือค่ามัธยฐานของเหตุการณ์ที่คล้ายคลึงกันมากที่สุดของ K
ผลลัพธ์ของอัลกอริธึมการจำแนกตาม KNN สามารถกำหนดเป็นคลาสที่มีความถี่สูงสุดในบรรดาเหตุการณ์ K ที่คล้ายคลึงกันมากที่สุด ทุกกรณีจะทำการลงคะแนนสำหรับชั้นเรียนของพวกเขาเป็นหลัก และการคาดคะเนนั้นเป็นของชั้นเรียนที่ได้รับคะแนนโหวตมากที่สุด
7. K หมายถึง
เป็นเทคนิคสำหรับการเรียนรู้แบบไม่มีผู้ดูแลที่แก้ไขปัญหาการจัดกลุ่ม ชุดข้อมูลถูกแบ่งออกเป็นคลัสเตอร์จำนวนหนึ่ง—เรียกว่า Let's it K—เพื่อให้จุดข้อมูลของแต่ละคลัสเตอร์มีความเป็นเนื้อเดียวกันและแตกต่างจากในคลัสเตอร์อื่นๆ
K-means วิธีการจัดกลุ่ม:
- สำหรับแต่ละคลัสเตอร์ อัลกอริทึม K-mean จะเลือก k centroids หรือจุด
- ด้วย centroids ที่ใกล้ที่สุดหรือคลัสเตอร์ K แต่ละจุดข้อมูลจะสร้างคลัสเตอร์
- ตอนนี้ centroids ใหม่ถูกสร้างขึ้นโดยขึ้นอยู่กับสมาชิกของคลัสเตอร์ที่มีอยู่แล้ว
- ระยะทางที่ใกล้เคียงที่สุดสำหรับแต่ละจุดข้อมูลคำนวณโดยใช้เซนทรอยด์ที่อัปเดตเหล่านี้ จนกว่าเซนทรอยด์จะไม่เปลี่ยนแปลง กระบวนการนี้จะทำซ้ำ
มันเร็วกว่า เชื่อถือได้มากกว่า และเข้าใจง่ายกว่า หากมีปัญหา ความสามารถในการปรับตัวของ k-mean ทำให้การปรับเปลี่ยนทำได้ง่าย เมื่อชุดข้อมูลมีความชัดเจนหรือแยกออกจากกัน ผลลัพธ์จะดีที่สุด ไม่สามารถจัดการข้อมูลที่ผิดปกติหรือค่าผิดปกติได้
8. รองรับเครื่องเวกเตอร์
เมื่อใช้เทคนิค SVM เพื่อจัดประเภทข้อมูล ข้อมูลดิบจะแสดงเป็นจุดในพื้นที่ n มิติ (โดยที่ n คือจำนวนคุณลักษณะที่คุณมี) ข้อมูลสามารถจำแนกได้ง่ายเนื่องจากค่าของคุณลักษณะแต่ละรายการจะเชื่อมต่อกับพิกัดเฉพาะ
ในการแยกข้อมูลและวางบนกราฟ ให้ใช้เส้นที่เรียกว่าตัวแยกประเภท วิธีการนี้จะแปลงจุดข้อมูลแต่ละจุดเป็นจุดในพื้นที่ n มิติ โดยที่ n คือจำนวนของจุดสนใจที่คุณมี และค่าของจุดสนใจแต่ละจุดคือค่าพิกัดเฉพาะ
ตอนนี้เราจะหาเส้นที่แบ่งข้อมูลออกเป็นสองชุดของข้อมูลที่ได้รับการจัดประเภทแตกต่างกัน ระยะทางจากจุดที่ใกล้ที่สุดในแต่ละกลุ่มจะห่างกันมากที่สุดตามเส้นนี้
เนื่องจากจุดที่ใกล้เคียงที่สุดสองจุดที่อยู่ห่างจากเส้นตรงในตัวอย่างด้านบนมากที่สุด เส้นที่แบ่งข้อมูลออกเป็นสองกลุ่มที่จัดหมวดหมู่ต่างกันคือเส้นกลาง ลักษณนามของเราคือบรรทัดนี้
9. การลดมิติ
การใช้วิธีการลดมิติข้อมูลการฝึกอบรมอาจมีตัวแปรอินพุตน้อยลง กล่าวอย่างง่าย ๆ หมายถึงกระบวนการลดขนาดของชุดคุณลักษณะของคุณ สมมติว่าชุดข้อมูลของคุณมี 100 คอลัมน์ การลดขนาดจะลดลงเหลือ 20 คอลัมน์
โมเดลจะมีความซับซ้อนมากขึ้นโดยอัตโนมัติและมีความเสี่ยงที่จะเกินขนาดเมื่อจำนวนคุณลักษณะเพิ่มขึ้น ปัญหาที่ใหญ่ที่สุดของการทำงานกับข้อมูลในมิติที่มากขึ้นคือสิ่งที่เรียกว่า "คำสาปของมิติ" ซึ่งเกิดขึ้นเมื่อข้อมูลของคุณมีลักษณะจำนวนมากเกินไป
องค์ประกอบต่อไปนี้สามารถใช้เพื่อลดขนาดได้สำเร็จ:
- ในการค้นหาและเลือกลักษณะเฉพาะที่เกี่ยวข้อง จะใช้การเลือกคุณลักษณะ
- การใช้คุณลักษณะที่มีอยู่แล้ว วิศวกรรมคุณลักษณะจะสร้างคุณลักษณะใหม่ด้วยตนเอง
สรุป
การเรียนรู้ของเครื่องแบบ Unsupervised หรือ Supervised เป็นไปได้ทั้งสองอย่าง เลือกการเรียนรู้ภายใต้การดูแลหากข้อมูลของคุณมีน้อยและมีการแท็กอย่างดีสำหรับการฝึกอบรม
ชุดข้อมูลขนาดใหญ่มักจะทำงานและให้ผลลัพธ์ที่ดีกว่าโดยใช้การเรียนรู้แบบไม่มีผู้ดูแล เรียนรู้อย่างลึกซึ้ง วิธีการจะดีที่สุดถ้าคุณมีการรวบรวมข้อมูลขนาดใหญ่ที่พร้อมใช้งาน
เสริมการเรียนรู้ และการเรียนรู้การเสริมแรงเชิงลึกเป็นบางหัวข้อที่คุณศึกษา คุณลักษณะ การใช้งาน และข้อจำกัดของโครงข่ายประสาทเทียมมีความชัดเจนสำหรับคุณแล้ว สุดท้าย แต่ไม่ท้ายสุด คุณได้พิจารณาตัวเลือกสำหรับภาษาการเขียนโปรแกรม IDE และแพลตฟอร์มต่างๆ ในการสร้างของคุณเอง โมเดลการเรียนรู้ของเครื่อง.
สิ่งต่อไปที่คุณต้องทำคือเริ่มเรียนและใช้งานแต่ละอย่าง เรียนรู้เครื่อง เข้าใกล้. แม้ว่าหัวเรื่องจะกว้าง แต่หัวข้อใดๆ ก็สามารถเข้าใจได้ภายในเวลาไม่กี่ชั่วโมงหากคุณเน้นที่ความลึก แต่ละเรื่องยืนอยู่คนเดียวจากคนอื่นๆ
คุณต้องคิดทีละประเด็น ศึกษา นำไปปฏิบัติ และใช้ภาษาที่คุณเลือกเพื่อนำอัลกอริทึมไปใช้
เขียนความเห็น