ทุกโครงการแมชชีนเลิร์นนิงอาศัยชุดข้อมูลที่ดี เป็นชุดข้อมูลขนาดใหญ่ที่จะช่วยให้คุณฝึกและตรวจสอบโมเดล ML ของคุณได้ ดังนั้น งานส่วนใหญ่ในโปรเจ็กต์ ML คือการค้นหาชุดข้อมูลที่สมบูรณ์แบบสำหรับความต้องการของคุณ อย่างไรก็ตาม การค้นหาตัวเลือกที่เหมาะกับความทะเยอทะยานของคุณอาจไม่สามารถทำได้เสมอไป เนื่องจากไฟล์จำนวนมากที่ดูน่าสนใจในท้ายที่สุดกลับไม่เป็นเช่นนั้น
อาจเป็นเรื่องน่ากังวลที่ต้องเสียเวลาดาวน์โหลดชุดข้อมูลจำนวนนับไม่ถ้วนจนกว่าคุณจะได้ชุดที่เหมาะสมที่สุด ด้วยเหตุนี้ เราจึงได้รวบรวมตัวเลือกบางอย่างที่ดูน่าสนใจและสามารถช่วยคุณพัฒนาโครงการ ML ของคุณได้ โปรดทราบว่าบางส่วนมีจุดประสงค์เพื่อส่วนตัวแทนที่จะใช้ในเชิงพาณิชย์ ดังนั้นให้พิจารณาตัวเลือกเหล่านี้เพื่อเป็นแนวทางในการได้รับประสบการณ์ในจักรวาล ML
พื้นฐานของชุดข้อมูล
ก่อนที่เราจะพูดถึงชุดข้อมูล เราควรกำหนดคำศัพท์บางคำก่อน ในโครงการปัญญาประดิษฐ์โดยเฉพาะ เครื่องเรียนรู้ต้องใช้ข้อมูลจำนวนมากซึ่งจะใช้ในการฝึกอบรมอัลกอริทึม ข้อมูลจำนวนนี้ถูกรวบรวมในฐานข้อมูล ซึ่งมีประโยชน์อย่างมากในการสอนอัลกอริทึม
ด้วยข้อมูลนี้ อัลกอริธึมได้รับการฝึกอบรม – ผ่านการทดสอบ – และสามารถค้นหารูปแบบ สร้างความสัมพันธ์ และตัดสินใจได้ด้วยตนเอง โดยไม่ต้องอบรม เครื่องเรียนรู้ อัลกอริธึมไม่สามารถดำเนินการใดๆ ได้ ดังนั้น ยิ่งข้อมูลการฝึกดีเท่าไหร่ โมเดลก็จะยิ่งทำงานได้ดีขึ้นเท่านั้น เพื่อให้ฐานข้อมูลมีประโยชน์ต่อโครงการ มันไม่เกี่ยวกับปริมาณ แต่มันเกี่ยวกับการจัดหมวดหมู่ด้วย
ตามหลักการแล้ว ข้อมูลควรมีป้ายกำกับอย่างดี ลองนึกถึงกรณีของแชทบอท: การแทรกภาษาเป็นสิ่งสำคัญ แต่ต้องทำการวิเคราะห์วากยสัมพันธ์อย่างระมัดระวังเพื่อให้อัลกอริธึมที่สร้างขึ้นสามารถเข้าใจได้เมื่อคู่สนทนาใช้คำสแลง จากนั้นผู้ช่วยเสมือนจะสามารถเปิดคำตอบตามที่ผู้ใช้ร้องขอได้
สามารถสร้างชุดข้อมูลได้จากแบบสำรวจ ข้อมูลการซื้อของผู้ใช้ การประเมินที่เหลืออยู่ในบริการ และด้วยวิธีอื่นๆ มากมายที่ช่วยให้สามารถรวบรวมข้อมูลที่เป็นประโยชน์ซึ่งจัดเป็นคอลัมน์และแถวในไฟล์ CSV
ก่อนที่คุณจะเริ่มค้นหาชุดข้อมูลที่สมบูรณ์แบบ คุณควรทราบจุดประสงค์ของโครงการของคุณก่อน โดยเฉพาะอย่างยิ่งหากมาจากพื้นที่เฉพาะ เช่น สภาพอากาศ การเงิน สุขภาพ ฯลฯ การดำเนินการนี้จะกำหนดแหล่งที่มาที่คุณจะใช้ ชุดข้อมูล
ชุดข้อมูลสำหรับ ML
การฝึกอบรม Chatbot
แชทบอทที่มีประสิทธิภาพต้องการข้อมูลการฝึกอบรมจำนวนมหาศาล เพื่อที่จะแก้ปัญหาของผู้ใช้ได้อย่างรวดเร็วโดยไม่ต้องอาศัยการแทรกแซงของมนุษย์ อย่างไรก็ตาม ปัญหาคอขวดหลักในการพัฒนาแชทบอตคือการได้รับข้อมูลไดอะล็อกที่เน้นงานและสมจริง เพื่อฝึกระบบที่ใช้ Machine Learning เหล่านี้
ชุดข้อมูลการสนทนารวบรวมข้อมูลในรูปแบบคำถามและคำตอบ เหมาะอย่างยิ่งสำหรับการฝึกอบรมแชทบอทที่จะให้คำตอบอัตโนมัติแก่ผู้ชม หากไม่มีข้อมูลนี้ แชทบอทจะไม่สามารถแก้ไขคำถามของผู้ใช้ได้อย่างรวดเร็วหรือตอบคำถามของผู้ใช้โดยไม่จำเป็นต้องอาศัยการแทรกแซงจากมนุษย์
การใช้ชุดข้อมูลเหล่านี้ทำให้ธุรกิจต่างๆ สามารถสร้างเครื่องมือที่ให้คำตอบแก่ลูกค้าอย่างรวดเร็วตลอด 24 ชั่วโมงทุกวันไม่เว้นวันหยุด และมีราคาถูกกว่าการมีทีมที่คอยช่วยเหลือลูกค้าอยู่มาก
1. ชุดข้อมูลคำถาม-คำตอบ
ชุดข้อมูลนี้มีชุดบทความ Wikipedia คำถาม และคำตอบที่สร้างขึ้นด้วยตนเองตามลำดับ เป็นชุดข้อมูลที่รวบรวมระหว่างปี พ.ศ. 2008 ถึง พ.ศ. 2010 เพื่อใช้ในการ การวิจัยทางวิชาการ.
2. ข้อมูลภาษา
ข้อมูลภาษาเป็นฐานข้อมูลที่จัดการโดย Yahoo ด้วยข้อมูลที่สร้างขึ้นจากบริการบางอย่างของบริษัท เช่น Yahoo! คำตอบซึ่งทำงานเป็นชุมชนเปิดสำหรับผู้ใช้ในการโพสต์คำถามและคำตอบ
3. วิกิคิวเอ
คลังข้อมูล WikiQA ยังประกอบด้วยชุดคำถามและคำตอบ แหล่งที่มาของคำถามคือ Bing ในขณะที่คำตอบจะลิงก์ไปยังหน้า Wikipedia ที่มีศักยภาพในการแก้ปัญหาเบื้องต้น
โดยรวมแล้ว มีคำถามมากกว่า 3,000 ข้อและชุดประโยค 29,258 ประโยคในชุดข้อมูล ซึ่งประมาณ 1,400 ได้รับการจัดหมวดหมู่เป็นคำตอบสำหรับคำถามที่เกี่ยวข้อง
ข้อมูลรัฐบาล
ชุดข้อมูลที่สร้างขึ้นโดยรัฐบาลนำข้อมูลประชากร ซึ่งเป็นข้อมูลที่ดีสำหรับโครงการที่เกี่ยวข้องกับการทำความเข้าใจแนวโน้มทางสังคม การสร้างนโยบายสาธารณะ และการปรับปรุงสังคม สิ่งนี้มีประโยชน์สำหรับการรณรงค์ทางการเมือง การโฆษณาตามเป้าหมาย หรือการวิเคราะห์ตลาด
โดยทั่วไปแล้ว ชุดข้อมูลเหล่านี้จะมีข้อมูลที่ไม่ระบุชื่อ ดังนั้นในขณะที่โมเดลสามารถเข้าถึงข้อมูลดิบได้ แต่ก็ไม่มีการละเมิดความเป็นส่วนตัว
4. Data.gov
Data.gov เปิดตัวในปี 2009 เป็นแหล่งข้อมูลในอเมริกาเหนือ แคตตาล็อกของมันน่าประทับใจ: ชุดข้อมูลมากกว่า 218,000 ชุดที่อนุญาตให้แบ่งกลุ่มตามรูปแบบ แท็ก ประเภท และหัวข้อ
5. พอร์ทัลข้อมูลเปิดของสหภาพยุโรป
EU Open Data Portal ให้การเข้าถึงข้อมูลเปิดที่แบ่งปันโดยสถาบันของสหภาพยุโรป ข้อมูลเหล่านี้เป็นข้อมูลที่สามารถนำไปใช้ในเชิงพาณิชย์และไม่ใช่เชิงพาณิชย์ได้ ผู้ใช้มีชุดข้อมูลมากกว่า 15.5 พันชุด ครอบคลุมหัวข้อต่างๆ เช่น สุขภาพ พลังงาน สิ่งแวดล้อม วัฒนธรรม และการศึกษา
ข้อมูลด้านสุขภาพ
หลังจากเกิดวิกฤตสุขภาพทั่วโลกอย่างต่อเนื่อง ชุดข้อมูลที่สร้างขึ้นโดยองค์กรด้านสุขภาพมีความจำเป็นต่อการพัฒนาโซลูชันที่มีประสิทธิภาพในการช่วยชีวิต ชุดข้อมูลเหล่านี้สามารถช่วยระบุปัจจัยเสี่ยง คำนวณรูปแบบการแพร่กระจายของโรค และเพิ่มความเร็วในการวินิจฉัย
ชุดข้อมูลเหล่านี้ประกอบด้วยบันทึกด้านสุขภาพ ข้อมูลประชากรของผู้ป่วย ความชุกของโรค การใช้ยา คุณค่าทางโภชนาการ และอื่นๆ อีกมากมาย
6. หอดูดาวสุขภาพโลก
ชุดข้อมูลนี้เป็นความคิดริเริ่มขององค์การอนามัยโลก (WHO) โดยให้ข้อมูลสาธารณะที่เกี่ยวข้องกับสุขภาพด้านต่างๆ โดยจัดตามหัวข้อต่างๆ เช่น ระบบสุขภาพ การควบคุมการใช้ยาสูบ การคลอดบุตร เอชไอวี/เอดส์ ฯลฯ นอกจากนี้ยังมีตัวเลือกในการปรึกษาข้อมูลเกี่ยวกับโควิด-19
7. สาย-19
CORD-19 เป็นคลังสิ่งพิมพ์ทางวิชาการเกี่ยวกับ COVID-19 และบทความอื่น ๆ เกี่ยวกับ coronavirus ใหม่ เป็นชุดข้อมูลแบบเปิดที่มีจุดประสงค์เพื่อสร้างข้อมูลเชิงลึกใหม่ๆ เกี่ยวกับโควิด-19
ข้อมูลเศรษฐศาสตร์
ชุดข้อมูลที่เกี่ยวข้องกับสภาพแวดล้อมทางการเงินมักจะรวบรวมข้อมูลจำนวนมาก เนื่องจากเป็นเรื่องปกติที่ข้อมูลเหล่านี้จะถูกรวบรวมมาเป็นเวลานาน เหมาะอย่างยิ่งสำหรับการสร้างการคาดการณ์ทางเศรษฐกิจหรือสร้างแนวโน้มการลงทุน
ด้วยชุดข้อมูลทางการเงินที่เหมาะสม a โมเดลแมชชีนเลิร์นนิง อาจสามารถทำนายพฤติกรรมของเนื้อหาที่กำหนดได้ นั่นเป็นสาเหตุที่ภาคการเงินทำทุกอย่างเพื่อสร้างแบบจำลอง ML ที่มีประสิทธิภาพ เนื่องจากทุกสิ่งที่สามารถคาดการณ์ได้ดีพอสมควรก็มีโอกาสสร้างรายได้หลายล้านดอลลาร์ แมชชีนเลิร์นนิงได้ทำนายพฤติกรรมของประชาชนอยู่แล้ว ซึ่งส่งผลต่อวิธีที่ผู้กำหนดนโยบายทำงานของตน
8. ไอเอ็มเอฟ
ชุดข้อมูล IMF มีช่วงของตัวชี้วัดทางเศรษฐกิจและการเงิน สถิติประเทศสมาชิก และข้อมูลเงินกู้และอัตราแลกเปลี่ยนอื่นๆ
9. ธนาคารโลก
ที่เก็บของธนาคารโลกประกอบด้วยชุดข้อมูลต่างๆ พร้อมข้อมูลทางเศรษฐกิจจากประเทศต่างๆ มีชุดข้อมูลมากกว่า 17,000 ชุด แบ่งตามทวีป
รีวิวสินค้าและบริการ
การวิเคราะห์ความเชื่อมั่นพบการใช้งานในด้านต่างๆ ซึ่งขณะนี้ช่วยให้องค์กรประเมินและเรียนรู้จากลูกค้าหรือลูกค้าของตนได้อย่างถูกต้อง มีการใช้การวิเคราะห์ความเชื่อมั่นในการติดตามโซเชียลมีเดีย การตรวจสอบแบรนด์ เสียงของลูกค้า (VoC) การบริการลูกค้า และการวิจัยตลาดมากขึ้น
การวิเคราะห์ความเชื่อมั่นใช้ NLP (การเขียนโปรแกรมภาษาศาสตร์ประสาท) และอัลกอริธึมที่อิงตามกฎ ไฮบริด หรืออาศัยเทคนิค Machine Learning เพื่อเรียนรู้ข้อมูลจากชุดข้อมูล
ข้อมูลที่จำเป็นในการวิเคราะห์ความรู้สึกควรมีความเชี่ยวชาญและจำเป็นในปริมาณมาก ส่วนที่ท้าทายที่สุดเกี่ยวกับกระบวนการฝึกอบรมการวิเคราะห์ความเชื่อมั่นคือการไม่พบข้อมูลในปริมาณมาก แทนที่จะค้นหาชุดข้อมูลที่เกี่ยวข้อง ชุดข้อมูลเหล่านี้ต้องครอบคลุมแอปพลิเคชันการวิเคราะห์ความคิดเห็นและกรณีการใช้งานที่หลากหลาย
10. รีวิว Amazon
ชุดข้อมูลนี้มีบทวิจารณ์เกี่ยวกับ Amazon ประมาณ 35 ล้านรายการ ครอบคลุมระยะเวลา 18 ปีของข้อมูลที่เก็บรวบรวม เป็นชุดข้อมูลของผลิตภัณฑ์ ผู้ใช้ และเนื้อหาบทวิจารณ์
11. Yelp ความคิดเห็น
Yelp ยังเสนอชุดข้อมูลตามข้อมูลที่รวบรวมจากบริการ มีรีวิวมากกว่า 8 ล้านรายการ เคล็ดลับ 1 ล้านรายการ รวมถึงแอตทริบิวต์ที่เกี่ยวข้องกับธุรกิจเกือบ 1.5 ล้านรายการ เช่น เวลาทำการและความพร้อมจำหน่ายสินค้า
12. IMDB ความคิดเห็น
ฐานข้อมูลนี้มีชุดบทวิจารณ์ภาพยนตร์สำหรับการฝึกอบรมมากกว่า 25 รายการ และอีก 25 รายการสำหรับการทดสอบที่นำมาจากหน้า IMDB ซึ่งเชี่ยวชาญด้านการจัดเรตภาพยนตร์ นอกจากนี้ยังมีข้อมูลที่ไม่มีป้ายกำกับเป็นส่วนเพิ่มเติม
ชุดข้อมูลสำหรับขั้นตอนแรกใน ML
13. ชุดข้อมูลคุณภาพไวน์
ชุดข้อมูลนี้ให้ข้อมูลที่เกี่ยวข้องกับไวน์ ทั้งสีแดงและสีเขียว ซึ่งผลิตในโปรตุเกสตอนเหนือ เป้าหมายคือการกำหนดคุณภาพไวน์ตามการทดสอบทางเคมีกายภาพ น่าสนใจสำหรับผู้ที่ต้องการฝึกสร้างระบบการทำนาย
14. ชุดข้อมูลไททานิค
ชุดข้อมูลนี้นำข้อมูลจากผู้โดยสารจริง 887 คนจากเรือไททานิค โดยแต่ละคอลัมน์จะระบุว่าพวกเขารอดชีวิตหรือไม่ อายุ ชั้นผู้โดยสาร เพศ และค่าธรรมเนียมการขึ้นเครื่องที่พวกเขาจ่ายไป ชุดข้อมูลนี้เป็นส่วนหนึ่งของความท้าทายที่เปิดตัวโดยแพลตฟอร์ม Kaggle ซึ่งมีจุดมุ่งหมายเพื่อสร้างแบบจำลองที่สามารถทำนายได้ว่าผู้โดยสารคนใดรอดชีวิตจากการจมของไททานิค
แพลตฟอร์มสำหรับค้นหาชุดข้อมูลอื่นๆ
หากคุณต้องการไปต่อและค้นหาชุดข้อมูลของคุณเอง วิธีที่ดีที่สุดคือการเรียกดูที่เก็บข้อมูลที่มีชื่อเสียงที่สุดของ เครื่องเรียนรู้ จักรวาล:
Kaggle
Kaggle ซึ่งเป็นบริษัทในเครือของ Google LLC เป็นชุมชนออนไลน์ของนักวิทยาศาสตร์ข้อมูลและผู้เชี่ยวชาญด้านแมชชีนเลิร์นนิง Kaggle อนุญาตให้ผู้ใช้ค้นหาและเผยแพร่ชุดข้อมูล สำรวจและสร้างแบบจำลองในสภาพแวดล้อมวิทยาศาสตร์ข้อมูลบนเว็บ ทำงานร่วมกับนักวิทยาศาสตร์ข้อมูลอื่นๆ และ วิศวกรการเรียนรู้ของเครื่องและเข้าร่วมการแข่งขันเพื่อแก้ปัญหาความท้าทายด้านวิทยาศาสตร์ข้อมูล
Kaggle เริ่มต้นในปี 2010 โดยเสนอการแข่งขันแมชชีนเลิร์นนิง และตอนนี้ยังเปิดให้สาธารณะอีกด้วย แพลตฟอร์มข้อมูลเวิร์กเบนช์บนคลาวด์สำหรับวิทยาศาสตร์ข้อมูลและการศึกษาปัญญาประดิษฐ์
การค้นหาชุดข้อมูล
Dataset Search เป็นเสิร์ชเอ็นจิ้นจาก Google ที่ช่วยให้นักวิจัยค้นหาข้อมูลออนไลน์ที่สามารถใช้ได้ฟรี มีชุดข้อมูลหลายล้านชุดเกี่ยวกับเกือบทุกเรื่องที่คุณสนใจทั่วทั้งเว็บ
หากคุณต้องการซื้อลูกสุนัข คุณจะพบชุดข้อมูลที่รวบรวมข้อร้องเรียนของผู้ซื้อลูกสุนัขหรือการศึกษาเกี่ยวกับความรู้ความเข้าใจเกี่ยวกับลูกสุนัข หรือหากคุณชอบเล่นสกี คุณสามารถค้นหาข้อมูลเกี่ยวกับรายได้ของสกีรีสอร์ทหรืออัตราการบาดเจ็บและจำนวนการเข้าร่วม Dataset Search ได้จัดทำดัชนีชุดข้อมูลเหล่านี้เกือบ 25 ล้านชุด ทำให้คุณมีที่เดียวในการค้นหาชุดข้อมูลและค้นหาลิงก์ไปยังตำแหน่งที่ข้อมูล
พื้นที่เก็บข้อมูลการเรียนรู้ของเครื่อง UCI
UCI Machine Learning Repository คือชุดของฐานข้อมูล ทฤษฎีโดเมน และเครื่องกำเนิดข้อมูลที่ใช้โดยชุมชน Machine Learning สำหรับการวิเคราะห์เชิงประจักษ์ของอัลกอริธึมการเรียนรู้ของเครื่อง ไฟล์เก็บถาวรนี้สร้างเป็นไฟล์ ftp ในปี 1987 โดย David Aha และเพื่อนนักศึกษาระดับบัณฑิตศึกษาที่ UC Irvine
นับตั้งแต่นั้นเป็นต้นมา มีการใช้กันอย่างแพร่หลายโดยนักเรียน นักการศึกษา และนักวิจัยทั่วโลกในฐานะแหล่งที่มาหลักของชุดข้อมูล ML เอกสารนี้ได้รับการอ้างถึงมากกว่า 1000 ครั้ง ทำให้เป็นหนึ่งใน "เอกสาร" ที่มีผู้อ้างอิงมากที่สุด 100 อันดับแรกในสาขาวิทยาการคอมพิวเตอร์ทั้งหมด
ควอนเดิล
Quandl เป็นแพลตฟอร์มที่มอบชุดข้อมูลด้านเศรษฐกิจ การเงิน และทางเลือกแก่ผู้ใช้ ผู้ใช้สามารถดาวน์โหลดข้อมูลฟรี ซื้อข้อมูลแบบชำระเงิน หรือขายข้อมูลให้กับ Quandl เป็นเครื่องมือที่มีประโยชน์ในการพัฒนา อัลกอริทึมการซื้อขายตัวอย่างเช่น
สรุป
ด้วยการสำรวจเครื่องมือเหล่านี้ คุณจะได้พบกับข้อมูลดีๆ สำหรับโครงการของคุณอย่างแน่นอน อย่าลืมเลือกชุดข้อมูลที่เหมาะสมที่สุดสำหรับความต้องการเฉพาะของคุณ และจำไว้เสมอว่า ไม่ใช่แค่เกี่ยวกับปริมาณ แต่ยังรวมถึงคุณภาพด้วย ชุดข้อมูลเป็นพื้นฐานของ any โครงการแมชชีนเลิร์นนิง และจำเป็นต้องสร้างจากข้อมูลที่มีคุณภาพเพื่อหลีกเลี่ยงความเสี่ยงที่จะได้ข้อสรุปที่ผิดพลาด
เขียนความเห็น