Гарчиг[Нуух][Үзүүлэх]
Машин сургалтын төсөл бүр сайн мэдээллийн багцад тулгуурладаг. Энэ нь танд ML загвараа сургах, баталгаажуулах боломжийг олгох том өгөгдлийн багц юм. Тиймээс, ML төслийн ажлын томоохон хэсэг нь таны хэрэгцээнд тохирсон өгөгдлийн багцыг олох явдал юм. Гэсэн хэдий ч таны хүсэл тэмүүлэлтэй нийцэх сонголтыг олох нь үргэлж боломжгүй байдаг, учир нь сонирхолтой харагддаг олон файлууд байдаггүй.
Тохиромжтой багцад хүрэх хүртлээ тоо томшгүй олон өгөгдлийн багцыг татаж авахын тулд цаг үрэх нь аймшигтай байх болно. Үүнийг харгалзан бид танд ML төслөө хөгжүүлэхэд тань туслах сонирхолтой мэт санагдах зарим сонголтыг цуглуулсан. Зарим нь арилжааны зорилгоор бус хувийн хэрэгцээнд зориулагдсан тул ML орчлонд туршлага хуримтлуулах арга зам гэж эдгээр сонголтуудыг хараарай.
Өгөгдлийн багцын үндэс
Өгөгдлийн багцыг дурдахаасаа өмнө бид зарим нэр томъёог тодорхойлох хэрэгтэй. Ялангуяа хиймэл оюун ухааны төслүүдэд Машины сургалт, алгоритмыг сургахад их хэмжээний өгөгдөл шаардлагатай. Энэ хэмжээний өгөгдлийг өгөгдлийн санд цуглуулдаг бөгөөд энэ нь алгоритм заахад маш хэрэгтэй байдаг.
Энэхүү өгөгдлийн тусламжтайгаар алгоритмыг сургаж, бас туршиж, хэв маягийг олж, харилцаа холбоо тогтоож, бие даан шийдвэр гаргах чадвартай болдог. Сургалтгүйгээр, Машины сургалт алгоритмууд ямар ч үйлдэл хийх боломжгүй. Тиймээс сургалтын өгөгдөл сайн байх тусам загвар нь илүү сайн ажиллах болно. Өгөгдлийн сан нь төсөлд ашигтай байхын тулд энэ нь тоо хэмжээний тухай биш, харин ангилалын тухай юм.
Хамгийн тохиромжтой нь өгөгдөл нь сайн шошготой байх ёстой. Чат ботын тохиолдлыг бодоод үзээрэй: хэл оруулах нь чухал боловч харилцан ярианы хэлийг ашиглаж байгаа алгоритмыг ойлгохын тулд синтаксийн шинжилгээг сайтар хийх хэрэгтэй. Зөвхөн дараа нь виртуал туслах нь хэрэглэгчийн хүссэн зүйлийн дагуу хариултыг эхлүүлэх боломжтой болно.
Өгөгдлийн багцыг судалгаа, хэрэглэгчийн худалдан авалтын өгөгдөл, үйлчилгээн дээр үлдээсэн үнэлгээ болон CSV файлын багана, мөрөнд зохион байгуулалттай хэрэгтэй мэдээллийг цуглуулах боломжийг олгодог бусад олон аргаар үүсгэж болно.
Та төгс өгөгдлийн багц хайж эхлэхээсээ өмнө төслийн зорилго, ялангуяа цаг агаар, санхүү, эрүүл мэнд гэх мэт тодорхой газар нутгаас хамааралтай бол төслийн зорилгоо мэдэж байх нь чухал. Энэ нь таны мэдээллийн эх сурвалжийг тодорхойлох болно. өгөгдлийн багц.
ML-д зориулсан мэдээллийн багц
Чатбот сургалт
Үр дүнтэй чатбот нь хүний оролцоогүйгээр хэрэглэгчийн хүсэлтийг хурдан шийдвэрлэхийн тулд асар их хэмжээний сургалтын өгөгдөл шаарддаг. Гэсэн хэдий ч чатбот хөгжүүлэхэд тулгарч буй гол бэрхшээл бол эдгээр Machine Learning-д суурилсан системийг сургахын тулд бодитой, даалгаварт чиглэсэн харилцан ярианы өгөгдлийг олж авах явдал юм.
Харилцан ярианы өгөгдлийн багц нь асуулт хариултын форматаар өгөгдлийг цуглуулдаг. Энэ нь үзэгчдэд автомат хариулт өгөх чатботуудыг сургахад тохиромжтой. Энэ өгөгдөлгүйгээр чатбот нь хүний оролцоогүйгээр хэрэглэгчийн асуусан асуултыг хурдан шийдвэрлэх эсвэл хэрэглэгчийн асуултад хариулж чадахгүй.
Эдгээр өгөгдлийн багцыг ашигласнаар бизнесүүд үйлчлүүлэгчдэд 24/7 цагийн турш хурдан хариулт өгөх хэрэгслийг бий болгож, үйлчлүүлэгчдэд дэмжлэг үзүүлдэг хүмүүсийн багтай харьцуулахад хамаагүй хямд байдаг.
1. Асуулт-Хариултын мэдээллийн багц
Энэхүү өгөгдлийн багц нь Википедиагийн нийтлэл, асуултууд болон тэдгээрийн гар аргаар үүсгэсэн хариултуудыг өгдөг. Энэ нь 2008-2010 оны хооронд ашиглах зорилгоор цуглуулсан мэдээллийн багц юм эрдэм шинжилгээний судалгаа.
2. Хэлний өгөгдөл
Хэлний өгөгдөл нь Yahoo-ийн удирддаг мэдээллийн сан бөгөөд Yahoo! Хариулт нь хэрэглэгчдэд асуулт, хариулт нийтлэх нээлттэй нийгэмлэг болж ажилладаг.
3. WikiQA
WikiQA корпус нь мөн асуулт хариултаас бүрддэг. Асуултуудын эх сурвалж нь Bing бөгөөд хариултууд нь эхний асуултыг шийдвэрлэх боломжтой Википедиа хуудас руу холбогддог.
Өгөгдлийн багцад нийтдээ 3,000 гаруй асуулт, 29,258 өгүүлбэр байгаагийн 1,400 орчим нь холбогдох асуултын хариулт гэж ангилагдсан байна.
Засгийн газрын мэдээлэл
Засгийн газраас бий болгосон мэдээллийн багц нь хүн ам зүйн мэдээллийг авчирдаг бөгөөд энэ нь нийгмийн чиг хандлагыг ойлгох, төрийн бодлогыг бий болгох, нийгмийг сайжруулахтай холбоотой төслүүдэд агуу орц болдог. Энэ нь улс төрийн кампанит ажил, зорилтот зар сурталчилгаа эсвэл зах зээлийн шинжилгээнд тустай байж болно.
Эдгээр өгөгдлийн багц нь ихэвчлэн нэрээ нууцалсан өгөгдлийг агуулдаг тул загварууд түүхий өгөгдөлд хандах боломжтой боловч хувийн нууцлалыг зөрчихгүй.
4. Өгөгдлийн.gov
2009 онд эхэлсэн Data.gov нь Хойд Америкийн мэдээллийн эх сурвалж юм. Түүний каталог нь гайхалтай: 218,000 гаруй өгөгдлийн багц нь формат, шошго, төрөл, сэдвүүдээр сегментчилэх боломжийг олгодог.
5. ЕХ-ны нээлттэй мэдээллийн портал
ЕХ-ны нээлттэй мэдээллийн портал нь Европын холбооны байгууллагуудын хуваалцсан нээлттэй өгөгдөлд хандах боломжийг олгодог. Эдгээр нь арилжааны болон арилжааны бус зорилгоор ашиглах боломжтой өгөгдөл юм. Эрүүл мэнд, эрчим хүч, байгаль орчин, соёл, боловсрол зэрэг сэдвүүдийг хамарсан 15.5 мянга гаруй мэдээллийн багц хэрэглэгчийн мэдэлд байна.
Эрүүл мэндийн мэдээлэл
Дэлхий даяар үргэлжилж буй эрүүл мэндийн хямралын дараа эрүүл мэндийн байгууллагуудын үүсгэсэн мэдээллийн багц нь хүний амь насыг аврах үр дүнтэй шийдлүүдийг боловсруулахад чухал ач холбогдолтой юм. Эдгээр мэдээллийн багц нь эрсдэлт хүчин зүйлсийг тодорхойлох, өвчний халдвар дамжих хэлбэрийг тодорхойлох, оношийг хурдасгахад тусална.
Эдгээр мэдээллийн багц нь эрүүл мэндийн бүртгэл, өвчтөнүүдийн хүн ам зүй, өвчний тархалт, эмийн хэрэглээ, хоол тэжээлийн үнэ цэнэ болон бусад зүйлсээс бүрдэнэ.
6. Дэлхийн эрүүл мэндийн ажиглалтын төв
Энэхүү мэдээллийн багц нь Дэлхийн Эрүүл Мэндийн Байгууллагын (ДЭМБ) санаачилга юм. Энэ нь эрүүл мэндийн тогтолцоо, тамхины хэрэглээ, жирэмслэлт, ХДХВ/ДОХ гэх мэт сэдвүүдээр зохион байгуулагдсан эрүүл мэндийн янз бүрийн салбартай холбоотой олон нийтийн мэдээллийг өгдөг. Мөн COVID-19-ийн талаарх мэдээлэлтэй зөвлөлдөх сонголт байдаг.
7. CORD-19
CORD-19 бол COVID-19-ийн тухай эрдэм шинжилгээний нийтлэл болон шинэ коронавирусын тухай бусад нийтлэлүүдийн нэгдэл юм. Энэ нь COVID-19-ийн талаарх шинэ ойлголтыг бий болгох зорилготой нээлттэй мэдээллийн багц юм.
Эдийн засгийн өгөгдөл
Санхүүгийн орчинтой холбоотой мэдээллийн багцууд нь ихэвчлэн асар их хэмжээний мэдээлэл цуглуулдаг, учир нь тэдгээрийг удаан хугацаанд цуглуулсан нь түгээмэл байдаг. Эдгээр нь эдийн засгийн таамаглал гаргах эсвэл хөрөнгө оруулалтын чиг хандлагыг бий болгоход тохиромжтой.
Санхүүгийн зөв мэдээллийн багцтай бол a Машин сургалтын загвар тухайн хөрөнгийн үйл ажиллагааг урьдчилан таамаглах боломжтой. Тийм ч учраас санхүүгийн салбар үр дүнтэй ML загварыг бий болгохын тулд чадах бүхнээ хийж байна, учир нь хангалттай сайн таамаглаж чадах аливаа зүйл олон сая долларын ашиг олох боломжтой юм. Machine Learning нь иргэдийн зан төлөвийг аль хэдийн урьдчилан таамаглаж байгаа бөгөөд энэ нь бодлого боловсруулагчид ажлаа хийх арга хэлбэрт нөлөөлж байна.
8. Олон улсын валютын сан
ОУВС-гийн мэдээллийн багц нь эдийн засаг, санхүүгийн олон үзүүлэлт, гишүүн орнуудын статистик болон бусад зээл, валютын ханшийн мэдээллийг агуулдаг.
9. Дэлхийн банк
Дэлхийн банкны репозитор нь өөр өөр улс орнуудын эдийн засгийн мэдээлэл бүхий өөр өөр мэдээллийн багцыг агуулдаг. Тивүүдэд хуваагдсан 17,000 гаруй мэдээллийн багц байдаг.
Бүтээгдэхүүн, үйлчилгээний тойм
Мэдрэмжийн шинжилгээ нь янз бүрийн салбарт хэрэглэгдэхүүнээ олсон бөгөөд энэ нь одоо аж ахуйн нэгжүүдэд үйлчлүүлэгч эсвэл үйлчлүүлэгчдээсээ зөв тооцоолж, суралцахад тусалдаг. Мэдрэмжийн шинжилгээг сошиал медиа хяналт, брэндийн хяналт, хэрэглэгчийн дуу хоолой (VoC), харилцагчийн үйлчилгээ, зах зээлийн судалгаанд улам бүр ашиглаж байна.
Мэдрэмжийн шинжилгээ нь NLP ашигладаг (мэдрэлийн хэл шинжлэлийн програмчлал) дүрэмд суурилсан, эрлийз эсвэл өгөгдлийн багцаас өгөгдлийг сурахын тулд Machine Learning арга техникт тулгуурласан арга, алгоритмууд.
Мэдрэмжийн шинжилгээнд шаардлагатай өгөгдөл нь мэргэшсэн байх ёстой бөгөөд их хэмжээгээр шаарддаг. Мэдрэмжийн шинжилгээний сургалтын үйл явцын хамгийн хэцүү хэсэг бол их хэмжээний өгөгдөл олохгүй байх явдал юм; оронд нь холбогдох өгөгдлийн багцыг олох явдал юм. Эдгээр өгөгдлийн багц нь мэдрэмжийн шинжилгээний хэрэглээ, хэрэглээний тохиолдлуудын өргөн хүрээг хамарсан байх ёстой.
10. Amazon тоймууд
Энэхүү мэдээллийн багц нь 35 жилийн хугацаанд цуглуулсан мэдээллийг багтаасан 18 сая орчим Amazon тоймыг агуулдаг. Энэ нь бүтээгдэхүүн, хэрэглэгч, шүүмжийн агуулгын мэдээллийн багц юм.
11. Yelp тойм
Yelp нь мөн үйлчилгээнээсээ цуглуулсан мэдээлэлд суурилсан мэдээллийн багцыг санал болгодог. 8 сая гаруй тойм, 1 сая зөвлөмж, дээр нь ажиллах цаг, олдоц зэрэг бизнестэй холбоотой бараг 1.5 сая шинж чанарууд байдаг.
12. IMDB тойм
Энэхүү мэдээллийн санд киноны үнэлгээний чиглэлээр мэргэшсэн IMDB хуудаснаас албан бусаар авсан сургалтад зориулсан 25 мянга гаруй киноны тойм, 25 мянга гаруй тестийн багц багтсан болно. Энэ нь мөн шошгогүй өгөгдлийг нэмэлт болгон санал болгодог.
ML дэх эхний алхамуудын өгөгдлийн багц
13. Дарсны чанарын мэдээллийн багц
Энэхүү мэдээллийн багц нь Португалийн хойд хэсэгт үйлдвэрлэсэн улаан, ногоон дарстай холбоотой мэдээллийг өгдөг. Зорилго нь физик-химийн шинжилгээнд үндэслэн дарсны чанарыг тодорхойлох явдал юм. Урьдчилан таамаглах системийг бий болгох дадлага хийх хүсэлтэй хүмүүст сонирхолтой.
14. Титаник мэдээллийн багц
Энэхүү мэдээллийн багц нь Титаникийн 887 жинхэнэ зорчигчийн мэдээллийг авчирдаг бөгөөд багана тус бүр нь амьд үлдсэн эсэх, нас, зорчигчдын ангилал, хүйс, төлсөн суудлын төлбөр зэргийг тодорхойлдог. Энэхүү өгөгдлийн багц нь Титаник живэхэд ямар зорчигч амьд үлдэхийг урьдчилан таамаглах загвар бүтээх зорилготой Kaggle платформын эхлүүлсэн сорилтын нэг хэсэг байсан юм.
Бусад мэдээллийн багцыг хайх платформууд
Хэрэв та цаашаа явж, өөрийн мэдээллийн багцыг олохыг хүсч байвал хамгийн сайн арга бол хамгийн алдартай мэдээллийн сангуудыг үзэх явдал юм. Машины сургалт орчлон ертөнц:
Могой
Google ХХК-ийн охин компани болох Kaggle нь өгөгдөл судлаачид болон Machine Learning мэргэжилтнүүдийн онлайн нийгэмлэг юм. Kaggle нь хэрэглэгчдэд өгөгдлийн багцыг хайж олох, нийтлэх, вэбд суурилсан өгөгдлийн шинжлэх ухааны орчинд загвар судлах, бүтээх боломжийг олгодог; бусад өгөгдөл судлаачидтай хамтран ажиллах ба Машин сургалтын инженерүүд, мэдээллийн шинжлэх ухааны сорилтуудыг шийдвэрлэх уралдаанд оролцох.
Kaggle нь 2010 онд Machine Learning уралдаануудыг санал болгож эхэлсэн бөгөөд одоо олон нийтэд санал болгож байна өгөгдлийн платформ, мэдээллийн шинжлэх ухаан болон хиймэл оюун ухааны боловсролд зориулсан үүлэнд суурилсан ажлын ширээ.
Өгөгдлийн багц хайх
Dataset Search нь Google-ийн хайлтын систем бөгөөд судлаачдад ашиглах боломжтой онлайн өгөгдлийг олоход тусалдаг. Вэб даяар таны сонирхсон бараг бүх сэдвээр олон сая мэдээллийн багц байдаг.
Хэрэв та гөлөг худалдаж авах гэж байгаа бол гөлөг худалдан авагчдын гомдлыг цуглуулсан мэдээллийн багц эсвэл гөлөгний танин мэдэхүйн талаарх судалгааг олж болно. Эсвэл та цанаар гулгах дуртай бол цанын баазуудын орлого, гэмтлийн хувь, оролцооны талаарх мэдээллийг олж болно. Өгөгдлийн багц хайлт нь эдгээр өгөгдлийн багцын бараг 25 саяыг индексжүүлсэн нь танд өгөгдлийн багц хайх, өгөгдөл хаана байгаа холбоосыг олох боломжийг олгодог.
UCI Machine Learning Repository
UCI Machine Learning Repository нь Machine Learning нийгэмлэгээс Machine Learning алгоритмуудын эмпирик шинжилгээнд ашигладаг өгөгдлийн сан, домайн онол, өгөгдөл үүсгэгчийн цуглуулга юм. Уг архивыг 1987 онд Дэвид Аха болон UC Irvine-ийн төгсөх ангийн оюутнууд хамтран ftp архив хэлбэрээр үүсгэсэн.
Тэр цагаас хойш үүнийг дэлхийн өнцөг булан бүрт байгаа оюутнууд, сурган хүмүүжүүлэгчид, судлаачид ML мэдээллийн сангийн үндсэн эх сурвалж болгон өргөнөөр ашиглаж ирсэн. Архивын нөлөөллийн нэг илрэл болгон 1000 гаруй удаа иш татсан нь бүх компьютерийн шинжлэх ухааны хамгийн их иш татсан 100 "бичиг баримт"-ын нэг болжээ.
Квандл
Quandl бол хэрэглэгчдэдээ эдийн засаг, санхүүгийн болон өөр мэдээллийн багцаар хангадаг платформ юм. Хэрэглэгчид үнэгүй дата татаж авах, төлбөртэй дата худалдаж авах эсвэл Quandl-д дата зарах боломжтой. Энэ нь хөгжүүлэхэд хэрэгтэй хэрэгсэл байж болно арилжааны алгоритмуудЖишээ нь.
Дүгнэлт
Эдгээр хэрэгслүүдийг судалснаар та төслүүддээ маш сайн орцуудыг олох болно. Өөрийн хэрэгцээнд хамгийн тохиромжтой өгөгдлийн багцыг сонгохоо мартуузай, үргэлж санаарай: энэ нь зөвхөн тоо хэмжээний тухай биш, бас чанарын тухай юм. Өгөгдлийн багц нь аливаа зүйлийн үндэс юм Машин сургалтын төсөл Мөн буруу дүгнэлтэд хүрэх эрсдэлээс зайлсхийхийн тулд чанартай өгөгдөлд тулгуурлах нь чухал юм.
хариу үлдээх