Мундариҷа[Пинҳон кардан][Намоиш]
Ҳар як лоиҳаи омӯзиши мошинсозӣ ба маҷмӯи додаҳои хуб такя мекунад. Маҳз ин маҷмӯаи бузурги додаҳо ба шумо имкон медиҳад, ки модели ML-и худро омӯзед ва тасдиқ кунед. Ҳамин тавр, қисми зиёди кор дар лоиҳаи ML ин дарёфти маҷмӯи маълумоти комил барои эҳтиёҷоти шумост. Бо вуҷуди ин, на ҳамеша имкон пайдо кардани варианте, ки ба шӯҳратпарастии шумо мувофиқ аст, зеро бисёре аз файлҳое, ки ҷолиб ба назар мерасанд, дар ниҳоят нестанд.
То он даме, ки шумо ба маҷмӯи идеалӣ расед, вақтро барои зеркашии маҷмӯаҳои бешумор сарф кардан душвор аст. Бо дарназардошти ин, мо якчанд вариантҳоро ҷамъ овардем, ки ҷолиб ба назар мерасанд ва метавонанд ба шумо дар таҳияи лоиҳаи ML-и худ кӯмак расонанд. Аҳамият диҳед, ки баъзеҳо ба ҷои истифодаи тиҷоратӣ барои шахсӣ пешбинӣ шудаанд, аз ин рӯ ба ин вариантҳо ҳамчун роҳи ба даст овардани таҷриба дар олами ML нигаред.
Асосҳои маҷмӯи додаҳо
Пеш аз он ки мо дар бораи маҷмӯи додаҳо зикр кунем, мо бояд баъзе истилоҳҳоро муайян кунем. Дар лоиҳаҳои зеҳни сунъӣ, махсусан омӯзиши мошин, миқдори зиёди маълумот лозим аст, ки барои омӯзонидани алгоритм истифода хоҳанд шуд. Ин миқдори маълумот дар пойгоҳи додаҳо ҷамъоварӣ карда мешавад, ки барои таълими алгоритм хеле муфид аст.
Бо ин маълумот, алгоритм омӯзонида мешавад - инчунин озмуда мешавад - ва қодир аст, ки намунаҳоро пайдо кунад, муносибатҳо барқарор кунад ва ба таври мустақил қарор қабул кунад. Бе омӯзиш, омӯзиши мошин алгоритмҳо ягон амалро иҷро карда наметавонанд. Аз ин рӯ, ҳар қадар маълумоти омӯзишӣ беҳтар бошад, модел ҳамон қадар беҳтар кор мекунад. Барои он ки пойгоҳи додаҳо барои лоиҳа муфид бошад, сухан дар бораи миқдор нест: он инчунин дар бораи тасниф аст.
Идеалӣ, маълумот бояд хуб нишон дода шавад. Дар бораи мисоли чатботҳо фикр кунед: ворид кардани забон муҳим аст, аммо таҳлили синтаксисиро бодиққат анҷом додан лозим аст, то алгоритми сохташуда фаҳмад, ки ҳамсӯҳбат ҳангоми истифодаи сленг. Танҳо он вақт ёрдамчии виртуалӣ метавонад ҷавобро мувофиқи дархости корбар оғоз кунад.
Маҷмӯи додаҳоро аз пурсишҳо, маълумоти хариди корбарон, арзёбиҳои дар хидматҳо гузошташуда ва бо роҳҳои дигар тавлид кардан мумкин аст, ки имкон медиҳанд маълумоти муфидро дар сутунҳо ва сатрҳо дар файли CSV ташкил кунанд.
Пеш аз он ки шумо ба ҷустуҷӯи маҷмӯаи додаҳои комил шурӯъ кунед, муҳим аст, ки шумо ҳадафи лоиҳаи худро донед, хусусан агар он аз як минтақаи мушаххас, аз қабили обу ҳаво, молия, саломатӣ ва ғайра бошад. маҷмӯи маълумот.
Маҷмӯи маълумот барои ML
Омӯзиши чатбот
Чатботи муассир миқдори зиёди маълумоти омӯзишро талаб мекунад, то дархостҳои корбаронро бидуни дахолати инсон зуд ҳал кунад. Бо вуҷуди ин, монеаи асосӣ дар рушди чатбот ба даст овардани маълумоти воқеии муколамаи ба вазифа нигаронидашуда барои омӯзиши ин системаҳои омӯзиши мошинсозӣ мебошад.
Маҷмӯи додаҳои гуфтугӯӣ маълумотро дар формати саволу ҷавоб ҷамъ мекунад. Он барои омӯзиши чатботҳо беҳтарин аст, ки ба шунавандагон ҷавобҳои автоматӣ медиҳанд. Бе ин маълумот, чатбот наметавонад дархостҳои корбаронро зуд ҳал кунад ё ба саволҳои корбарон бидуни ниёз ба дахолати инсон посух диҳад.
Бо истифода аз ин маҷмӯаҳои додаҳо, корхонаҳо метавонанд асбоберо эҷод кунанд, ки ба мизоҷон 24/7 ҷавобҳои зуд медиҳад ва назар ба доштани як гурӯҳи одамоне, ки дастгирии муштариёнро анҷом медиҳанд, хеле арзонтар аст.
1. Маҷмӯи маълумотҳои савол-ҷавоб
Ин маҷмӯаи маълумот маҷмӯи мақолаҳо, саволҳо ва ҷавобҳои дастӣ тавлидшудаи онҳоро дар Википедиа пешниҳод мекунад. Ин маҷмӯи маълумотест, ки дар байни солҳои 2008 ва 2010 барои истифода дар тадқиқоти илмӣ.
2. Маълумот дар бораи забон
Маълумоти забонӣ махзани маълумотест, ки аз ҷониби Yahoo идора карда мешавад ва иттилооте, ки аз баъзе хидматҳои ширкат, ба монанди Yahoo! Ҷавоб, ки ҳамчун ҷомеаи кушода барои корбарон барои интишори саволҳо ва ҷавобҳо кор мекунад.
3. WikiQA
Корпуси WikiQA инчунин аз маҷмӯи саволҳо ва ҷавобҳо иборат аст. Сарчашмаи саволҳо Bing мебошад, дар ҳоле ки ҷавобҳо ба саҳифаи Википедиа пайваст мешаванд, ки имкони ҳалли саволи аввалро доранд.
Дар маҷмӯъ, дар маҷмӯи маълумот зиёда аз 3,000 савол ва маҷмӯи 29,258 ҷумла мавҷуд аст, ки тақрибан 1,400-тои онҳо ҳамчун ҷавоб ба саволи мувофиқ гурӯҳбандӣ шудаанд.
Маълумоти ҳукумат
Маҷмӯаҳои додаҳое, ки ҳукуматҳо тавлид мекунанд, маълумоти демографиро меорад, ки барои лоиҳаҳои марбут ба фаҳмидани тамоюлҳои иҷтимоӣ, эҷоди сиёсати давлатӣ ва беҳбуди ҷомеа саҳми бузург мебошанд. Ин метавонад барои маъракаҳои сиёсӣ, таблиғи мақсаднок ё таҳлили бозор муфид бошад.
Ин маҷмӯаҳои додаҳо маъмулан дорои маълумоти беном мебошанд, бинобар ин, дар ҳоле ки моделҳо метавонанд ба маълумоти хом дастрасӣ пайдо кунанд, ҳеҷ гуна вайронкунии махфияти шахсӣ вуҷуд надорад.
4. Data.gov
Data.gov дар соли 2009 ба кор даромад, манбаи маълумоти Амрикои Шимолӣ мебошад. Каталоги он таъсирбахш аст: зиёда аз 218,000 маҷмӯи додаҳо, ки имкон медиҳанд, ки аз рӯи формат, тегҳо, намудҳо ва мавзӯъҳо тақсим карда шаванд.
5. Портали маълумоти кушоди ИА
Портали маълумоти кушоди ИА дастрасиро ба маълумоти кушодаи муассисаҳои Иттиҳоди Аврупо фароҳам меорад. Инҳо маълумоте мебошанд, ки метавонанд барои истифодаи тиҷоратӣ ва ғайритиҷоратӣ пешбинӣ шаванд. Дар ихтиёри корбарон зиёда аз 15.5 ҳазор маҷмӯаи маълумот мавҷуд аст, ки мавзӯъҳои марбут ба тандурустӣ, энергетика, муҳити зист, фарҳанг ва маорифро дар бар мегиранд.
Маълумот дар бораи саломатӣ
Пас аз бӯҳрони давомдор дар соҳаи тандурустӣ дар саросари ҷаҳон, маҷмӯаҳои додаҳои аз ҷониби ташкилотҳои тандурустӣ тавлидшуда барои таҳияи роҳҳои муассир барои наҷоти ҳаёт муҳиманд. Ин маҷмӯаҳои додаҳо метавонанд омилҳои хавфро муайян кунанд, шаклҳои интиқоли бемориро кор кунанд ва ташхисро суръат бахшанд.
Ин маҷмӯаҳои маълумот аз сабтҳои саломатӣ, демографияи беморон, паҳншавии беморӣ, истифодаи доруворӣ, арзишҳои ғизоӣ ва ғайра иборатанд.
6. Обсерваторияи ҷаҳонии тандурустӣ
Ин маҷмӯаи маълумот ташаббуси Созмони умумиҷаҳонии тандурустӣ (ТУТ) мебошад. Он маълумоти ҷамъиятии марбут ба соҳаҳои гуногуни тандурустӣ, ки аз рӯи мавзӯъҳо ба мисли системаҳои тандурустӣ, назорати истеъмоли тамоку, таваллуд, ВИЧ/СПИД ва ғайра ташкил карда шудаанд, пешниҳод мекунад. Инчунин имкони машварати маълумот оид ба COVID-19 мавҷуд аст.
7. КОРД-19
CORD-19 як маҷмӯаи нашрияҳои академӣ дар бораи COVID-19 ва мақолаҳои дигар дар бораи коронавируси нав мебошад. Ин маҷмӯаи маълумоти кушодаест, ки барои тавлиди фаҳмиши нав дар бораи COVID-19 пешбинӣ шудааст.
Маълумоти иқтисодӣ
Маҷмӯаҳои додаҳои марбут ба муҳити молиявӣ одатан миқдори зиёди иттилоотро ҷамъ мекунанд, зеро маъмул аст, ки онҳо барои муддати тӯлонӣ ҷамъоварӣ шудаанд. Онҳо барои эҷоди пешгӯиҳои иқтисодӣ ё муқаррар кардани тамоюлҳои сармоягузорӣ беҳтаринанд.
Бо маълумоти дурусти молиявӣ, а Модели омӯзиши мошинҳо метавонад рафтори дороии додашударо пешгӯӣ кунад. Аз ин рӯ, бахши молиявӣ тамоми кори аз дасташ меомадаро мекунад, то модели муассири ML-ро эҷод кунад, зеро ҳар чизе, ки метавонад ҳатто ба таври оқилона пешгӯӣ кунад, потенсиали тавлиди миллионҳо долларро дорад. Омӯзиши мошин аллакай рафтори шаҳрвандонро пешгӯӣ мекунад, ки ин ба тарзи иҷрои вазифаҳои сиёсатмадорон таъсир мерасонад.
8. Хазинаи Байналмилалии Асъор
Маҷмӯи маълумоти ХБА як қатор нишондиҳандаҳои иқтисодӣ ва молиявӣ, омори кишварҳои узв ва дигар маълумоти қарз ва қурби асъорро дар бар мегирад.
9. Бонки ҷаҳонӣ
Анбори Бонки Ҷаҳонӣ дорои маҷмӯаҳои гуногуни маълумот бо маълумоти иқтисодии кишварҳои гуногун мебошад. Зиёда аз 17,000 маҷмӯаи додаҳо ба қитъаҳо тақсим карда шудаанд.
Баррасии маҳсулот ва хидматҳо
Таҳлили эҳсосот барномаҳои худро дар соҳаҳои гуногун пайдо кард, ки ҳоло ба корхонаҳо барои дуруст ҳисоб кардан ва аз муштариён ё мизоҷони худ омӯхтан кӯмак мекунанд. Таҳлили эҳсосот барои мониторинги васоити ахбори иҷтимоӣ, мониторинги бренд, овози муштарӣ (VoC), хидматрасонии муштариён ва таҳқиқоти бозор бештар истифода мешавад.
Таҳлили эҳсосот NLP-ро истифода мебарад (барномасозии нейро-лингвистӣ) усулҳо ва алгоритмҳое, ки ба қоидаҳо, гибридӣ асос ёфтаанд ё ба усулҳои омӯзиши мошинсозӣ барои омӯхтани маълумот аз маҷмӯи додаҳо такя мекунанд.
Маълумоте, ки барои таҳлили эҳсосот лозим аст, бояд махсус бошад ва ба миқдори зиёд талаб карда мешавад. Қисми душвортарин дар раванди омӯзиши таҳлили эҳсосот ин дарёфти маълумот ба миқдори калон нест; ба ҷои ин, он барои дарёфти маҷмӯи додаҳои дахлдор аст. Ин маҷмӯаҳои додаҳо бояд доираи васеи барномаҳои таҳлили эҳсосот ва ҳолатҳои истифодаро фаро гиранд.
10. Обзоры Amazon
Ин маҷмӯаи додаҳо тақрибан 35 миллион баррасиҳои Amazon-ро дар бар мегирад, ки дар тӯли 18 соли иттилооти ҷамъоварӣ шудаанд. Ин маҷмӯаи маълумоти маҳсулот, корбар ва мундариҷаи барраси мебошад.
11. Баррасиҳои Yelp
Yelp инчунин маҷмӯи маълумотро дар асоси маълумоти аз хидмати он ҷамъовардашуда пешниҳод мекунад. Зиёда аз 8 миллион баррасиҳо, 1 миллион маслиҳатҳо ва илова бар он тақрибан 1.5 миллион атрибутҳои марбут ба тиҷорат мавҷуданд, ба монанди соатҳои корӣ ва мавҷудият.
12. Баррасиҳои IMDB
Ин махзани маълумот маҷмӯи беш аз 25 ҳазор барраси филмҳо барои омӯзиш ва 25 ҳазори дигар барои санҷишҳои ғайрирасмӣ аз саҳифаи IMDB, ки ба рейтинги филмҳо тахассус ёфтааст, иборат аст. Он инчунин маълумоти иловагиро пешниҳод мекунад.
Маҷмӯи додаҳо барои қадамҳои аввал дар ML
13. Маҷмӯи маълумоти сифати шароб
Ин маҷмӯаи маълумот маълумотро дар бораи шароб, ҳам сурх ва ҳам сабз, ки дар шимоли Португалия истеҳсол мешавад, таъмин мекунад. Мақсад муайян кардани сифати шароб дар асоси санҷишҳои физикӣ-химиявӣ мебошад. Барои онҳое, ки мехоҳанд дар сохтани системаи пешгӯӣ машқ кунанд, ҷолиб аст.
14. Маҷмӯаи маълумоти Титаник
Ин маҷмӯаи маълумот маълумотро аз 887 мусофири воқеии Титаник меорад ва ҳар як сутун муайян мекунад, ки оё онҳо зинда мондаанд, синну сол, синфи мусофир, ҷинс ва ҳаққи савор пардохт кардаанд. Ин маҷмӯаи додаҳо як қисми чолишҳое буд, ки платформаи Kaggle оғоз кардааст, ки ҳадафи он эҷод кардани моделе буд, ки пешгӯӣ карда метавонад, ки кадом мусофирон ҳангоми ғарқ шудани Титаник зинда мондаанд.
Платформаҳо барои дарёфти дигар маҷмӯи додаҳо
Агар шумо хоҳед, ки минбаъд равед ва маҷмӯаи маълумоти шахсии худро пайдо кунед, роҳи беҳтарини дидани анборҳои машҳуртарини омӯзиши мошин коинот:
Каггл
Kaggle, як ширкати фаръии Google LLC, як ҷомеаи онлайни олимони маълумот ва мутахассисони омӯзиши мошинсозӣ мебошад. Kaggle ба корбарон имкон медиҳад, ки маҷмӯаҳои додаҳоро пайдо ва интишор кунанд, моделҳоро дар муҳити илми маълумот дар асоси веб омӯзанд ва эҷод кунанд; бо дигар олимони маълумот кор кардан ва Муҳандисони омӯзиши мошинҳо, ва дар озмунҳо барои ҳалли мушкилоти илми маълумот иштирок кунед.
Kaggle дар соли 2010 бо пешниҳоди озмунҳои омӯзиши мошинсозӣ оғоз ёфт ва ҳоло ба омма пешниҳод мекунад платформаи маълумот, як мизи корӣ дар асоси абр барои илми маълумот ва таълими зеҳни сунъӣ.
Ҷустуҷӯи маҷмӯи маълумот
Dataset Search як системаи ҷустуҷӯии Google мебошад, ки ба муҳаққиқон дар ёфтани маълумоти онлайн, ки барои истифода озодона дастрасанд, кӯмак мекунад. Дар саросари интернет миллионҳо маҷмӯи маълумотҳо дар бораи қариб ҳама мавзӯъҳое мавҷуданд, ки ба шумо таваҷҷӯҳ доранд.
Агар шумо дар ҷустуҷӯи як сагбача бошед, шумо метавонед маҷмӯаҳои маълумотеро пайдо кунед, ки шикоятҳои харидорони сагбачаҳоро ҷамъоварӣ мекунанд ё дар бораи шинохти сагбачаҳо таҳқиқот мекунанд. Ё агар ба шумо лижаронӣ маъқул бошад, шумо метавонед маълумотро дар бораи даромади осоишгоҳҳои лижаронӣ ё сатҳи ҷароҳатҳо ва рақамҳои иштирок пайдо кунед. Ҷустуҷӯи маҷмӯаи додаҳо тақрибан 25 миллион ин маҷмӯаҳои додаҳоро индексатсия кардааст, ки ба шумо як ҷой барои ҷустуҷӯи маҷмӯаҳои додаҳо ва пайдо кардани истинодҳо ба куҷост.
Анбори омӯзиши мошинҳои UCI
Анбори омӯзиши мошинҳои UCI маҷмӯаи пойгоҳи додаҳо, назарияҳои доменҳо ва генераторҳои додаҳо мебошад, ки аз ҷониби ҷомеаи Machine Learning барои таҳлили эмпирикии алгоритмҳои омӯзиши мошин истифода мешаванд. Архив ҳамчун бойгонии ftp дар соли 1987 аз ҷониби Дэвид Аҳа ва ҳамкорони аспирантҳо дар UC Irvine сохта шудааст.
Аз он вақт инҷониб, он аз ҷониби донишҷӯён, омӯзгорон ва муҳаққиқон дар тамоми ҷаҳон ҳамчун манбаи асосии маҷмӯи маълумотҳои ML васеъ истифода мешавад. Ҳамчун нишондиҳандаи таъсири бойгонӣ, он зиёда аз 1000 маротиба иқтибос оварда шудааст, ки он ба яке аз 100 "коғазҳо" дар тамоми илми информатика дохил мешавад.
Куандл
Quandl як платформаест, ки ба корбарони худ маҷмӯи маълумотҳои иқтисодӣ, молиявӣ ва алтернативӣ медиҳад. Истифодабарандагон метавонанд маълумоти ройгонро зеркашӣ кунанд, маълумоти пулакӣ харанд ё маълумотро ба Quandl фурӯшанд. Он метавонад як воситаи муфид барои рушди алгоритмҳои савдо, Масалан.
хулоса
Бо омӯхтани ин асбобҳо, шумо боварӣ ҳосил мекунед, ки барои лоиҳаҳои худ саҳми олӣ хоҳед ёфт. Боварӣ ҳосил кунед, ки маҷмӯи маълумотро, ки барои эҳтиёҷоти мушаххаси шумо мувофиқтар аст, интихоб кунед ва ҳамеша дар хотир доред: ин на танҳо ба миқдор, балки сифат низ дахл дорад. Маҷмӯи маълумот асоси ҳама гуна маълумот аст Лоиҳаи омӯзиши мошинҳо ва ба маълумоти босифат асоснок кардан муҳим аст, то аз хатари ба даст овардани хулосаҳои нодуруст пешгирӣ карда шавад.
Дин ва мазҳаб