Змест[Схаваць][Паказаць]
Кожны праект машыннага навучання абапіраецца на добры набор даных. Менавіта гэты вялікі набор даных дазволіць вам навучаць і правяраць вашу мадэль ML. Такім чынам, вялікая частка працы ў праекце ML - гэта пошук ідэальнага набору дадзеных для вашых патрэб. Аднак не заўсёды атрымоўваецца знайсці варыянт, які адпавядае вашым амбіцыям, бо многія файлы, якія выглядаюць цікава, у рэшце рэшт не з'яўляюцца такімі.
Можа быць складана марнаваць час на загрузку незлічоных набораў даных, пакуль вы не атрымаеце ідэальнага набору. Маючы гэта на ўвазе, мы сабралі некалькі варыянтаў, якія здаюцца цікавымі і могуць дапамагчы вам развіць ваш праект ML. Звярніце ўвагу, што некаторыя з іх прызначаны для асабістага, а не для камерцыйнага выкарыстання, таму паглядзіце на гэтыя варыянты як на спосаб атрымаць вопыт у сусвеце ML.
Асновы набораў даных
Перш чым згадаць наборы даных, мы павінны вызначыць некаторыя тэрміны. Асабліва ў праектах штучнага інтэлекту машыннае навучанне, патрабуецца вялікая колькасць даных, якія будуць выкарыстоўвацца для навучання алгарытму. Такі аб'ём дадзеных збіраецца ў базе дадзеных, што вельмі карысна для навучання алгарытму.
З дапамогай гэтых дадзеных алгарытм навучаецца - таксама тэстуецца - і становіцца здольным знаходзіць заканамернасці, усталёўваць адносіны і, такім чынам, самастойна прымаць рашэнні. Без навучання, машыннае навучанне алгарытмы не могуць выканаць ніякіх дзеянняў. Такім чынам, чым лепш навучальныя дадзеныя, тым лепш будзе працаваць мадэль. Каб база дадзеных была карыснай для праекта, справа не ў колькасці: гэта таксама ў класіфікацыі.
У ідэале дадзеныя павінны быць добра маркіраваныя. Падумайце пра чат-боты: моўная ўстаўка важная, але трэба правесці ўважлівы сінтаксічны аналіз, каб створаны алгарытм мог зразумець, калі суразмоўца выкарыстоўвае слэнг. Толькі тады віртуальны памочнік зможа запусціць адказ у адпаведнасці з тым, што запытаў карыстальнік.
Наборы даных можна ствараць з апытанняў, дадзеных аб пакупках карыстальнікаў, ацэнак, пакінутых у сэрвісах, і многімі іншымі спосабамі, якія дазваляюць збіраць карысную інфармацыю, арганізаваную па слупках і радках у файле CSV.
Перш чым адправіцца на пошук ідэальнага набору даных, важна ведаць мэту вашага праекта, асабліва калі ён з пэўнай вобласці, напрыклад, надвор'е, фінансы, здароўе і г.д. Гэта будзе вызначаць крыніцу, з якой вы будзеце браць свае набор даных.
Наборы даных для ML
Навучанне чат-бота
Эфектыўны чат-бот патрабуе велізарнай колькасці навучальных дадзеных, каб хутка вырашаць запыты карыстальнікаў без умяшання чалавека. Аднак асноўным вузкім месцам у распрацоўцы чат-бота з'яўляецца атрыманне рэалістычных, арыентаваных на задачы дыялогавых даных для навучання гэтых сістэм, заснаваных на машынным навучанні.
Гутарковы набор даных збірае даныя ў фармаце пытанняў і адказаў. Ён ідэальна падыходзіць для навучання чат-ботаў, якія будуць даваць аўтаматызаваныя адказы аўдыторыі. Без гэтых дадзеных чат-бот не зможа хутка вырашаць запыты карыстальнікаў або адказваць на пытанні карыстальнікаў без неабходнасці ўмяшання чалавека.
Выкарыстоўваючы гэтыя наборы даных, прадпрыемствы могуць стварыць інструмент, які забяспечвае хуткія адказы кліентам 24/7 і значна танней, чым каманда людзей, якія займаюцца падтрымкай кліентаў.
1. Набор даных пытанняў-адказаў
Гэты набор даных змяшчае набор артыкулаў Вікіпедыі, пытанняў і адпаведных адказаў, створаных уручную. Гэта набор даных, сабраных у перыяд з 2008 па 2010 год для выкарыстання ў акадэмічныя даследаванні.
2. Дадзеныя мовы
Моўныя даныя - гэта база дадзеных, якой кіруе Yahoo, з інфармацыяй, атрыманай з некаторых сэрвісаў кампаніі, такіх як Yahoo! Адказ, які працуе як адкрытае супольнасць для карыстальнікаў, якія могуць размяшчаць пытанні і адказы.
3. WikiQA
Корпус WikiQA таксама складаецца з набору пытанняў і адказаў. Крыніцай пытанняў з'яўляецца Bing, а адказы спасылаюцца на старонку Вікіпедыі, якая можа вырашыць першапачатковае пытанне.
Усяго ў наборы даных больш за 3,000 пытанняў і набор з 29,258 прапаноў, з якіх каля 1,400 былі аднесены да катэгорыі адказаў на адпаведнае пытанне.
Дадзеныя ўрада
Наборы даных, створаныя ўрадамі, прыносяць дэмаграфічныя даныя, якія з'яўляюцца выдатным матэрыялам для праектаў, звязаных з разуменнем сацыяльных тэндэнцый, стварэннем дзяржаўнай палітыкі і паляпшэннем грамадства. Гэта можа быць карысна для палітычных кампаній, мэтавай рэкламы або аналізу рынку.
Гэтыя наборы даных звычайна ўтрымліваюць ананімныя даныя, таму, хоць мадэлі могуць атрымаць доступ да сырых даных, парушэнняў асабістай прыватнасці няма.
4. Data.gov
Data.gov, запушчаны ў 2009 годзе, з'яўляецца паўночнаамерыканскай крыніцай дадзеных. Яго каталог ўражвае: больш за 218,000 XNUMX набораў даных, якія дазваляюць сегментаваць па фармаце, тэгах, тыпах і тэмах.
5. Партал адкрытых даных ЕС
Партал адкрытых даных ЕС забяспечвае доступ да адкрытых даных, якімі карыстаюцца інстытуты Еўрапейскага саюза. Гэта даныя, якія могуць быць прызначаныя для камерцыйнага і некамерцыйнага выкарыстання. У распараджэнні карыстальнікаў больш за 15.5 тысяч набораў даных, якія ахопліваюць такія тэмы, як ахова здароўя, энергетыка, навакольнае асяроддзе, культура і адукацыя.
Дадзеныя пра здароўе
У сувязі з працягваецца крызісам у галіне аховы здароўя ва ўсім свеце наборы даных, створаныя арганізацыямі аховы здароўя, неабходныя для распрацоўкі эфектыўных рашэнняў для выратавання жыццяў. Гэтыя наборы даных могуць дапамагчы вызначыць фактары рызыкі, выпрацаваць мадэлі перадачы захворвання і паскорыць дыягностыку.
Гэтыя наборы даных складаюцца з медыцынскіх запісаў, дэмаграфічных дадзеных пацыентаў, распаўсюджанасці захворванняў, выкарыстання ў лекавых прэпаратах, харчовай каштоўнасці і многае іншае.
6. Глабальная абсерваторыя аховы здароўя
Гэты набор дадзеных з'яўляецца ініцыятывай Сусветнай арганізацыі аховы здароўя (СААЗ). Ён змяшчае агульнадаступныя даныя, звязаныя з рознымі сферамі аховы здароўя, арганізаваныя па такіх тэмах, як сістэмы аховы здароўя, барацьба з ужываннем тытуню, мацярынства, ВІЧ/СНІД і г.д. Таксама ёсць магчымасць азнаёміцца з дадзенымі па COVID-19.
7. ШНУР-19
CORD-19 — гэта корпус навуковых публікацый па COVID-19 і іншых артыкулаў пра новы каранавірус. Гэта адкрыты набор даных, прызначаны для стварэння новых уяўленняў аб COVID-19.
Дадзеныя эканомікі
Наборы даных, звязаныя з фінансавым асяроддзем, звычайна збіраюць велізарны аб'ём інфармацыі, так як звычайна яны збіраліся на працягу доўгага часу. Яны ідэальна падыходзяць для стварэння эканамічных прагнозаў або ўстанаўлення інвестыцыйных тэндэнцый.
З правільнымі наборамі фінансавых дадзеных, а Мадэль машыннага навучання можа быць у стане прадказаць паводзіны дадзенага актыву. Вось чаму фінансавы сектар робіць усё, што ў яго сілах, каб стварыць эфектыўную мадэль ML, бо ўсё, што можа прадказаць нават дастаткова добра, можа прынесці мільёны долараў. Машыннае навучанне ўжо прадказвае паводзіны грамадзян, што ўплывае на тое, як палітыкі выконваюць сваю працу.
8. Міжнародны валютны фонд
Набор даных МВФ змяшчае шэраг эканамічных і фінансавых паказчыкаў, статыстыку краін-членаў і іншыя звесткі аб пазыках і абменных курсах.
9. Сусветны банк
Рэпазітар Сусветнага банка змяшчае розныя наборы даных з эканамічнай інфармацыяй з розных краін. Існуе больш за 17,000 XNUMX набораў даных, падзеленых па кантынентах.
Агляды прадуктаў і паслуг
Аналіз настрояў знайшоў сваё прымяненне ў розных галінах, якія цяпер дапамагаюць прадпрыемствам правільна ацэньваць і вучыцца ў сваіх кліентаў або кліентаў. Аналіз настрояў усё часцей выкарыстоўваецца для маніторынгу сацыяльных сетак, маніторынгу брэнда, голасу кліента (VoC), абслугоўвання кліентаў і даследавання рынку.
Аналіз настрояў выкарыстоўвае НЛП (нейра-лінгвістычнае праграмаванне) метады і алгарытмы, якія альбо заснаваныя на правілах, альбо гібрыдныя, альбо абапіраюцца на метады машыннага навучання для вывучэння дадзеных з набораў даных.
Дадзеныя, неабходныя для аналізу настрояў, павінны быць спецыялізаванымі і патрабуюцца ў вялікіх колькасцях. Самая складаная частка працэсу навучання аналізу настрояў - гэта не пошук дадзеных у вялікіх аб'ёмах; замест гэтага, гэта знайсці адпаведныя наборы даных. Гэтыя наборы даных павінны ахопліваць шырокую вобласць прыкладанняў аналізу настрояў і варыянтаў выкарыстання.
10. Водгукі Амазонкі
Гэты набор даных змяшчае каля 35 мільёнаў аглядаў Amazon, якія ахопліваюць 18-гадовы перыяд сабранай інфармацыі. Гэта набор даных прадукту, карыстальнікаў і аглядаў.
11. Yelp Агляды
Yelp таксама прапануе набор даных, заснаваны на інфармацыі, сабранай з яго сэрвісу. Ёсць больш за 8 мільёнаў аглядаў, 1 мільён падказак, а таксама амаль 1.5 мільёна атрыбутаў, звязаных з кампаніямі, такіх як гадзіны працы і даступнасць.
12. Агляды IMDB
Гэтая база змяшчае набор з больш чым 25 тысяч рэцэнзій на фільмы для навучання і яшчэ 25 тысяч для тэстаў, узятых неафіцыйна са старонкі IMDB, спецыялізаванай на рэйтынгах фільмаў. Ён таксама прапануе немаркіраваныя дадзеныя ў якасці дадатковага.
Наборы даных для першых крокаў у ML
13. Набор дадзеных якасці віна
Гэты набор даных дае інфармацыю пра віно, як чырвонае, так і зялёнае, вырабленае ў паўночнай Партугаліі. Мэта складаецца ў тым, каб вызначыць якасць віна на аснове фізіка-хімічных выпрабаванняў. Цікава для тых, хто хоча папрактыкавацца ў стварэнні сістэмы прагнозаў.
14. Набор даных "Тытанік".
Гэты набор даных змяшчае даныя ад 887 рэальных пасажыраў з «Тытаніка», прычым кожны слупок вызначае, ці выжылі яны, іх узрост, клас пасажыра, пол і плату за пасадку. Гэты набор дадзеных быў часткай праблемы, запушчанай платформай Kaggle, мэтай якой было стварыць мадэль, якая магла б прадказаць, якія пасажыры перажылі патанненне "Тытаніка".
Платформы для пошуку іншых набораў даных
Калі вы хочаце пайсці далей і знайсці свой уласны набор даных, лепшым спосабам будзе прагляд самых вядомых сховішчаў машыннае навучанне сусвет:
Kaggle
Kaggle, даччыная кампанія Google LLC, з'яўляецца інтэрнэт-супольнасцю навукоўцаў па дадзеных і спецыялістаў машыннага навучання. Kaggle дазваляе карыстальнікам знаходзіць і публікаваць наборы даных, даследаваць і ствараць мадэлі ў вэб-асяроддзі навукі аб даных; працаваць з іншымі навукоўцамі па дадзеных і Інжынеры машыннага навучання, і ўдзельнічаць у конкурсах для вырашэння задач навукі аб даных.
Kaggle пачаўся ў 2010 годзе, прапаноўваючы конкурсы машыннага навучання, а цяпер таксама прапануе публічныя платформа дадзеных, воблачны працоўны стол для навукі аб даных і адукацыі штучнага інтэлекту.
Пошук набораў даных
Dataset Search - гэта пошукавая сістэма ад Google, якая дапамагае даследчыкам знаходзіць даныя ў Інтэрнэце, якія знаходзяцца ў вольным доступе для выкарыстання. У Інтэрнэце ёсць мільёны набораў даных амаль па любой тэме, якая вас цікавіць.
Калі вы хочаце купіць шчанюка, вы можаце знайсці наборы дадзеных, якія збіраюць скаргі пакупнікоў шчанюкоў або даследаванні пазнання шчанюкоў. Або, калі вы любіце катацца на лыжах, вы можаце знайсці даныя аб даходах гарналыжных курортаў або колькасці траўмаў і колькасці ўдзельнікаў. Пошук набораў даных праіндэксаваў амаль 25 мільёнаў гэтых набораў даных, што дае вам адзінае месца для пошуку набораў даных і спасылак на іх.
Рэпазітар машыннага навучання UCI
Рэпазітар машыннага навучання UCI — гэта набор баз даных, тэорый даменаў і генератараў даных, якія выкарыстоўваюцца супольнасцю машыннага навучання для эмпірычнага аналізу алгарытмаў машыннага навучання. Архіў быў створаны ў якасці ftp-архіва ў 1987 годзе Дэвідам Ага і аднакурснікамі ў UC Irvine.
З таго часу ён шырока выкарыстоўваецца студэнтамі, выкладчыкамі і даследчыкамі ва ўсім свеце ў якасці асноўнай крыніцы набораў дадзеных ML. Як прыкмета ўплыву архіва, ён быў цытаваны больш за 1000 разоў, што робіць яго адным з 100 самых цытуемых «дакументаў» ва ўсёй інфарматыцы.
Квандл
Quandl - гэта платформа, якая прадастаўляе сваім карыстальнікам эканамічныя, фінансавыя і альтэрнатыўныя наборы даных. Карыстальнікі могуць спампоўваць бясплатныя даныя, купляць платныя дадзеныя або прадаваць даныя Quandl. Гэта можа быць карысным інструментам для развіцця алгарытмы гандлю, напрыклад.
заключэнне
Вывучыўшы гэтыя інструменты, вы абавязкова знойдзеце выдатны матэрыял для сваіх праектаў. Абавязкова выбірайце набор даных, які найбольш адпавядае вашым канкрэтным патрэбам, і заўсёды памятайце: гэта не толькі колькасць, але і якасць. Набор даных з'яўляецца асновай любога Праект машыннага навучання і вельмі важна абапірацца на якасныя дадзеныя, каб пазбегнуць рызыкі атрымання памылковых высноў.
Пакінуць каментар