14 најдобри збирки на податоци за машинско учење

Содржина[Крие][Прикажи]

Основи на збирки на податоци
Збирки на податоци за ML+-
Платформи за наоѓање други збирки на податоци+-
Заклучок

Секој проект за машинско учење се потпира на добра база на податоци. Токму оваа голема база на податоци ќе ви овозможи да го обучите и потврдите вашиот ML модел. Значи, голем дел од работата во ML проект е наоѓање на совршена база на податоци за вашите потреби. Сепак, не е секогаш можно да се најде опција која одговара на вашите амбиции, бидејќи многу датотеки што изгледаат интересно, на крајот, не се.

Може да биде застрашувачко да губите време за преземање безброј сетови на податоци додека не дојдете до идеален сет. Имајќи го тоа на ум, собравме неколку опции кои изгледаат интересни и можат да ви помогнат да го развиете вашиот ML проект. Забележете дека некои се наменети за лична наместо за комерцијална употреба, затоа погледнете ги овие опции како начин да стекнете искуство во универзумот ML.

Основи на збирки на податоци

Пред да ги спомнеме збирките на податоци, треба да дефинираме некои поими. Во проектите за вештачка интелигенција, особено Машинско учење, потребна е голема количина на податоци, кои ќе се користат за обука на алгоритмот. Оваа количина на податоци се собира во база на податоци, што е исклучително корисно за учење на алгоритам.

Со овие податоци, алгоритмот е обучен - исто така тестиран - и станува способен да наоѓа обрасци, да воспоставува врски и на тој начин да донесува одлуки самостојно. Без обука, Машинско учење алгоритмите не можат да извршат никакво дејство. Затоа, колку се подобри податоците за обуката, толку подобро ќе се претстави моделот. За базата на податоци да биде корисна за проектот, не се работи за количина: туку и за класификација.

Идеално, податоците треба да бидат добро означени. Размислете за случајот со чат-ботови: вметнувањето јазик е важно, но мора да се направи внимателна синтаксичка анализа за креираниот алгоритам да може да разбере кога соговорникот користи сленг. Само тогаш виртуелниот асистент ќе може да го активира одговорот според она што го барал корисникот.

Збирките на податоци може да се генерираат од анкети, податоци за купување на корисници, проценки оставени на услугите и на многу други начини кои овозможуваат собирање корисни информации организирани во колони и редови во датотека CSV.

Пред да тргнете во потрага по совршена база на податоци, важно е да ја знаете целта на вашиот проект, особено ако е од одредена област, како што се временските услови, финансиите, здравјето итн. база на податоци.

Збирки на податоци за ML

Обука за четбот

Ефективниот четбот бара огромна количина на податоци за обука со цел брзо да ги реши прашањата на корисниците без човечка интервенција. Сепак, примарното тесно грло во развојот на чет-бот е добивање на реални, ориентирани кон задачи податоци за дијалог за обука на овие системи засновани на машинско учење.

Разговорна база на податоци собира податоци во формат на прашање и одговор. Идеален е за обука на чет-ботови кои ќе даваат автоматизирани одговори на публиката. Без овие податоци, четботот нема да успее брзо да ги реши корисничките прашања или да одговори на прашањата на корисниците без потреба од човечка интервенција.

Користејќи ги овие збирки на податоци, бизнисите можат да создадат алатка која обезбедува брзи одговори на клиентите 24/7 и е значително поевтина отколку да имаат тим од луѓе кои вршат поддршка за корисници.

1. Збир на податоци за прашања и одговори

Оваа база на податоци обезбедува збир на статии, прашања на Википедија и нивните соодветни рачно генерирани одговори. Тоа е база на податоци собрана помеѓу 2008 и 2010 година за употреба во академски истражувања.

2. Јазични податоци

Јазични податоци е база на податоци управувана од Yahoo со информации генерирани од некои од услугите на компанијата, како што е Yahoo! Одговор, кој работи како отворена заедница за корисниците да објавуваат прашања и одговори.

Збирки на податоци 1

3. WikiQA

Корпусот WikiQA исто така се состои од збир на прашања и одговори. Изворот на прашањата е Бинг, додека одговорите се поврзуваат со страница на Википедија со потенцијал да се реши почетното прашање.

Збирки на податоци 2 Вкупно, има повеќе од 3,000 прашања и збир од 29,258 реченици во базата на податоци, од кои околу 1,400 се категоризирани како одговори на соодветно прашање.

Владини податоци

Збирките на податоци генерирани од владите носат демографски податоци, кои се одлични податоци за проекти поврзани со разбирање на социјалните трендови, креирање јавни политики и подобрување на општеството. Ова може да биде корисно за политички кампањи, насочено рекламирање или анализа на пазарот.

Овие збирки на податоци обично содржат анонимизирани податоци, па додека моделите можат да пристапат до необработените податоци, нема повреда на личната приватност.

4. Data.gov

Лансиран во 2009 година, Data.gov е северноамериканскиот извор за податоци. Неговиот каталог е импресивен: повеќе од 218,000 збирки на податоци кои овозможуваат сегментација по формат, ознаки, типови и теми.

5. Портал за отворени податоци на ЕУ

Порталот за отворени податоци на ЕУ обезбедува пристап до отворените податоци споделени од институциите на Европската унија. Тоа се податоци кои можат да бидат наменети за комерцијална и некомерцијална употреба. На располагање на корисникот има повеќе од 15.5 илјади сетови на податоци, кои опфаќаат теми како што се здравје, енергија, животна средина, култура и образование.

Здравствени податоци

Во пресрет на тековната здравствена криза ширум светот, збирките на податоци генерирани од здравствените организации се од суштинско значење за развивање ефективни решенија за спасување животи. Овие збирки на податоци може да помогнат да се идентификуваат факторите на ризик, да се развијат моделите за пренос на болеста и да се забрза дијагнозата.

Овие збирки на податоци се состојат од здравствени досиеја, демографија на пациенти, преваленца на болеста, употреба на лекови, нутритивни вредности и многу повеќе.

6. Глобална здравствена опсерваторија

Овој сет на податоци е иницијатива на Светската здравствена организација (СЗО). Обезбедува јавни податоци поврзани со различни области на здравјето, организирани по теми како што се здравствени системи, контрола на употребата на тутун, мајчинство, ХИВ/СИДА, итн. Исто така, постои опција да се консултираат податоци за СОВИД-19.

7. КОРД-19

CORD-19 е корпус на академски публикации за СОВИД-19 и други написи за новиот коронавирус. Тоа е отворена база на податоци наменета да генерира нови сознанија за COVID-19.

Збирки на податоци7

Економски податоци

Збирките на податоци поврзани со финансиското опкружување обично собираат огромно количество информации, бидејќи вообичаено е тие да се собираат долго време. Тие се идеални за креирање економски предвидувања или воспоставување инвестициски трендови.

Со соодветни финансиски збирки податоци, а Модел за машинско учење може да може да го предвиди однесувањето на даденото средство. Затоа финансискиот сектор прави се што е во негова моќ за да создаде ефективен модел за ML, бидејќи сè што може дури и разумно добро да предвиди има потенцијал да генерира милиони долари. Машинското учење веќе го предвидува однесувањето на граѓаните, што влијае на начинот на кој креаторите на политики ја вршат својата работа.

8. Меѓународниот монетарен фонд

Базата на податоци на ММФ содржи низа економски и финансиски показатели, статистика на земјите-членки и други податоци за заемите и девизниот курс.

9. Светска банка

Складиштето на Светска банка содржи различни збирки на податоци со економски информации од различни земји. Има повеќе од 17,000 збирки на податоци поделени по континенти.

88 збирки на податоци7

Осврти за производи и услуги

Анализата на чувствата ги најде своите примени во различни области кои сега им помагаат на претпријатијата правилно да проценат и учат од нивните клиенти или клиенти. Анализата на чувствата се повеќе се користи за следење на социјалните медиуми, следење на брендот, гласот на клиентот (VoC), услуги за клиентите и истражување на пазарот.

Анализата на сентимент користи НЛП (невро-лингвистичко програмирање) методи и алгоритми кои се или засновани на правила, хибридни или се потпираат на техники за машинско учење за да научат податоци од сетови на податоци.

Податоците потребни за анализа на чувствата треба да бидат специјализирани и да се бараат во големи количини. Најпредизвикувачкиот дел во процесот на обука за анализа на сентимент е непронаоѓањето податоци во големи количини; наместо тоа, треба да се најдат соодветните збирки на податоци. Овие збирки на податоци мора да покриваат широка област на апликации за анализа на чувствата и случаи на употреба.

10. Амазон осврти

Оваа база на податоци содржи околу 35 милиони прегледи на Амазон, кои опфаќаат 18-годишен период на собрани информации. Тоа е збир на податоци од содржина на производи, корисници и прегледи.

11. Yelp Осврти

Yelp исто така нуди база на податоци заснована на информациите собрани од неговата услуга. Има над 8 милиони прегледи, 1 милион совети, плус речиси 1.5 милиони атрибути поврзани со бизнисите, како што се работното време и достапноста.

12. Осврти на IMDB

Оваа база на податоци содржи збир од повеќе од 25 илјади филмски критики за обука и уште 25 илјади за тестови земени неформално од страницата на ИМДБ, специјализирана за рејтинг на филмови. Исто така, нуди неозначени податоци како дополнителни.

Збирки на податоци за првите чекори во ML

13. Збир на податоци за квалитетот на виното

Оваа база на податоци обезбедува информации поврзани со виното, црвено и зелено, произведено во северна Португалија. Целта е да се дефинира квалитетот на виното врз основа на физичко-хемиски тестови. Интересно за оние кои сакаат да вежбаат создавање систем за предвидување.

14. Збир на податоци на Титаник

Оваа база на податоци носи податоци од 887 вистински патници од Титаник, при што секоја колона дефинира дали преживеале, нивната возраст, класа на патници, пол и такса за патување што ја платиле. Оваа база на податоци беше дел од предизвикот лансиран од платформата Kaggle, чија цел беше да се создаде модел кој може да предвиди кои патници го преживеале потонувањето на Титаник.

Платформи за наоѓање други збирки на податоци

Ако сакате да одите понатаму и да пронајдете сопствена база на податоци, најдобриот начин е да прелистувате низ најпознатите складишта на Машинско учење универзум:

Кагла

Kaggle, подружница на Google LLC, е онлајн заедница на научници за податоци и професионалци за машинско учење. Kaggle им овозможува на корисниците да најдат и објавуваат збирки на податоци, да истражуваат и да создаваат модели во средина за наука за податоци базирана на веб; работа со други научници за податоци и Инженери за машинско учење, и учествувајте во натпревари за решавање на предизвиците на науката за податоци.

Kaggle започна во 2010 година со нудење натпревари за машинско учење, а сега нуди и јавност платформа за податоци, работна маса базирана на облак за наука за податоци и образование за вештачка интелигенција.

Пребарување на збирки на податоци

Пребарување со збирки податоци е пребарувач од Google кој им помага на истражувачите да лоцираат онлајн податоци што се слободно достапни за употреба. Низ веб, има милиони збирки на податоци за речиси секоја тема што ве интересира.

Ако барате да купите кученце, можете да најдете сетови на податоци кои собираат поплаки од купувачи на кученца или студии за сознавањето на кученцето. Или ако сакате скијање, можете да најдете податоци за приходите на скијачките центри или стапките на повреди и бројот на учество. Пребарувањето со збирки на податоци индексираше скоро 25 милиони од овие збирки на податоци, давајќи ви единствено место за пребарување на збирки на податоци и за наоѓање врски до местото каде што се податоците.

Складиште за машинско учење на UCI

Складиштето за машинско учење UCI е збирка од бази на податоци, теории на домени и генератори на податоци кои се користат од заедницата за машинско учење за емпириска анализа на алгоритмите за машинско учење. Архивата е создадена како ftp архива во 1987 година од страна на Дејвид Аха и колегите дипломирани студенти на UC Irvine.

Оттогаш, тој е широко користен од студенти, едукатори и истражувачи ширум светот како примарен извор на збирки на податоци за ML. Како показател за влијанието на архивата, таа е цитирана над 1000 пати, што го прави еден од првите 100 најцитирани „трудови“ во целата компјутерска наука.

Квандл

Quandl е платформа која на своите корисници им обезбедува економски, финансиски и алтернативни збирки на податоци. Корисниците можат да преземаат бесплатни податоци, да купуваат платени податоци или да продаваат податоци на Quandl. Тоа може да биде корисна алатка за развој на алгоритми за тргување, На пример.

Заклучок

Со истражување на овие алатки, сигурно ќе најдете одлични информации за вашите проекти. Погрижете се да изберете база на податоци што е најпогодна за вашите специфични потреби и секогаш имајте на ум: не се работи само за количината, туку и за квалитетот. Базата на податоци е основа на која било Проект за машинско учење и од суштинско значење е да се надоврзат на квалитетни податоци за да се избегне ризикот од донесување погрешни заклучоци.

Најдобри сетови на податоци за машинско учење

14 Најдобри збирки на податоци за машинско учење

Основи на збирки на податоци