Съдържание[Крия][Покажи]
Всеки проект за машинно обучение разчита на добър набор от данни. Именно този голям набор от данни ще ви позволи да обучите и валидирате своя модел на ML. Така че голяма част от работата в ML проект е намирането на перфектния набор от данни за вашите нужди. Въпреки това, не винаги е възможно да се намери опция, която отговаря на вашите амбиции, тъй като много файлове, които изглеждат интересни, в крайна сметка не са.
Може да е обезсърчително да губите време за изтегляне на безброй набори от данни, докато стигнете до идеалния набор. Имайки това предвид, ние събрахме някои опции, които изглеждат интересни и могат да ви помогнат да развиете вашия ML проект. Имайте предвид, че някои са предназначени за лична, вместо за търговска употреба, така че гледайте на тези опции като на начин да придобиете опит във вселената на ML.
Основи на наборите от данни
Преди да споменем наборите от данни, трябва да дефинираме някои термини. В проекти за изкуствен интелект, особено Machine Learning, е необходимо голямо количество данни, които ще бъдат използвани за обучение на алгоритъма. Това количество данни се събира в база данни, което е изключително полезно за преподаване на алгоритъм.
С тези данни алгоритъмът се обучава – също се тества – и става способен да намира модели, да установява връзки и по този начин да взема решения автономно. Без обучение, Machine Learning алгоритмите не могат да извършат никакво действие. Следователно, колкото по-добри са данните за обучението, толкова по-добре ще се представи моделът. За да бъде полезна база данни за проекта, не става дума за количество: става дума и за класификация.
В идеалния случай данните трябва да са добре етикетирани. Помислете за случая с чатботовете: вмъкването на език е важно, но трябва да се направи внимателен синтактичен анализ, за да може създаденият алгоритъм да разбере кога събеседникът използва жаргон. Само тогава виртуалният асистент ще може да стартира отговора според това, което е поискано от потребителя.
Наборите от данни могат да бъдат генерирани от анкети, данни за покупките на потребителите, оценки, оставени на услугите, и по много други начини, които позволяват събирането на полезна информация, организирана в колони и редове в CSV файл.
Преди да започнете да търсите перфектния набор от данни, важно е да знаете целта на вашия проект, особено ако е от конкретна област, като време, финанси, здраве и т.н. Това ще диктува източника, от който ще получите вашите набор от данни.
Набори от данни за ML
Обучение за чатбот
Ефективният чатбот изисква огромно количество данни за обучение, за да решава бързо потребителски запитвания без човешка намеса. Основното препятствие в разработването на чатбот обаче е получаването на реалистични, ориентирани към задачи диалогови данни за обучение на тези базирани на машинно обучение системи.
Набор от данни за разговори събира данни във формат на въпроси и отговори. Той е идеален за обучение на чатботове, които ще дават автоматизирани отговори на аудиторията. Без тези данни чатботът няма да успее да реши бързо потребителски запитвания или да отговори на потребителски въпроси без нужда от човешка намеса.
Използвайки тези набори от данни, фирмите могат да създадат инструмент, който предоставя бързи отговори на клиентите 24/7 и е значително по-евтин от екип от хора, извършващи поддръжка на клиенти.
1. Набор от данни въпрос-отговор
Този набор от данни предоставя набор от статии в Уикипедия, въпроси и съответните им ръчно генерирани отговори. Това е набор от данни, събран между 2008 и 2010 г. за използване в академични изследвания.
2. Езикови данни
Езикови данни е база данни, управлявана от Yahoo с информация, генерирана от някои от услугите на компанията, като Yahoo! Answer, който работи като отворена общност за потребителите да публикуват въпроси и отговори.
3. WikiQA
Корпусът на WikiQA също се състои от набор от въпроси и отговори. Източникът на въпросите е Bing, докато отговорите препращат към страница в Уикипедия с потенциал за разрешаване на първоначалния въпрос.
Общо в набора от данни има повече от 3,000 въпроса и набор от 29,258 1,400 изречения, от които около XNUMX са категоризирани като отговори на съответен въпрос.
Правителствени данни
Наборите от данни, генерирани от правителствата, носят демографски данни, които са чудесен вход за проекти, свързани с разбирането на социалните тенденции, създаване на публични политики и подобряване на обществото. Това може да бъде полезно за политически кампании, насочена реклама или пазарен анализ.
Тези набори от данни обикновено съдържат анонимизирани данни, така че макар моделите да имат достъп до необработените данни, няма нарушения на личната поверителност.
4. Data.gov
Стартирал през 2009 г., Data.gov е северноамериканският източник на данни. Неговият каталог е впечатляващ: повече от 218,000 XNUMX набора от данни, които позволяват сегментиране по формат, тагове, типове и теми.
5. Портал за отворени данни на ЕС
Порталът за отворени данни на ЕС предоставя достъп до отворени данни, споделяни от институциите на Европейския съюз. Това са данни, които могат да бъдат предназначени за търговска и нетърговска употреба. На разположение на потребителя са повече от 15.5 хиляди набора от данни, обхващащи теми като здравеопазване, енергия, околна среда, култура и образование.
Данни за здравето
След продължаващата здравна криза в световен мащаб наборите от данни, генерирани от здравните организации, са от съществено значение за разработването на ефективни решения за спасяване на животи. Тези набори от данни могат да помогнат да се идентифицират рисковите фактори, да се изработят модели на предаване на болестта и да се ускори диагнозата.
Тези набори от данни се състоят от здравни досиета, демографски данни на пациентите, разпространение на заболяването, лекарствена употреба, хранителни стойности и много други.
6. Глобална обсерватория за здравето
Този набор от данни е инициатива на Световната здравна организация (СЗО). Той предоставя публични данни, свързани с различни области на здравеопазването, организирани по теми като здравни системи, контрол на употребата на тютюн, майчинство, ХИВ/СПИН и др. Има също възможност за справка с данни за COVID-19.
7. ШНУР-19
CORD-19 е корпус от академични публикации за COVID-19 и други статии за новия коронавирус. Това е отворен набор от данни, предназначен да генерира нови прозрения за COVID-19.
Икономически данни
Наборите от данни, свързани с финансовата среда, обикновено събират огромно количество информация, тъй като е обичайно те да се събират от дълго време. Те са идеални за създаване на икономически прогнози или установяване на инвестиционни тенденции.
С правилните набори от финансови данни, a Модел на машинно обучение може да е в състояние да предвиди поведението на даден актив. Ето защо финансовият сектор прави всичко по силите си, за да създаде ефективен модел за машинно обучение, тъй като всичко, което може да прогнозира дори сравнително добре, има потенциала да генерира милиони долари. Машинното обучение вече предвижда поведението на гражданите, което оказва влияние върху начина, по който политиците вършат работата си.
8. Международен валутен фонд
Наборът от данни на МВФ съдържа набор от икономически и финансови показатели, статистически данни за страните членки и други данни за заеми и валутни курсове.
9. Световната банка
Хранилището на Световната банка съдържа различни набори от данни с икономическа информация от различни страни. Има повече от 17,000 XNUMX набора от данни, разделени по континенти.
Отзиви за продукти и услуги
Анализът на настроенията намери своето приложение в различни области, които сега помагат на предприятията да оценяват правилно и да се учат от своите клиенти или клиенти. Анализът на настроенията все по-често се използва за наблюдение на социалните медии, наблюдение на марката, гласа на клиента (VoC), обслужване на клиенти и проучване на пазара.
Анализът на настроенията използва НЛП (невро-лингвистично програмиране) методи и алгоритми, които са или базирани на правила, хибридни, или разчитат на техники за машинно обучение, за да научат данни от набори от данни.
Данните, необходими за анализа на настроенията, трябва да бъдат специализирани и се изискват в големи количества. Най-предизвикателната част от процеса на обучение за анализ на настроенията не е намирането на данни в големи количества; вместо това е да се намерят съответните набори от данни. Тези набори от данни трябва да покриват широка област от приложения за анализ на настроенията и случаи на употреба.
10. Отзиви на Amazon
Този набор от данни съдържа около 35 милиона прегледа на Amazon, обхващащи 18-годишен период на събирана информация. Това е набор от данни от съдържание на продукти, потребители и рецензии.
11. Отзиви за Yelp
Yelp също така предлага набор от данни, базиран на информация, събрана от неговата услуга. Има над 8 милиона рецензии, 1 милион съвета, плюс почти 1.5 милиона атрибута, свързани с бизнеса, като работно време и наличност.
12. Рецензии на IMDB
Тази база данни съдържа набор от повече от 25 хиляди филмови ревюта за обучение и още 25 хиляди за тестове, взети неофициално от страницата на IMDB, специализирана в рейтинги на филми. Той също така предлага немаркирани данни като допълнителна.
Набори от данни за първите стъпки в ML
13. Набор от данни за качеството на виното
Този набор от данни предоставя информация, свързана с вино, както червено, така и зелено, произведено в северна Португалия. Целта е да се определи качеството на виното въз основа на физикохимични тестове. Интересно за тези, които искат да практикуват създаване на система за прогнозиране.
14. Набор от данни за Титаник
Този набор от данни носи данни от 887 реални пътници от Титаник, като всяка колона определя дали са оцелели, тяхната възраст, клас пътник, пол и таксата за качване, която са платили. Този набор от данни беше част от предизвикателство, стартирано от платформата Kaggle, чиято цел беше да създаде модел, който да предскаже кои пътници са оцелели при потъването на Титаник.
Платформи за намиране на други набори от данни
Ако искате да отидете по-далеч и да намерите свой собствен набор от данни, най-добрият начин е да прегледате най-известните хранилища на Machine Learning Вселена:
Kaggle
Kaggle, дъщерно дружество на Google LLC, е онлайн общност от учени по данни и специалисти по машинно обучение. Kaggle позволява на потребителите да намират и публикуват набори от данни, да изследват и създават модели в уеб-базирана среда за наука за данни; работа с други учени по данни и Инженери по машинно обучениеи участвайте в състезания за решаване на предизвикателства в областта на науката за данни.
Kaggle стартира през 2010 г., като предлага състезания за машинно обучение, а сега предлага и публични платформа за данни, облачна работна маса за наука за данни и обучение по изкуствен интелект.
Търсене в набор от данни
Dataset Search е търсачка от Google, която помага на изследователите да намерят онлайн данни, които са свободно достъпни за използване. В мрежата има милиони набори от данни за почти всяка тема, която ви интересува.
Ако искате да закупите кученце, можете да намерите набори от данни, събиращи оплаквания от купувачи на кученца или проучвания за познанието на кученцата. Или ако обичате да карате ски, можете да намерите данни за приходите на ски курортите или процента на наранявания и броя на участието. Търсенето на набори от данни е индексирало почти 25 милиона от тези набори от данни, което ви дава едно място за търсене на набори от данни и намиране на връзки към къде се намират данните.
Хранилище за машинно обучение на UCI
Хранилището за машинно обучение на UCI е колекция от бази данни, теории на домейни и генератори на данни, които се използват от общността за машинно обучение за емпиричен анализ на алгоритмите за машинно обучение. Архивът е създаден като ftp архив през 1987 г. от Дейвид Аха и други студенти от UC Irvine.
Оттогава той е широко използван от студенти, преподаватели и изследователи по целия свят като основен източник на набори от данни за ML. Като индикация за въздействието на архива, той е цитиран над 1000 пъти, което го прави един от 100-те най-цитирани „статии“ в цялата компютърна наука.
Quandl
Quandl е платформа, която предоставя на своите потребители икономически, финансови и алтернативни набори от данни. Потребителите могат да изтеглят безплатни данни, да купуват платени данни или да продават данни на Quandl. Може да бъде полезен инструмент за развитието на алгоритми за търговия, например.
Заключение
Проучвайки тези инструменти, вие със сигурност ще намерите страхотни данни за вашите проекти. Не забравяйте да изберете набора от данни, който е най-подходящ за вашите специфични нужди и винаги имайте предвид: не става въпрос само за количество, но и за качество. Наборът от данни е в основата на всяка Проект за машинно обучение и е от съществено значение да се надграждат качествени данни, за да се избегне рискът от достигане на погрешни заключения.
Оставете коментар