Преглед садржаја[Сакрити][Прикажи]
Сваки пројекат машинског учења ослања се на добар скуп података. Управо овај велики скуп података ће вам омогућити да обучите и потврдите свој МЛ модел. Дакле, велики део посла у МЛ пројекту је проналажење савршеног скупа података за ваше потребе. Међутим, није увек могуће пронаћи опцију која одговара вашим амбицијама, јер многи фајлови који изгледају занимљиво, на крају, нису.
Може бити застрашујуће губити време на преузимање безбројних скупова података док не дођете до идеалног скупа. Имајући то на уму, прикупили смо неке опције које изгледају интересантно и које вам могу помоћи да развијете свој МЛ пројекат. Имајте на уму да су неке намењене за личну уместо комерцијалну употребу, па погледајте ове опције као начин да стекнете искуство у универзуму МЛ.
Основе скупова података
Пре него што поменемо скупове података, требало би да дефинишемо неке појмове. У пројектима вештачке интелигенције, посебно Машинско учење, потребна је велика количина података, који ће се користити за обуку алгоритма. Ова количина података се прикупља у бази података, што је изузетно корисно за подучавање алгоритма.
Са овим подацима, алгоритам је обучен – такође тестиран – и постаје способан да пронађе обрасце, успостави односе и тако аутономно доноси одлуке. Без обуке, Машинско учење алгоритми нису у стању да изврше никакву радњу. Дакле, што су бољи подаци о обуци, то ће модел боље радити. Да би база података била корисна за пројекат, не ради се о количини: већ о класификацији.
У идеалном случају, подаци би требали бити добро означени. Размислите о случају цхатботова: уметање језика је важно, али се мора извршити пажљива синтаксичка анализа како би креирани алгоритам могао да разуме када саговорник користи сленг. Тек тада ће виртуелни асистент моћи да покрене одговор према захтеву корисника.
Скупови података се могу генерисати из анкета, података о куповини корисника, процена остављених на услугама и на многе друге начине који омогућавају прикупљање корисних информација организованих у колоне и редове у ЦСВ датотеци.
Пре него што кренете у потрагу за савршеним скупом података, важно је да знате сврху вашег пројекта, посебно ако се ради о одређеној области, као што су време, финансије, здравље, итд. Ово ће диктирати извор из којег ћете добити своје скуп података.
Скупови података за МЛ
Обука за ћаскање
Ефикасан цхатбот захтева огромну количину података за обуку како би брзо решио упите корисника без људске интервенције. Међутим, примарно уско грло у развоју цхатбот-а је добијање реалистичних података за дијалог оријентисаних на задатке за обуку ових система заснованих на машинском учењу.
Конверзацијски скуп података прикупља податке у формату питања и одговора. Идеалан је за обуку цхатботова који ће давати аутоматизоване одговоре публици. Без ових података, цхатбот неће моћи брзо да реши упите корисника или одговори на питања корисника без потребе за људском интервенцијом.
Користећи ове скупове података, предузећа могу да креирају алат који клијентима пружа брзе одговоре 24 сата дневно, 7 дана у недељи и знатно је јефтинији од тима људи који ради корисничку подршку.
1. Скуп података питања-одговора
Овај скуп података пружа скуп чланака, питања на Википедији и њихових одговарајућих ручно генерисаних одговора. То је скуп података прикупљен између 2008. и 2010. за употребу у Академска истраживања.
2. Подаци о језику
Подаци о језику су база података којом управља Иахоо са информацијама генерисаним из неких услуга компаније, као што је Иахоо! Одговор, који функционише као отворена заједница за кориснике да постављају питања и одговоре.
3. ВикиКА
ВикиКА корпус се такође састоји од скупа питања и одговора. Извор питања је Бинг, док се одговори повезују на страницу Википедије са потенцијалом за решавање почетног питања.
Укупно, у скупу података постоји више од 3,000 питања и скуп од 29,258 реченица, од којих је око 1,400 категорисано као одговори на одговарајуће питање.
Владини подаци
Скупови података које генеришу владе доносе демографске податке, који су одлични инпути за пројекте који се односе на разумевање друштвених трендова, креирање јавних политика и унапређење друштва. Ово може бити корисно за политичке кампање, циљано оглашавање или анализу тржишта.
Ови скупови података обично садрже анонимне податке, па иако модели могу приступити сировим подацима, нема кршења личне приватности.
4. Дата.гов
Покренут 2009. године, Дата.гов је северноамерички извор података. Његов каталог је импресиван: више од 218,000 скупова података који омогућавају сегментацију према формату, ознакама, типовима и темама.
5. Портал отворених података ЕУ
Портал отворених података ЕУ омогућава приступ отвореним подацима које деле институције Европске уније. То су подаци који могу бити намењени за комерцијалну и некомерцијалну употребу. Кориснику је на располагању више од 15.5 хиљада скупова података који покривају теме као што су здравље, енергија, животна средина, култура и образовање.
Подаци о здрављу
У светлу текуће здравствене кризе широм света, скупови података које генеришу здравствене организације су од суштинског значаја за развој ефикасних решења за спасавање живота. Ови скупови података могу помоћи у идентификацији фактора ризика, утврђивању образаца преноса болести и убрзавању дијагнозе.
Ови скупови података се састоје од здравствених картона, демографије пацијената, преваленције болести, употребе у медицини, нутритивних вредности и још много тога.
6. Глобална здравствена опсерваторија
Овај скуп података је иницијатива Светске здравствене организације (СЗО). Пружа јавне податке који се односе на различите области здравља, организоване по темама као што су здравствени системи, контрола употребе дувана, материнство, ХИВ/АИДС, итд. Постоји и опција да се консултују подаци о ЦОВИД-19.
7. ЦОРД-19
ЦОРД-19 је корпус академских публикација о ЦОВИД-19 и других чланака о новом корона вирусу. То је отворени скуп података намењен генерисању нових увида о ЦОВИД-19.
Економски подаци
Скупови података који се односе на финансијско окружење обично прикупљају огромну количину информација, јер је уобичајено да се прикупљају дуго времена. Идеални су за креирање економских предвиђања или успостављање инвестиционих трендова.
Са правим финансијским скуповима података, а Модел машинског учења могао би да предвиди понашање датог средства. Због тога финансијски сектор чини све што је у његовој моћи да створи ефикасан модел МЛ, јер све што може да предвиди чак и разумно добро има потенцијал да генерише милионе долара. Машинско учење већ предвиђа понашање грађана, што утиче на начин на који креатори политике раде свој посао.
8. Међународни монетарни фонд
Скуп података ММФ-а садржи низ економских и финансијских индикатора, статистике земаља чланица и друге податке о кредитима и курсу.
9. Светска банка
Репозиторијум Светске банке садржи различите скупове података са економским информацијама из различитих земаља. Постоји више од 17,000 скупова података подељених по континентима.
Прегледи производа и услуга
Анализа расположења је нашла своју примену у различитим областима које сада помажу предузећима да исправно процене и уче од својих клијената или купаца. Анализа сентимента се све више користи за праћење друштвених медија, праћење бренда, глас купаца (ВоЦ), корисничку подршку и истраживање тржишта.
Анализа осећања користи НЛП (неуро-лингвистичко програмирање) методе и алгоритми који су или засновани на правилима, хибридни или се ослањају на технике машинског учења за учење података из скупова података.
Подаци потребни у анализи осећања треба да буду специјализовани и потребни су у великим количинама. Најизазовнији део процеса обуке анализе сентимента није проналажење података у великим количинама; уместо тога, то је проналажење релевантних скупова података. Ови скупови података морају покривати широку област апликација и случајева употребе анализе осећања.
КСНУМКС. Амазон Ревиевс
Овај скуп података садржи око 35 милиона Амазон рецензија, које обухватају 18-годишњи период прикупљених информација. То је скуп података производа, корисника и садржаја рецензије.
КСНУМКС. Иелп Ревиевс
Иелп такође нуди скуп података заснован на информацијама прикупљеним из његове услуге. Постоји преко 8 милиона рецензија, 1 милион савета, плус скоро 1.5 милиона атрибута везаних за предузећа, као што су радно време и доступност.
КСНУМКС. ИМДБ Ревиевс
Ова база података садржи скуп од више од 25 хиљада филмских рецензија за обуку и још 25 хиљада за тестове преузете неформално са ИМДБ странице, специјализоване за оцене филмова. Такође нуди неозначене податке као додатне.
Скупови података за прве кораке у МЛ
КСНУМКС. Скуп података о квалитету вина
Овај скуп података пружа информације везане за вино, и црвено и зелено, произведено у северном Португалу. Циљ је дефинисање квалитета вина на основу физичко-хемијских испитивања. Занимљиво за оне који желе да вежбају креирање система предвиђања.
КСНУМКС. Титаниц Датасет
Овај скуп података доноси податке од 887 стварних путника са Титаника, при чему свака колона дефинише да ли су преживели, њихову старост, класу путника, пол и накнаду за укрцавање коју су платили. Овај скуп података био је део изазова који је покренула платформа Каггле, чији је циљ био да створи модел који би могао да предвиди који су путници преживели потонуће Титаника.
Платформе за проналажење других скупова података
Ако желите да идете даље и пронађете сопствени скуп података, најбољи начин је да прегледате најпознатија репозиторијума Машинско учење свемир:
Каггле
Каггле, подружница компаније Гоогле ЛЛЦ, је онлајн заједница научника података и професионалаца за машинско учење. Каггле омогућава корисницима да пронађу и објављују скупове података, истражују и креирају моделе у веб-базираном окружењу науке о подацима; рад са другим научницима података и Инжењери машинског учења, и учествују у такмичењима за решавање изазова науке о подацима.
Каггле је започео 2010. године нудећи такмичења у машинском учењу, а сада нуди и јавност платформа података, радни сто заснован на облаку за науку о подацима и образовање о вештачкој интелигенцији.
Претрага скупа података
Датасет Сеарцх је Гоогле претраживач који помаже истраживачима да пронађу онлајн податке који су бесплатно доступни за употребу. Широм веба постоје милиони скупова података о скоро свакој теми која вас занима.
Ако желите да купите штене, можете пронаћи скупове података који прикупљају жалбе купаца штенаца или студије о спознаји штенета. Или, ако волите скијање, можете пронаћи податке о приходима скијалишта или стопама повреда и броју учесника. Претрага скупова података је индексирала скоро 25 милиона ових скупова података, дајући вам једно место за претрагу скупова података и проналажење веза до места где се подаци налазе.
УЦИ складиште машинског учења
УЦИ Репозиторијум машинског учења је колекција база података, теорија домена и генератора података које користи заједница машинског учења за емпиријску анализу алгоритама машинског учења. Архива је створена као фтп архива 1987. године од стране Дејвида Аха и колега постдипломаца са УЦ Ирвине.
Од тог времена, студенти, наставници и истраживачи широм света га нашироко користе као примарни извор скупова података МЛ. Као показатељ утицаја архиве, цитиран је више од 1000 пута, што га чини једним од 100 најцитиранијих „радова“ у читавој рачунарској науци.
Куандл
Куандл је платформа која својим корисницима пружа економске, финансијске и алтернативне скупове података. Корисници могу преузети бесплатне податке, купити плаћене податке или продати податке Куандлу. Може бити корисно средство за развој трговачки алгоритми, на пример.
Zakljucak
Истражујући ове алате, сигурно ћете пронаћи одличне инпуте за своје пројекте. Обавезно изаберите скуп података који је најпогоднији за ваше специфичне потребе и увек имајте на уму: не ради се само о количини, већ и о квалитету. Скуп података је основа било ког Пројекат машинског учења и неопходно је градити на квалитетним подацима како би се избегао ризик од доношења погрешних закључака.
Ostavite komentar