Мазмұны[Жасыру][Көрсету]
Әрбір Machine Learning жобасы жақсы деректер жинағына сүйенеді. Дәл осы үлкен деректер жинағы ML үлгісін үйретуге және тексеруге мүмкіндік береді. Сонымен, ML жобасындағы жұмыстың үлкен бөлігі сіздің қажеттіліктеріңізге арналған тамаша деректер жинағын табу болып табылады. Дегенмен, сіздің амбицияңызға сәйкес келетін опцияны табу әрдайым мүмкін емес, өйткені қызықты көрінетін көптеген файлдар, сайып келгенде, жоқ.
Сіз идеалды жинаққа жеткенше сансыз деректер жиынын жүктеп алуға уақытты жоғалту қорқынышты болуы мүмкін. Осыны ескере отырып, біз қызықты болып көрінетін және ML жобаңызды дамытуға көмектесетін кейбір опцияларды жинадық. Кейбіреулер коммерциялық емес, жеке пайдалануға арналғанын ескеріңіз, сондықтан осы опцияларды ML әлемінде тәжірибе алудың жолы ретінде қараңыз.
Деректер жиынының негіздері
Деректер жиынын айтпас бұрын, біз кейбір терминдерді анықтауымыз керек. Жасанды интеллект жобаларында, әсіресе Машина жасау, деректердің үлкен көлемі қажет, олар алгоритмді үйрету үшін пайдаланылады. Бұл деректер көлемі алгоритмді үйрету үшін өте пайдалы мәліметтер қорында жиналады.
Бұл деректердің көмегімен алгоритм оқытылады, сонымен қатар сыналады және үлгілерді табуға, қарым-қатынас орнатуға және осылайша автономды шешім қабылдауға қабілетті болады. Жаттығусыз, Машина жасау алгоритмдер ешқандай әрекетті орындай алмайды. Сондықтан жаттығу деректері неғұрлым жақсы болса, модель соғұрлым жақсы нәтиже береді. Дерекқор жобаға пайдалы болуы үшін бұл санда емес, сонымен қатар классификацияда.
Ең дұрысы, деректер жақсы таңбаланған болуы керек. Чат-боттардың жағдайы туралы ойланыңыз: тілді енгізу маңызды, бірақ жасалған алгоритм әңгімелесушінің сленгті пайдаланғанын түсінуі үшін мұқият синтаксистік талдау жасау керек. Сонда ғана виртуалды көмекші пайдаланушы сұраған нәрсеге сәйкес жауапты іске қоса алады.
Деректер жиынын сауалнамалардан, пайдаланушы сатып алу деректерінен, қызметтерде қалдырылған бағалаулардан және CSV файлындағы бағандар мен жолдарда ұйымдастырылған пайдалы ақпаратты жинауға мүмкіндік беретін көптеген басқа жолдармен жасауға болады.
Керемет деректер жинағын іздеуге кіріспес бұрын, жобаңыздың мақсатын білу маңызды, әсіресе ол ауа-райы, қаржы, денсаулық және т.б. сияқты белгілі бір аймақтан болса. деректер жинағы.
ML үшін деректер жиындары
Чатботты оқыту
Тиімді чат-бот адамның араласуынсыз пайдаланушы сұрауларын жылдам шешу үшін оқыту деректерінің үлкен көлемін қажет етеді. Дегенмен, чатботты әзірлеудегі негізгі кедергі бұл Machine Learning негізіндегі жүйелерді үйрету үшін нақты, тапсырмаға бағытталған диалогтық деректерді алу болып табылады.
Сөйлесу деректер жинағы деректерді сұрақ-жауап пішімінде жинайды. Бұл аудиторияға автоматтандырылған жауаптар беретін чат-боттарды оқыту үшін өте қолайлы. Бұл деректер болмаса, чатбот адамның араласуынсыз пайдаланушы сұрауларын жылдам шеше алмайды немесе пайдаланушы сұрақтарына жауап бере алмайды.
Осы деректер жиынын пайдалана отырып, бизнес тұтынушыларға тәулік бойы жылдам жауап беретін құрал жасай алады және тұтынушыларға қолдау көрсететін адамдар тобына қарағанда айтарлықтай арзанырақ.
1. Сұрақ-жауап деректер жинағы
Бұл деректер жинағы Уикипедия мақалаларының, сұрақтардың және олардың сәйкес қолмен жасалған жауаптарының жиынтығын береді. Бұл пайдалану үшін 2008 және 2010 жылдар аралығында жиналған деректер жинағы академиялық зерттеулер.
2. Тіл деректері
Тіл деректері — Yahoo басқаратын, Yahoo! Сұрақтар мен жауаптарды жариялау үшін пайдаланушылар үшін ашық қауымдастық ретінде жұмыс істейтін Answer.
3. WikiQA
WikiQA корпусы сонымен қатар сұрақтар мен жауаптар жиынтығынан тұрады. Сұрақтардың көзі Bing болып табылады, ал жауаптар бастапқы сұрақты шешу мүмкіндігі бар Уикипедия бетіне сілтеме жасайды.
Деректер жинағында барлығы 3,000-нан астам сұрақ пен 29,258 сөйлем жиынтығы бар, олардың 1,400-ге жуығы сәйкес сұраққа жауап ретінде жіктелген.
Үкімет деректері
Үкіметтер жасаған деректер жинақтары әлеуметтік тенденцияларды түсінуге, мемлекеттік саясатты құруға және қоғамды жақсартуға қатысты жобалар үшін тамаша кіріс болып табылатын демографиялық деректерді әкеледі. Бұл саяси науқандар, мақсатты жарнама немесе нарықты талдау үшін пайдалы болуы мүмкін.
Бұл деректер жиындары әдетте анонимді деректерді қамтиды, сондықтан үлгілер өңделмеген деректерге қол жеткізе алғанымен, жеке құпиялылық бұзылмайды.
4. Data.gov
2009 жылы іске қосылған Data.gov деректердің Солтүстік Америка көзі болып табылады. Оның каталогы әсерлі: пішім, тегтер, түрлер және тақырыптар бойынша сегменттеуге мүмкіндік беретін 218,000 XNUMX-нан астам деректер жиыны.
5. ЕО ашық деректер порталы
ЕО ашық деректер порталы Еуропалық Одақ институттары бөлісетін ашық деректерге қол жеткізуді қамтамасыз етеді. Бұл коммерциялық және коммерциялық емес пайдалануға арналған деректер. Пайдаланушының қарауында денсаулық, энергетика, қоршаған орта, мәдениет және білім сияқты тақырыптарды қамтитын 15.5 мыңнан астам деректер жинағы бар.
Денсаулық туралы мәліметтер
Бүкіл әлемде жалғасып жатқан денсаулық дағдарысынан кейін денсаулық сақтау ұйымдары жасаған деректер жинақтары өмірді сақтап қалудың тиімді шешімдерін әзірлеу үшін өте маңызды. Бұл деректер жинақтары қауіп факторларын анықтауға, аурудың берілу үлгілерін анықтауға және диагнозды жылдамдатуға көмектеседі.
Бұл деректер жинағы денсаулық туралы жазбалардан, пациенттердің демографиялық деректерінен, аурудың таралуынан, дәрілік препараттарды қолданудан, тағамдық құндылықтардан және т.б. тұрады.
6. Жаһандық денсаулық сақтау обсерваториясы
Бұл деректер жинағы Дүниежүзілік денсаулық сақтау ұйымының (ДДҰ) бастамасы болып табылады. Ол денсаулық сақтау жүйесі, темекі тұтынуды бақылау, ана, АҚТҚ/ЖИТС және т.б. сияқты тақырыптар бойынша ұйымдастырылған денсаулық сақтаудың әртүрлі салаларына қатысты жалпыға қолжетімді деректерді ұсынады. Сондай-ақ, COVID-19 туралы деректермен кеңесу мүмкіндігі бар.
7. ШАБ-19
CORD-19 – бұл COVID-19 туралы академиялық басылымдардың және жаңа коронавирус туралы басқа мақалалардың корпусы. Бұл COVID-19 туралы жаңа түсініктер жасауға арналған ашық деректер жинағы.
Экономикалық деректер
Қаржылық ортаға қатысты деректер жинағы әдетте ақпараттың үлкен көлемін жинайды, өйткені олар ұзақ уақыт бойы жинақталған. Олар экономикалық болжамдар жасау немесе инвестициялық трендтерді орнату үшін өте қолайлы.
Дұрыс қаржылық деректер жиынтығымен, а Machine Learning моделі берілген активтің әрекетін болжай алады. Сондықтан қаржы секторы тиімді ML моделін жасау үшін қолынан келгеннің барлығын жасайды, өйткені тіпті ақылға қонымды болжам жасай алатын кез келген нәрсе миллиондаған долларлар әкелу мүмкіндігіне ие. Machine Learning қазірдің өзінде азаматтардың мінез-құлқын болжайды, бұл саясаткерлердің өз жұмыстарын орындауына әсер етеді.
8. Халықаралық валюта қоры
ХВҚ деректер жинағы бірқатар экономикалық және қаржылық көрсеткіштерді, мүше елдердің статистикасын және басқа да несие және валюта бағамы деректерін қамтиды.
9. Дүниежүзілік банк
Дүниежүзілік банк репозиторийінде әртүрлі елдердің экономикалық ақпараттары бар әртүрлі деректер жинақтары бар. Континенттерге бөлінген 17,000 XNUMX-нан астам деректер жинағы бар.
Өнімдер мен қызметтерге шолулар
Сезімдерді талдау қазір кәсіпорындарға өз клиенттерін немесе тұтынушыларын дұрыс бағалауға және үйренуге көмектесетін әртүрлі салаларда өз қолданбаларын тапты. Сезімдерді талдау әлеуметтік медиа мониторингі, бренд мониторингі, тұтынушының дауысы (VoC), тұтынушыларға қызмет көрсету және нарықты зерттеу үшін көбірек қолданылады.
Сезімдерді талдау NLP қолданады (нейролингвистикалық бағдарламалау) ережелерге негізделген, гибридті немесе деректер жиынынан деректерді үйрену үшін Machine Learning әдістеріне негізделген әдістер мен алгоритмдер.
Сезімдерді талдауға қажетті деректер мамандандырылған болуы керек және үлкен көлемде қажет. Сезімдерді талдауды оқыту үдерісінің ең қиын бөлігі үлкен көлемдегі деректерді табу емес; оның орнына ол сәйкес деректер жиынын табу болып табылады. Бұл деректер жиындары көңіл-күйді талдау қолданбаларының және пайдалану жағдайларының кең аймағын қамтуы керек.
10. Amazon шолулары
Бұл деректер жинағы жиналған ақпараттың 35 жылдық кезеңін қамтитын шамамен 18 миллион Amazon шолуларын қамтиды. Бұл өнімнің, пайдаланушының және шолу мазмұнының деректер жинағы.
11. Yelp шолулары
Yelp сонымен қатар өз қызметінен жиналған ақпаратқа негізделген деректер жинағын ұсынады. 8 миллионнан астам шолу, 1 миллион кеңес, сонымен қатар жұмыс уақыты мен қолжетімділік сияқты бизнеске қатысты 1.5 миллионға жуық атрибуттар бар.
12. IMDB шолулары
Бұл дерекқорда фильм рейтингтеріне мамандандырылған IMDB бетінен бейресми түрде алынған оқытуға арналған 25 мыңнан астам фильм шолулары және тағы 25 мыңнан астам сынақтар бар. Ол сондай-ақ қосымша ретінде белгіленбеген деректерді ұсынады.
ML тіліндегі алғашқы қадамдарға арналған деректер жиындары
13. Шарап сапасы деректер жинағы
Бұл деректер жинағы Португалияның солтүстігінде өндірілген қызыл және жасыл шарапқа қатысты ақпаратты береді. Мақсаты – физико-химиялық сынақтар негізінде шарап сапасын анықтау. Болжау жүйесін жасауды үйренгісі келетіндер үшін қызықты.
14. Титаник деректер жинағы
Бұл деректер жинағы Титаниктің 887 нақты жолаушысы туралы мәліметтерді әкеледі, әр баған олардың аман қалғанын, жасын, жолаушы класын, жынысын және төлеген отырғызу ақысын анықтайды. Бұл деректер жинағы «Титаник» суға батқанда қай жолаушы аман қалғанын болжай алатын модель жасау болатын Kaggle платформасы іске қосқан сынақтың бір бөлігі болды.
Басқа деректер жиынын табуға арналған платформалар
Егер сіз әрі қарай жүріп, өз деректер жинағын тапқыңыз келсе, ең жақсы әдіс - ең танымал репозиторийлерді шолу. Машина жасау ғалам:
Каггл
Google LLC еншілес кәсіпорны Kaggle – деректер ғалымдары мен Machine Learning мамандарының онлайн қауымдастығы. Kaggle пайдаланушыларға деректер жиынын табуға және жариялауға, веб-негізделген деректер ғылымы ортасында үлгілерді зерттеуге және жасауға мүмкіндік береді; басқа деректер ғалымдарымен жұмыс істеу және Машиналарды оқыту инженерлері, және деректер ғылымының мәселелерін шешу үшін жарыстарға қатысыңыз.
Kaggle 2010 жылы Machine Learning конкурстарын ұсына бастады және қазір көпшілікке ұсынады деректер платформасы, деректер ғылымы мен жасанды интеллект біліміне арналған бұлтқа негізделген жұмыс үстелі.
Деректер жиынын іздеу
Деректер жиынын іздеу – зерттеушілерге пайдалануға еркін қол жетімді онлайн деректерді табуға көмектесетін Google іздеу жүйесі. Интернетте сізді қызықтыратын кез келген дерлік тақырып бойынша миллиондаған деректер жинағы бар.
Егер сіз күшік сатып алғыңыз келсе, күшіктерді сатып алушылардың шағымдарын немесе күшік танымы бойынша зерттеулерді жинайтын деректер жиынтығын таба аласыз. Немесе шаңғы тебуді ұнататын болсаңыз, тау шаңғысы курорттарының кірісі немесе жарақат алу деңгейі және қатысу саны туралы деректерді таба аласыз. Деректер жиынын іздеу 25 миллион дерлік осы деректер жиынын индекстеді, бұл деректер жиынын іздеуге және деректер орналасқан жерге сілтемелерді табуға бір орынды береді.
UCI Machine Learning Repository
UCI Machine Learning репозиторийі - Machine Learning қауымдастығы Machine Learning алгоритмдерін эмпирикалық талдау үшін пайдаланатын дерекқорлардың, домен теорияларының және деректер генераторларының жинағы. Мұрағатты ftp мұрағаты ретінде 1987 жылы Дэвид Аха мен Ирвайн университетінің магистранттары жасаған.
Сол уақыттан бері оны бүкіл әлем бойынша студенттер, оқытушылар және зерттеушілер ML деректер жиынының негізгі көзі ретінде кеңінен пайдаланады. Мұрағаттың әсерінің көрсеткіші ретінде ол 1000-нан астам рет сілтеме жасалды, бұл оны барлық информатикадағы ең көп сілтеме жасалған 100 «қағаздардың» бірі етеді.
Төртбұрыш
Quandl – пайдаланушыларға экономикалық, қаржылық және балама деректер жиынын ұсынатын платформа. Пайдаланушылар тегін деректерді жүктей алады, ақылы деректерді сатып алады немесе деректерді Quandl-ге сата алады. дамыту үшін пайдалы құрал бола алады сауда алгоритмдері, мысалы.
қорытынды
Осы құралдарды зерттей отырып, сіз жобаларыңыз үшін тамаша кірістерді таба аласыз. Нақты қажеттіліктеріңізге ең қолайлы деректер жинағын таңдағаныңызға сенімді болыңыз және әрқашан есте сақтаңыз: бұл тек санға ғана емес, сапаға да қатысты. Деректер жинағы кез келгеннің негізі болып табылады Machine Learning жобасы және қате тұжырымдарға келу қаупін болдырмау үшін сапалы деректерге сүйену өте маңызды.
пікір қалдыру