Мазмуну[Жашыруу][Көрсөтүү]
Ар бир Machine Learning долбоору жакшы маалымат топтомуна таянат. Дал ушул чоң маалымат топтому сизге ML моделиңизди үйрөтүүгө жана текшерүүгө мүмкүндүк берет. Ошентип, ML долбоорундагы иштин чоң бөлүгү сиздин муктаждыктарыңыз үчүн идеалдуу маалымат топтомун табуу болуп саналат. Бирок, сиздин амбицияңызга туура келген вариантты табуу дайыма эле мүмкүн боло бербейт, анткени кызыктуу көрүнгөн көптөгөн файлдар, акыры, андай эмес.
Идеалдуу топтомго жеткенге чейин сансыз маалымат топтомдорун жүктөө үчүн убакытты текке кетирүү коркунучтуу болушу мүмкүн. Ушуну эске алып, биз кызыктуу көрүнгөн жана ML долбооруңузду иштеп чыгууга жардам бере турган кээ бир варианттарды чогулттук. Кээ бирлери коммерциялык эмес жеке колдонуу үчүн арналганын эске алыңыз, андыктан ML ааламында тажрыйба топтоонун жолу катары бул опцияларды карап көрүңүз.
Берилиштер топтомунун негиздери
Берилиштер топтомун айтуудан мурун, биз кээ бир терминдерди аныкташыбыз керек. Жасалма интеллект долбоорлорунда, өзгөчө машина Learning, алгоритмди үйрөтүү үчүн колдонула турган маалыматтардын чоң көлөмү талап кылынат. Берилиштердин бул көлөмү маалымат базасында чогултулат, ал алгоритмди үйрөтүү үчүн абдан пайдалуу.
Бул маалыматтар менен алгоритм үйрөтүлөт - ошондой эле сыналат - жана үлгүлөрдү таба алат, мамилелерди түзө алат жана ошону менен автономдуу чечим кабыл алат. Тренингсиз, машина Learning алгоритмдер эч кандай иш-аракет кыла албайт. Демек, окутуу маалыматтары канчалык жакшы болсо, модель ошончолук жакшыраак иштейт. Маалыматтар базасы долбоорго пайдалуу болушу үчүн, кеп санда эмес, классификация жөнүндө да.
Идеалында, маалыматтар жакшы белгилениши керек. Чатботтордун иши жөнүндө ойлонуп көрүңүз: тилди киргизүү маанилүү, бирок түзүлгөн алгоритм маектеш сленгди колдонуп жатканын түшүнө алышы үчүн кылдат синтаксистик талдоо жүргүзүү керек. Ошондо гана виртуалдык жардамчы колдонуучу сураган нерсеге ылайык жоопту ишке киргизе алат.
Берилиштер топтому сурамжылоолордон, колдонуучунун сатып алуу маалыматтарынан, кызматтарда калган баалардан жана CSV файлындагы тилкелерде жана саптарда уюштурулган пайдалуу маалыматты чогултууга мүмкүндүк берген көптөгөн башка жолдор менен түзүлүшү мүмкүн.
Кемчиликсиз берилиштер топтомун издөөгө киришерден мурун, долбооруңуздун максатын билүү маанилүү, айрыкча ал аба ырайы, каржы, ден соолук, ж. маалымат топтому.
ML үчүн берилиштер топтому
Чатбот боюнча тренинг
Натыйжалуу чатбот колдонуучунун суроо-талаптарын адамдын кийлигишүүсүз тез чечүү үчүн чоң көлөмдөгү окуу маалыматтарын талап кылат. Бирок, чатботту өнүктүрүүдөгү негизги кыйынчылык бул Machine Learning негизиндеги системаларды окутуу үчүн реалдуу, тапшырмага багытталган диалог маалыматтарын алуу.
Сүйлөшүү маалымат топтому маалыматтарды суроо-жооп форматында чогултат. Бул аудиторияга автоматташтырылган жоопторду бере турган чатботторду окутуу үчүн идеалдуу. Бул маалыматтарсыз чатбот адамдын кийлигишүүсүз колдонуучунун суроолорун тез чече албайт же колдонуучунун суроолоруна жооп бере албайт.
Бул маалымат топтомдорун колдонуу менен, бизнес кардарларга 24/7 тез жооп берген куралды түзө алат жана кардарларды колдоо көрсөткөн адамдардын командасына караганда кыйла арзан.
1. Суроо-жооп маалымат топтому
Бул маалымат топтому Wikipedia макалаларынын, суроолорунун жана алардын кол менен түзүлгөн жоопторунун топтомун камсыз кылат. Бул колдонуу үчүн 2008-2010-жылдары чогултулган маалымат топтому Академиялык изилдөө.
2. Language Data
Language Data Yahoo тарабынан башкарылуучу маалымат базасы, мисалы, Yahoo! Жооп, колдонуучулар суроолорду жана жоопторду жайгаштыруу үчүн ачык коомчулук катары иштейт.
3. WikiQA
WikiQA корпусу ошондой эле суроолордун жана жооптордун жыйындысынан турат. Суроолордун булагы Bing, ал эми жооптор баштапкы суроону чече ала турган Wikipedia барагына шилтеме кылат.
Жалпысынан маалымат топтомунда 3,000ден ашык суроолор жана 29,258 сүйлөмдөрдүн жыйындысы бар, алардын ичинен 1,400гө жакыны тиешелүү суроого жооп катары категорияланган.
Өкмөттүн маалыматы
Өкмөттөр тарабынан түзүлгөн берилиштер топтому демографиялык маалыматтарды алып келет, алар социалдык тенденцияларды түшүнүүгө, мамлекеттик саясатты түзүүгө жана коомду жакшыртууга байланышкан долбоорлор үчүн чоң салым болуп саналат. Бул саясий кампаниялар, максаттуу жарнама же рынокту талдоо үчүн пайдалуу болушу мүмкүн.
Бул маалымат топтомдору, адатта, анонимдүү маалыматтарды камтыйт, ошондуктан моделдер чийки маалыматтарга кире алат, бирок жеке купуялык эч кандай бузуулар жок.
4. Data.gov
2009-жылы ишке киргизилген Data.gov маалымат үчүн Түндүк Америка булагы болуп саналат. Анын каталогу таасирдүү: формат, тегдер, типтер жана темалар боюнча сегментациялоого мүмкүндүк берген 218,000 XNUMXден ашык маалымат топтому.
5. ЕБ Ачык маалыматтар порталы
ЕБ Ачык маалыматтар порталы Евробиримдиктин институттары тарабынан бөлүшүлгөн ачык маалыматтарга мүмкүнчүлүк берет. Бул коммерциялык жана коммерциялык эмес колдонууга арналган маалыматтар. Колдонуучунун карамагында ден соолук, энергетика, экология, маданият жана билим берүү сыяктуу темаларды камтыган 15.5 миңден ашык маалымат топтому бар.
Ден-соолук жөнүндө маалыматтар
Дүйнө жүзү боюнча уланып жаткан саламаттыкты сактоо кризисинен кийин, саламаттыкты сактоо уюмдары тарабынан түзүлгөн маалымат топтомдору адамдардын өмүрүн сактап калуу үчүн натыйжалуу чечимдерди иштеп чыгуу үчүн абдан маанилүү. Бул маалымат топтомдору тобокелдик факторлорун аныктоого, оорунун жугуу схемаларын иштеп чыгууга жана диагнозду тездетүүгө жардам берет.
Бул маалымат топтомдору ден соолук жазууларынан, бейтаптардын демографиясынан, оорулардын таралышынан, дары-дармек каражаттарын колдонуудан, тамактануу баалуулуктарынан жана башка көптөгөн нерселерден турат.
6. Дүйнөлүк саламаттык сактоо обсерваториясы
Бул маалымат топтому Дүйнөлүк саламаттыкты сактоо уюмунун (ДСУ) демилгеси болуп саналат. Ал саламаттыкты сактоо тутумдары, тамеки колдонууну көзөмөлдөө, энелик, ВИЧ/СПИД ж.б. сыяктуу темалар боюнча уюштурулган ден соолуктун ар кандай чөйрөлөрүнө тиешелүү коомдук маалыматтарды берет. Ошондой эле COVID-19 боюнча маалымат алуу мүмкүнчүлүгү бар.
7. КОРД-19
CORD-19 – бул COVID-19 боюнча академиялык басылмалардын жана жаңы коронавирус жөнүндө башка макалалардын корпусу. Бул ачык маалымат топтому, COVID-19 боюнча жаңы түшүнүктөрдү жаратууга арналган.
Экономикалык маалыматтар
Финансылык чөйрөгө байланыштуу маалымат топтомдору, адатта, чоң көлөмдөгү маалыматты чогултат, анткени алар көптөн бери чогултулуп келген. Алар экономикалык божомолдорду түзүү же инвестициялык тенденцияларды түзүү үчүн идеалдуу.
Туура финансылык маалыматтар топтому менен, а Machine Learning модели Берилген активдин жүрүм-турумун алдын ала айта алат. Ошондуктан каржы сектору эффективдүү ML моделин түзүү үчүн колунан келгендин баарын жасап жатат, анткени ал тургай акылга сыярлык деңгээлде алдын ала айта алган бардык нерсе миллиондогон долларларды алып келүү мүмкүнчүлүгүнө ээ. Machine Learning жарандардын жүрүм-турумун алдын ала айтууда, бул саясатчылардын өз жумуштарын аткаруу ыкмасына таасирин тийгизүүдө.
8. Эл аралык валюта фонду
ЭВФтин маалымат топтому бир катар экономикалык жана финансылык көрсөткүчтөрдү, мүчө-өлкөлөрдүн статистикасын жана башка кредиттик жана алмашуу курсу боюнча маалыматтарды камтыйт.
9. Дүйнөлүк банк
Дүйнөлүк банктын репозиторийинде ар кайсы өлкөлөрдөн алынган экономикалык маалыматтар камтылган. Континенттерге бөлүнгөн 17,000 XNUMXден ашык маалымат топтому бар.
Продукт жана кызматтарды карап чыгуу
Сезим талдоо өз колдонмолорун ар кандай тармактарда тапты, алар азыр ишканаларга кардарларынан же кардарларынан туура баалоого жана үйрөнүүгө жардам берип жатат. Сезим талдоо барган сайын коомдук медиа мониторинг, бренд мониторинг, кардардын үнү (VoC), кардарларды тейлөө жана рыноктук изилдөө үчүн колдонулат.
Сезим талдоо NLP колдонот (нейро-лингвистикалык программалоо) эрежелерге негизделген, гибриддик же маалымат топтомдорунан маалыматтарды үйрөнүү үчүн Machine Learning ыкмаларына таянган методдор жана алгоритмдер.
Сезимди талдоодо керектүү маалыматтар адистештирилген жана чоң көлөмдө талап кылынышы керек. Сезимди талдоо боюнча тренинг процессинин эң татаал бөлүгү чоң көлөмдөгү маалыматтарды табуу эмес; анын ордуна, ал тиешелүү маалымат топтомун табуу болуп саналат. Бул маалымат топтомдору сезим талдоо колдонмолорунун жана колдонуу учурларынын кеңири чөйрөсүн камтышы керек.
10. Amazon Обзоры
Бул маалымат топтому 35 жылдык чогултулган маалыматты камтыган 18 миллионго жакын Amazon сын-пикирлерин камтыйт. Бул продукттун, колдонуучунун жана кароонун мазмунунун маалымат топтому.
11. Yelp сын-пикирлер
Yelp ошондой эле анын кызматынан алынган маалыматка негизделген маалымат топтомун сунуштайт. 8 миллиондон ашык сын-пикир, 1 миллион кеңеш, ошондой эле иш сааттары жана жеткиликтүүлүк сыяктуу ишканаларга байланыштуу дээрлик 1.5 миллион атрибуттар бар.
12. IMDB сын-пикирлер
Бул маалымат базасы 25 миңден ашык кино сын-пикирлердин топтомун окутуу үчүн жана дагы 25 миң IMDB барагынан бейрасмий түрдө алынган тесттер үчүн тасмалардын рейтингине адистешкен. Ал ошондой эле кошумча катары белгиленбеген маалыматтарды сунуш кылат.
MLдеги алгачкы кадамдар үчүн берилиштер топтому
13. Шарап сапаты маалымат топтому
Бул маалымат топтому Португалиянын түндүгүндө өндүрүлгөн кызыл жана жашыл шарапка байланыштуу маалыматтарды берет. Максаты – физикалык-химиялык тесттердин негизинде шараптын сапатын аныктоо. Болжолдоо тутумун түзүүнү практикалагысы келгендер үчүн кызыктуу.
14. Титаник маалымат топтому
Бул маалымат топтому Титаниктин 887 чыныгы жүргүнчүлөрүнүн маалыматтарын алып келет, ар бир тилкеде алардын аман калганы, жашы, жүргүнчү классы, жынысы жана алар төлөгөн отургуч акысы аныкталат. Бул маалымат топтому Каггл платформасы ишке киргизген чакырыктын бир бөлүгү болгон, анын максаты Титаниктин чөгүп кетишинен кайсы жүргүнчүлөр аман калганын алдын ала ала турган моделди түзүү болгон.
Башка маалымат топтомдорун табуу үчүн платформалар
Эгер сиз андан ары баргыңыз келсе жана өзүңүздүн маалымат топтомуңузду тапкыңыз келсе, эң жакшы жол - бул эң белгилүү репозиторийлерди карап чыгуу. машина Learning аалам:
Kaggle
Kaggle, Google LLC компаниясынын туунду компаниясы, маалымат таануучулардын жана Machine Learning адистеринин онлайн коомчулугу. Kaggle колдонуучуларга маалымат топтомдорун табууга жана жарыялоого, веб-негизделген маалымат илими чөйрөсүндө моделдерди изилдөөгө жана түзүүгө мүмкүндүк берет; башка илимпоздор менен иштөө жана Машиналарды үйрөнүү инженерлери, жана маалымат илиминин көйгөйлөрүн чечүү үчүн сынактарга катышыңыз.
Kaggle 2010-жылы Machine Learning сынактарын сунуштоо менен башталган жана азыр коомчулукка сунуш кылат маалымат платформасы, маалымат илими жана Жасалма интеллект билими үчүн булутка негизделген жумушчу стол.
Dataset Search
Dataset Search – бул изилдөөчүлөргө колдонууга эркин жеткиликтүү болгон онлайн маалыматтарды табууга жардам берген Google издөө системасы. Интернетте сизди кызыктырган дээрлик бардык темалар боюнча миллиондогон маалымат топтомдору бар.
Эгерде сиз күчүктү сатып алууну каалап жатсаңыз, анда күчүктү сатып алуучулардын даттанууларын чогулткан маалымат топтомун же күчүктү таанып билүү боюнча изилдөөлөрдү таба аласыз. Же сиз лыжа тебүүнү жактырсаңыз, лыжа курортторунун кирешеси же жаракат алгандардын саны жана катышуу сандары боюнча маалыматтарды таба аласыз. Dataset Search бул маалымат топтомдорунун дээрлик 25 миллионун индекстеди, бул сизге берилиштер топтомун издөө жана маалыматтар кайда шилтемелерди табуу үчүн бир жерди берет.
UCI Machine Learning Repository
UCI Machine Learning Репозиторий - бул Machine Learning коомчулугу тарабынан Machine Learning алгоритмдерин эмпирикалык талдоо үчүн колдонулган маалымат базаларынын, домен теорияларынын жана маалымат генераторлорунун жыйындысы. Архив ftp архиви катары 1987-жылы Дэвид Аха жана UC Irvine университетинин аспиранттары тарабынан түзүлгөн.
Ошол убактан бери, ал студенттер, окутуучулар жана дүйнө жүзү боюнча изилдөөчүлөр тарабынан ML берилиштеринин негизги булагы катары кеңири колдонулуп келет. Архивдин тийгизген таасиринин көрсөткүчү катары, ал 1000ден ашуун жолу цитаталанып, аны бардык информатика боюнча эң көп цитата келтирилген 100 "кагаздын" катарына кошкон.
Quandl
Quandl - бул өз колдонуучуларын экономикалык, каржылык жана альтернативдик маалымат топтомдору менен камсыз кылган платформа. Колдонуучулар акысыз маалыматтарды жүктөй алышат, акы төлөнүүчү маалыматтарды сатып алышат же Quandl'га маалыматтарды сата алышат. өнүктүрүү үчүн пайдалуу курал болушу мүмкүн соода алгоритмдери, Мисалы үчүн.
жыйынтыктоо
Бул куралдарды изилдөө менен, сиз долбоорлоруңуз үчүн мыкты салымдарды таба аласыз. Сиздин конкреттүү муктаждыктарыңызга эң ылайыктуу маалымат топтомун тандап алууну унутпаңыз жана дайыма эсиңизде болсун: кеп санда гана эмес, сапатта да. Берилиштер топтому ар биринин негизи болуп саналат Machine Learning долбоору жана туура эмес корутундуга келүү коркунучун болтурбоо үчүн сапаттуу маалыматтарга таянуу маанилүү.
Таштап Жооп