Mündəricat[Gizlət][Göstər]
Hər Machine Learning layihəsi yaxşı verilənlər bazasına əsaslanır. Məhz bu böyük verilənlər bazası sizə ML modelinizi öyrətməyə və təsdiq etməyə imkan verəcəkdir. Beləliklə, ML layihəsindəki işin böyük bir hissəsi ehtiyaclarınız üçün mükəmməl verilənlər toplusunu tapmaqdır. Bununla belə, ambisiyanıza uyğun bir seçim tapmaq həmişə mümkün deyil, çünki maraqlı görünən bir çox fayl, nəticədə, belə deyil.
İdeal dəst əldə edənə qədər saysız-hesabsız verilənlər toplusunu yükləmək üçün vaxt itirmək çətin ola bilər. Bunu nəzərə alaraq, biz maraqlı görünən və ML layihənizi inkişaf etdirməyə kömək edə biləcək bəzi variantları topladıq. Qeyd edək ki, bəziləri kommersiya istifadəsi əvəzinə şəxsi istifadə üçün nəzərdə tutulub, ona görə də bu seçimlərə ML kainatında təcrübə qazanmağın bir yolu kimi baxın.
Məlumat dəstlərinin əsasları
Verilənlər toplusunu qeyd etməzdən əvvəl bəzi terminləri müəyyənləşdirməliyik. Xüsusilə Süni İntellekt layihələrində Machine Learning, alqoritmi öyrətmək üçün istifadə ediləcək böyük miqdarda məlumat tələb olunur. Bu miqdarda məlumat verilənlər bazasında toplanır və bu, alqoritmi öyrətmək üçün son dərəcə faydalıdır.
Bu məlumatlarla alqoritm öyrədilir - həm də sınaqdan keçirilir və nümunələri tapmaq, əlaqələr qurmaq və beləliklə, avtonom qərarlar qəbul etmək imkanı əldə edir. Təlim olmadan, Machine Learning alqoritmlər heç bir hərəkəti yerinə yetirə bilmir. Buna görə də, təlim məlumatları nə qədər yaxşı olarsa, model bir o qədər yaxşı performans göstərəcəkdir. Verilənlər bazasının layihə üçün faydalı olması üçün kəmiyyət deyil, həm də təsnifatdır.
İdeal olaraq, məlumatlar yaxşı etiketlənməlidir. Çatbotların işini düşünün: dilin daxil edilməsi vacibdir, lakin diqqətlə sintaktik təhlil aparılmalıdır ki, yaradılmış alqoritm həmsöhbətin jarqondan istifadə etdiyini başa düşə bilsin. Yalnız bundan sonra virtual köməkçi istifadəçinin tələb etdiyinə uyğun olaraq cavabı işə sala biləcək.
Məlumat dəstləri sorğulardan, istifadəçi alış məlumatlarından, xidmətlərdə qalan qiymətləndirmələrdən və CSV faylında sütun və sətirlərdə təşkil edilmiş faydalı məlumatların toplanmasına imkan verən bir çox başqa yollarla yaradıla bilər.
Mükəmməl verilənlər toplusunu axtarmağa başlamazdan əvvəl, layihənizin məqsədini bilmək vacibdir, xüsusən də əgər o, hava, maliyyə, sağlamlıq və s. kimi xüsusi bir sahədəndirsə. verilənlər toplusu.
ML üçün verilənlər toplusu
Chatbot təlimi
Effektiv chatbot istifadəçi sorğularını insan müdaxiləsi olmadan tez həll etmək üçün böyük miqdarda təlim məlumatı tələb edir. Bununla belə, chatbot inkişafındakı əsas darboğaz bu Maşın Öyrənməsinə əsaslanan sistemləri öyrətmək üçün real, tapşırıq yönümlü dialoq məlumatlarının əldə edilməsidir.
Danışıq verilənlər bazası məlumatları sual-cavab formatında toplayır. Tamaşaçılara avtomatlaşdırılmış cavablar verəcək chatbotların hazırlanması üçün idealdır. Bu məlumatlar olmadan chatbot insan müdaxiləsinə ehtiyac olmadan istifadəçi sorğularını tez həll edə və ya istifadəçi suallarına cavab verə bilməyəcək.
Bu məlumat dəstlərindən istifadə edərək, müəssisələr müştərilərə 24/7 cəld cavab verən alət yarada bilər və müştəri dəstəyi ilə məşğul olan insanlardan ibarət komandaya malik olmaqdan xeyli ucuz başa gəlir.
1. Sual-Cavab verilənlər toplusu
Bu verilənlər bazası bir sıra Vikipediya məqalələri, suallar və onların əl ilə yaradılmış cavablarını təqdim edir. Bu, istifadə üçün 2008 və 2010-cu illər arasında toplanmış məlumat toplusudur akademik araşdırma.
2. Dil Məlumatı
Language Data Yahoo! kimi şirkətin bəzi xidmətlərindən əldə edilən məlumatlarla Yahoo tərəfindən idarə olunan verilənlər bazasıdır. Cavab, istifadəçilər üçün suallar və cavablar göndərmək üçün açıq icma kimi işləyir.
3. WikiQA
WikiQA korpusu həmçinin suallar və cavablar toplusundan ibarətdir. Sualların mənbəyi Bing-dir, cavablar isə ilkin sualı həll etmək potensialı olan Vikipediya səhifəsinə keçid edir.
Ümumilikdə məlumat dəstində 3,000-dən çox sual və 29,258 cümlələr dəsti var ki, onlardan təxminən 1,400-ü müvafiq suala cavab kimi təsnif edilib.
Dövlət məlumatları
Hökumətlər tərəfindən yaradılan məlumat dəstləri sosial tendensiyaların başa düşülməsi, dövlət siyasətinin yaradılması və cəmiyyətin təkmilləşdirilməsi ilə bağlı layihələr üçün əla giriş olan demoqrafik məlumatları gətirir. Bu, siyasi kampaniyalar, hədəflənmiş reklamlar və ya bazar təhlili üçün faydalı ola bilər.
Bu məlumat dəstləri adətən anonimləşdirilmiş məlumatları ehtiva edir, buna görə də modellər xam məlumatlara daxil ola bilsə də, şəxsi məxfiliyin heç bir pozulması yoxdur.
4. Məlumat.gov
2009-cu ildə istifadəyə verilmiş Data.gov məlumat üçün Şimali Amerika mənbəyidir. Onun kataloqu təsir edicidir: format, teqlər, növlər və mövzular üzrə seqmentləşdirməyə imkan verən 218,000-dən çox məlumat dəsti.
5. AB Açıq Məlumat Portalı
Aİ Açıq Məlumat Portalı Avropa İttifaqının qurumları tərəfindən paylaşılan açıq məlumatlara çıxışı təmin edir. Bunlar kommersiya və qeyri-kommersiya məqsədləri üçün nəzərdə tutula bilən məlumatlardır. İstifadəçinin ixtiyarında sağlamlıq, enerji, ətraf mühit, mədəniyyət və təhsil kimi mövzuları əhatə edən 15.5 mindən çox məlumat dəsti var.
Sağlamlıq məlumatları
Dünyada davam edən sağlamlıq böhranından sonra səhiyyə təşkilatları tərəfindən yaradılan məlumat dəstləri insanların həyatını xilas etmək üçün effektiv həllərin işlənib hazırlanması üçün vacibdir. Bu məlumat dəstləri risk faktorlarını müəyyən etməyə, xəstəliyin ötürülmə nümunələrini işləməyə və diaqnozu sürətləndirməyə kömək edə bilər.
Bu məlumat dəstləri sağlamlıq qeydləri, xəstələrin demoqrafik məlumatları, xəstəliklərin yayılması, dərman istifadəsi, qida dəyəri və daha çox şeydən ibarətdir.
6. Qlobal Sağlamlıq Rəsədxanası
Bu məlumat dəsti Ümumdünya Səhiyyə Təşkilatının (ÜST) təşəbbüsüdür. O, səhiyyə sistemləri, tütündən istifadəyə nəzarət, analıq, HİV/AİDS və s. kimi mövzular üzrə təşkil edilmiş müxtəlif səhiyyə sahələri ilə bağlı ictimai məlumatları təqdim edir. Həmçinin, COVID-19 ilə bağlı məlumatlarla məsləhətləşmək imkanı var.
7. KORD-19
CORD-19, COVID-19 haqqında akademik nəşrlərin və yeni koronavirus haqqında digər məqalələrin korpusudur. Bu, COVID-19 haqqında yeni fikirlər yaratmaq üçün nəzərdə tutulmuş açıq verilənlər bazasıdır.
İqtisadiyyat məlumatları
Maliyyə mühiti ilə bağlı məlumat dəstləri adətən çoxlu məlumat toplayır, çünki onların uzun müddət ərzində toplanması adi haldır. Onlar iqtisadi proqnozlar yaratmaq və ya investisiya meyllərini yaratmaq üçün idealdır.
Düzgün maliyyə məlumat dəsti ilə, a Maşın öyrənmə modeli müəyyən aktivin davranışını proqnozlaşdıra bilər. Buna görə də maliyyə sektoru effektiv ML modeli yaratmaq üçün əlindən gələni edir, çünki hətta ağlabatan yaxşı proqnozlaşdıra bilən hər şey milyonlarla dollar qazanma potensialına malikdir. Machine Learning artıq vətəndaşların davranışlarını proqnozlaşdırır ki, bu da siyasətçilərin işlərini yerinə yetirmə tərzinə təsir göstərir.
8. Beynəlxalq Valyuta Fondu
BVF məlumat toplusunda bir sıra iqtisadi və maliyyə göstəriciləri, üzv ölkələrin statistikası və digər kredit və valyuta məzənnəsi məlumatları var.
9. Dünya Bankı
Dünya Bankının repozitoriyası müxtəlif ölkələrdən iqtisadi məlumatların yer aldığı müxtəlif verilənlər toplusunu ehtiva edir. Qitələrə bölünmüş 17,000-dən çox məlumat dəsti var.
Məhsul və xidmətlərə baxış
Sentiment analizi müxtəlif sahələrdə tətbiqlərini tapdı ki, bu da indi müəssisələrə müştərilərini və ya müştərilərini düzgün qiymətləndirməyə və öyrənməyə kömək edir. Sentiment analizi sosial media monitorinqi, brend monitorinqi, müştərinin səsi (VoC), müştəri xidməti və bazar araşdırması üçün getdikcə daha çox istifadə olunur.
Sentiment analizi NLP-dən istifadə edir (neyro-linqvistik proqramlaşdırma) qaydalara əsaslanan, hibrid olan və ya verilənlər bazasından məlumatları öyrənmək üçün Maşın Öyrənmə üsullarına əsaslanan metodlar və alqoritmlər.
Hisslərin təhlili üçün lazım olan məlumatlar ixtisaslaşmış olmalıdır və böyük miqdarda tələb olunur. Sentiment təhlili təlim prosesinin ən çətin hissəsi böyük həcmdə məlumatların tapılmamasıdır; əvəzinə, müvafiq məlumat dəstlərini tapmaqdır. Bu məlumat dəstləri sentiment analizi tətbiqlərinin və istifadə hallarının geniş sahəsini əhatə etməlidir.
10. Amazon rəyləri
Bu verilənlər bazasında toplanmış məlumatların 35 illik dövrünü əhatə edən təxminən 18 milyon Amazon rəyi var. Bu, məhsul, istifadəçi və baxış məzmununun verilənlər toplusudur.
11. Yelp Rəyləri
Yelp həmçinin öz xidmətindən toplanmış məlumatlara əsaslanan verilənlər bazası təklif edir. 8 milyondan çox rəy, 1 milyon məsləhət, həmçinin iş saatları və əlçatanlıq kimi bizneslərlə bağlı demək olar ki, 1.5 milyon atribut var.
12. IMDB rəyləri
Bu verilənlər bazasında təlim üçün 25 mindən çox film icmalı və film reytinqləri üzrə ixtisaslaşmış IMDB səhifəsindən qeyri-rəsmi olaraq götürülmüş testlər üçün daha 25 min film var. O, həmçinin əlavə olaraq etiketlənməmiş məlumatları təklif edir.
ML-də ilk addımlar üçün verilənlər dəsti
13. Şərab keyfiyyəti verilənlər toplusu
Bu verilənlər bazası Portuqaliyanın şimalında istehsal olunan qırmızı və yaşıl şərabla bağlı məlumat verir. Məqsəd fiziki-kimyəvi testlər əsasında şərabın keyfiyyətini müəyyən etməkdir. Proqnozlaşdırma sisteminin yaradılması ilə məşğul olmaq istəyənlər üçün maraqlıdır.
14. Titanik məlumat dəsti
Bu verilənlər bazası Titanikdən olan 887 real sərnişinin məlumatlarını gətirir, hər sütun onların sağ qalıb-qalmamasını, yaşını, sərnişin sinfini, cinsini və ödədikləri minik haqqını müəyyənləşdirir. Bu məlumat dəsti Kaggle platformasının başlatdığı problemin bir hissəsi idi və məqsədi Titanikin batması zamanı hansı sərnişinlərin sağ qalacağını təxmin edə biləcək bir model yaratmaq idi.
Digər verilənlər bazalarını tapmaq üçün platformalar
Daha da irəli getmək və öz məlumat dəstinizi tapmaq istəyirsinizsə, ən yaxşı yol ən məşhur repozitoriyaları nəzərdən keçirməkdir. Machine Learning kainat:
Kaggle
Google MMC-nin törəmə şirkəti olan Kaggle, məlumat alimləri və Maşın Öyrənmə peşəkarlarının onlayn icmasıdır. Kaggle istifadəçilərə məlumat dəstlərini tapmaq və dərc etmək, veb əsaslı məlumat elmi mühitində modelləri araşdırmaq və yaratmaq imkanı verir; digər məlumat alimləri ilə işləmək və Maşın Öyrənmə Mühəndisləri, və məlumat elmi problemlərini həll etmək üçün müsabiqələrdə iştirak edin.
Kaggle 2010-cu ildə Maşın Öyrənmə müsabiqələri təklif etməklə başladı və indi də ictimaiyyətə təqdim edir məlumat platforması, məlumat elmi və Süni İntellekt təhsili üçün bulud əsaslı iş masası.
Dataset Axtar
Dataset Search tədqiqatçılara sərbəst şəkildə istifadə oluna bilən onlayn məlumatları tapmaqda kömək edən Google-dan axtarış motorudur. İnternetdə sizi maraqlandıran demək olar ki, hər hansı bir mövzu haqqında milyonlarla məlumat dəsti var.
Əgər bala almaq istəyirsinizsə, siz bala alıcıların şikayətlərini toplayan məlumat dəstləri və ya bala idrakı ilə bağlı araşdırmalar tapa bilərsiniz. Və ya xizək sürməyi sevirsinizsə, xizək kurortlarının gəlirləri və ya zədə nisbətləri və iştirak nömrələri haqqında məlumat tapa bilərsiniz. Dataset Search bu məlumat dəstlərinin demək olar ki, 25 milyonunu indeksləşdirərək, məlumat dəstlərini axtarmaq və məlumatların olduğu yerə keçidlər tapmaq üçün sizə tək yer verir.
UCI Machine Learning Repository
UCI Maşın Öyrənmə Anbarı Maşın Öyrənmə alqoritmlərinin empirik təhlili üçün Maşın Öyrənmə icması tərəfindən istifadə olunan verilənlər bazası, domen nəzəriyyələri və məlumat generatorları toplusudur. Arxiv ftp arxivi olaraq 1987-ci ildə David Aha və UC Irvine-də aspirant yoldaşları tərəfindən yaradılmışdır.
O vaxtdan bəri, o, bütün dünyada tələbələr, müəllimlər və tədqiqatçılar tərəfindən ML məlumat dəstlərinin əsas mənbəyi kimi geniş istifadə olunur. Arxivin təsirinin göstəricisi olaraq, ona 1000-dən çox sitat gətirildi və bu, onu bütün kompüter elmində ən çox istinad edilən 100 "məqalə"dən birinə çevirdi.
Quandl
Quandl istifadəçilərinə iqtisadi, maliyyə və alternativ məlumat dəstləri təqdim edən platformadır. İstifadəçilər pulsuz məlumat yükləyə, ödənişli məlumat ala və ya məlumatları Quandl-a sata bilərlər. inkişafı üçün faydalı bir vasitə ola bilər ticarət alqoritmləri, məsələn.
Nəticə
Bu alətləri tədqiq etməklə, layihələriniz üçün əla giriş tapacağınıza əminsiniz. Xüsusi ehtiyaclarınız üçün ən uyğun olan məlumat dəstini seçdiyinizə əmin olun və həmişə yadda saxlayın: bu, təkcə kəmiyyətə deyil, həm də keyfiyyətə aiddir. Verilənlər toplusu hər hansı birinin əsasını təşkil edir Maşın öyrənmə layihəsi və səhv nəticələrə gəlmək riskinin qarşısını almaq üçün keyfiyyətli məlumatlara əsaslanmaq vacibdir.
Cavab yaz