Mundarija[Yashirish][Show]
Har bir Machine Learning loyihasi yaxshi ma'lumotlar to'plamiga tayanadi. Aynan shu katta ma'lumotlar to'plami sizga ML modelingizni o'rgatish va tasdiqlash imkonini beradi. Shunday qilib, ML loyihasidagi ishning katta qismi sizning ehtiyojlaringiz uchun mukammal ma'lumotlar to'plamini topishdir. Biroq, sizning ambitsiyangizga mos keladigan variantni topish har doim ham mumkin emas, chunki qiziqarli ko'rinadigan ko'plab fayllar, oxir-oqibat, bunday emas.
Ideal to'plamga kelguningizcha, son-sanoqsiz ma'lumotlar to'plamini yuklab olish uchun vaqt sarflash qiyin bo'lishi mumkin. Shuni yodda tutgan holda, biz qiziqarli ko'rinadigan va ML loyihangizni rivojlantirishga yordam beradigan ba'zi variantlarni to'pladik. E'tibor bering, ba'zilari tijorat maqsadlarida foydalanish o'rniga shaxsiy foydalanish uchun mo'ljallangan, shuning uchun ushbu variantlarni ML olamida tajriba orttirish usuli sifatida ko'rib chiqing.
Ma'lumotlar to'plamining asoslari
Ma'lumotlar to'plamini eslatishdan oldin, biz ba'zi atamalarni aniqlashimiz kerak. Sun'iy intellekt loyihalarida, ayniqsa Machine Learning, katta hajmdagi ma'lumotlar talab qilinadi, ular algoritmni o'rgatish uchun ishlatiladi. Bu miqdordagi ma'lumotlar ma'lumotlar bazasida to'planadi, bu algoritmni o'rgatish uchun juda foydali.
Ushbu ma'lumotlar bilan algoritm o'qitiladi, shuningdek sinovdan o'tkaziladi va naqshlarni topish, munosabatlarni o'rnatish va shu bilan avtonom qarorlar qabul qilish imkoniyatiga ega bo'ladi. Treningsiz, Machine Learning algoritmlar hech qanday harakatni bajara olmaydi. Shuning uchun, ta'lim ma'lumotlari qanchalik yaxshi bo'lsa, model shunchalik yaxshi ishlaydi. Ma'lumotlar bazasi loyiha uchun foydali bo'lishi uchun bu miqdor emas, balki tasniflash haqida ham.
Ideal holda, ma'lumotlar yaxshi etiketlangan bo'lishi kerak. Chatbotlar ishi haqida o'ylab ko'ring: tilni kiritish muhim, ammo yaratilgan algoritm suhbatdosh jargondan foydalanayotganini tushunishi uchun sintaktik tahlilni diqqat bilan o'tkazish kerak. Shundan keyingina virtual yordamchi foydalanuvchi so'ragan narsaga muvofiq javobni ishga tushira oladi.
Ma'lumotlar to'plamlari so'rovlar, foydalanuvchi xaridlari ma'lumotlari, xizmatlarda qoldirilgan baholashlar va CSV faylidagi ustunlar va satrlarda tashkil etilgan foydali ma'lumotlarni to'plash imkonini beruvchi boshqa ko'plab usullardan yaratilishi mumkin.
Mukammal ma'lumotlar to'plamini qidirishga kirishishdan oldin, loyihangizning maqsadini bilish juda muhim, ayniqsa u ob-havo, moliya, sog'liq va hokazolar kabi ma'lum bir sohadan bo'lsa. maʼlumotlar toʻplami.
ML uchun ma'lumotlar to'plami
Chatbot treningi
Samarali chatbot foydalanuvchi so'rovlarini inson aralashuvisiz tezda hal qilish uchun katta hajmdagi o'quv ma'lumotlarini talab qiladi. Biroq, chatbotni ishlab chiqishdagi asosiy muammo bu Machine Learning-ga asoslangan tizimlarni o'qitish uchun aniq, vazifalarga yo'naltirilgan dialog ma'lumotlarini olishdir.
Suhbat ma'lumotlar to'plami ma'lumotlarni savol-javob formatida to'playdi. Bu tomoshabinlarga avtomatlashtirilgan javoblar beradigan chatbotlarni o'qitish uchun juda mos keladi. Ushbu ma'lumotlarsiz chatbot inson aralashuvisiz foydalanuvchi so'rovlarini tezda hal qila olmaydi yoki foydalanuvchi savollariga javob bera olmaydi.
Ushbu ma'lumotlar to'plamidan foydalanib, korxonalar mijozlarga 24/7 kun davomida tezkor javob beradigan vositani yaratishi mumkin va mijozlarni qo'llab-quvvatlash bilan shug'ullanadigan odamlar jamoasiga ega bo'lishdan ancha arzonroqdir.
1. Savol-javob ma'lumotlar to'plami
Ushbu maʼlumotlar toʻplami Vikipediya maqolalari, savollari va ularga tegishli qoʻlda yaratilgan javoblar toʻplamini taqdim etadi. Bu foydalanish uchun 2008 va 2010 yillar oralig'ida to'plangan ma'lumotlar to'plamidir ilmiy tadqiqotlar.
2. Til ma'lumotlari
Language Data - Yahoo tomonidan boshqariladigan, Yahoo! kabi kompaniyaning ba'zi xizmatlaridan olingan ma'lumotlarga ega ma'lumotlar bazasi. Javob, foydalanuvchilarning savollar va javoblarni joylashtirishi uchun ochiq hamjamiyat sifatida ishlaydi.
3. WikiQA
WikiQA korpusi ham savollar va javoblar toʻplamidan iborat. Savollar manbai Bing, javoblar esa dastlabki savolni hal qilish potentsialiga ega Vikipediya sahifasiga havola qilinadi.
Maʼlumotlar toʻplamida jami 3,000 dan ortiq savol va 29,258 ta jumlalar toʻplami mavjud boʻlib, ulardan 1,400 ga yaqini tegishli savolga javob sifatida ajratilgan.
Hukumat ma'lumotlari
Hukumatlar tomonidan yaratilgan ma'lumotlar to'plamlari ijtimoiy tendentsiyalarni tushunish, davlat siyosatini yaratish va jamiyatni yaxshilash bilan bog'liq loyihalar uchun ajoyib kirish bo'lgan demografik ma'lumotlarni olib keladi. Bu siyosiy kampaniyalar, maqsadli reklama yoki bozor tahlili uchun foydali bo'lishi mumkin.
Ushbu ma'lumotlar to'plamlari odatda anonim ma'lumotlarni o'z ichiga oladi, shuning uchun modellar xom ma'lumotlarga kirishi mumkin bo'lsa-da, shaxsiy maxfiylik buzilishi yo'q.
4. Ma'lumotlar.gov
2009-yilda ishga tushirilgan Data.gov maʼlumotlar uchun Shimoliy Amerika manbasidir. Uning katalogi ta'sirchan: format, teglar, turlar va mavzular bo'yicha segmentatsiya qilish imkonini beruvchi 218,000 XNUMX dan ortiq ma'lumotlar to'plami.
5. Evropa Ittifoqining ochiq ma'lumotlar portali
Yevropa Ittifoqining ochiq maʼlumotlar portali Yevropa Ittifoqi institutlari tomonidan baham koʻrilgan ochiq maʼlumotlarga kirish imkonini beradi. Bu tijorat va notijorat maqsadlarda foydalanish uchun mo'ljallangan ma'lumotlar. Foydalanuvchi ixtiyorida sog‘liqni saqlash, energetika, atrof-muhit, madaniyat va ta’lim kabi mavzularni qamrab oluvchi 15.5 mingdan ortiq ma’lumotlar to‘plami mavjud.
Sog'liqni saqlash bo'yicha ma'lumotlar
Butun dunyoda davom etayotgan sog'liqni saqlash inqirozi fonida sog'liqni saqlash tashkilotlari tomonidan yaratilgan ma'lumotlar to'plami hayotni saqlab qolish uchun samarali echimlarni ishlab chiqish uchun juda muhimdir. Ushbu ma'lumotlar to'plami xavf omillarini aniqlashga, kasallikning yuqish shakllarini ishlab chiqishga va tashxisni tezlashtirishga yordam beradi.
Ushbu ma'lumotlar to'plamlari sog'liqni saqlash yozuvlari, bemorlarning demografiyasi, kasallikning tarqalishi, dori vositalaridan foydalanish, ozuqaviy qiymatlar va boshqalardan iborat.
6. Global sog'liqni saqlash observatoriyasi
Ushbu ma'lumotlar to'plami Jahon sog'liqni saqlash tashkiloti (JSST) tashabbusidir. U sogʻliqni saqlash tizimlari, tamaki isteʼmolini nazorat qilish, onalik, OIV/OITS va boshqalar kabi mavzular boʻyicha tashkil etilgan sogʻliqni saqlashning turli sohalariga oid ommaviy maʼlumotlarni taqdim etadi. Shuningdek, COVID-19 boʻyicha maʼlumotlar bilan maslahatlashish imkoniyati mavjud.
7. KAMU-19
CORD-19 - bu COVID-19 haqidagi akademik nashrlar va yangi koronavirus haqidagi boshqa maqolalar korpusi. Bu ochiq maʼlumotlar toʻplami boʻlib, u COVID-19 haqida yangi tushunchalarni yaratishga moʻljallangan.
Iqtisodiy ma'lumotlar
Moliyaviy muhit bilan bog'liq ma'lumotlar to'plami odatda juda ko'p ma'lumotlarni to'playdi, chunki ular uzoq vaqt davomida to'plangan. Ular iqtisodiy bashoratlarni yaratish yoki investitsiya tendentsiyalarini o'rnatish uchun idealdir.
To'g'ri moliyaviy ma'lumotlar to'plami bilan, a Mashina o'rganish modeli berilgan aktivning harakatini bashorat qila oladi. Shuning uchun moliyaviy sektor samarali ML modelini yaratish uchun qo'lidan kelgan barcha ishni qilmoqda, chunki hatto oqilona bashorat qila oladigan har qanday narsa millionlab dollarlarni ishlab chiqarish imkoniyatiga ega. Machine Learning allaqachon fuqarolarning xatti-harakatlarini bashorat qilmoqda, bu siyosatchilarning o'z ishlarini bajarish uslubiga ta'sir qiladi.
8. Xalqaro valyuta jamg'armasi
XVF ma'lumotlar to'plamida bir qator iqtisodiy va moliyaviy ko'rsatkichlar, a'zo mamlakatlar statistikasi va boshqa kredit va valyuta kurslari ma'lumotlari mavjud.
9. Jahon banki
Jahon bankining repozitori turli mamlakatlarning iqtisodiy ma'lumotlariga ega bo'lgan turli xil ma'lumotlar to'plamini o'z ichiga oladi. Qit'alarga bo'lingan 17,000 XNUMX dan ortiq ma'lumotlar to'plami mavjud.
Mahsulot va xizmatlar sharhlari
Tuyg'ularni tahlil qilish turli sohalarda o'z ilovalarini topdi, bu endi korxonalarga o'z mijozlari yoki mijozlarini to'g'ri baholash va o'rganishga yordam beradi. His-tuyg'ularni tahlil qilish ijtimoiy media monitoringi, brend monitoringi, mijozning ovozi (VoC), mijozlarga xizmat ko'rsatish va bozor tadqiqotlari uchun tobora ko'proq foydalanilmoqda.
Tuyg'ularni tahlil qilish NLP dan foydalanadi (neyro-lingvistik dasturlash) qoidalarga asoslangan, gibrid yoki ma'lumotlar to'plamidan ma'lumotlarni o'rganish uchun Machine Learning texnikasiga tayanadigan usullar va algoritmlar.
Tuyg'ularni tahlil qilish uchun zarur bo'lgan ma'lumotlar ixtisoslashtirilgan bo'lishi kerak va katta miqdorda talab qilinadi. Tuyg'ularni tahlil qilish o'quv jarayonining eng qiyin qismi bu katta hajmdagi ma'lumotlarni topmaslik; Buning o'rniga tegishli ma'lumotlar to'plamini topish kerak. Ushbu ma'lumotlar to'plamlari hissiyotlarni tahlil qilish ilovalari va foydalanish holatlarining keng doirasini qamrab olishi kerak.
10. Amazon sharhlari
Ushbu ma'lumotlar to'plami 35 yillik to'plangan ma'lumotni o'z ichiga olgan 18 millionga yaqin Amazon sharhlarini o'z ichiga oladi. Bu mahsulot, foydalanuvchi va sharhlar mazmunining ma'lumotlar to'plamidir.
11. Yelp sharhlari
Yelp shuningdek, o'z xizmatidan to'plangan ma'lumotlarga asoslangan ma'lumotlar to'plamini taklif qiladi. 8 milliondan ortiq sharhlar, 1 million maslahatlar, shuningdek, ish vaqti va mavjudlik kabi biznes bilan bog'liq deyarli 1.5 million atributlar mavjud.
12. IMDB sharhlari
Ushbu ma'lumotlar bazasida o'qitish uchun 25 mingdan ortiq film sharhlari va filmlar reytingiga ixtisoslashgan IMDB sahifasidan norasmiy ravishda olingan testlar uchun yana 25 mingtadan iborat. Bundan tashqari, qo'shimcha sifatida yorliqsiz ma'lumotlarni taqdim etadi.
MLda birinchi qadamlar uchun ma'lumotlar to'plami
13. Sharob sifati ma'lumotlar to'plami
Ushbu ma'lumotlar to'plami shimoliy Portugaliyada ishlab chiqarilgan qizil va yashil sharob haqida ma'lumot beradi. Maqsad fizik-kimyoviy testlar asosida vino sifatini aniqlashdir. Bashorat qilish tizimini yaratish bilan shug'ullanmoqchi bo'lganlar uchun qiziqarli.
14. Titanik ma'lumotlar to'plami
Ushbu ma'lumotlar to'plami "Titanik" ning 887 haqiqiy yo'lovchisidan olingan ma'lumotlarni olib keladi, har bir ustunda ularning tirik qolganligi, yoshi, yo'lovchi sinfi, jinsi va ular to'lagan bort to'lovi aniqlanadi. Ushbu ma'lumotlar to'plami Kaggle platformasi tomonidan boshlangan muammoning bir qismi bo'lib, uning maqsadi Titanik cho'kishidan qaysi yo'lovchilar omon qolganligini taxmin qila oladigan model yaratish edi.
Boshqa ma'lumotlar to'plamini topish uchun platformalar
Agar siz uzoqroqqa borishni va o'z ma'lumotlar to'plamini topmoqchi bo'lsangiz, eng yaxshi usul - bu eng mashhur omborlarni ko'rib chiqish. Machine Learning koinot:
Kaggle
Google MChJning sho'ba korxonasi bo'lgan Kaggle ma'lumotlar olimlari va Machine Learning mutaxassislarining onlayn hamjamiyatidir. Kaggle foydalanuvchilarga ma'lumotlar to'plamini topish va nashr etish, veb-ga asoslangan ma'lumotlar fanlari muhitida modellarni o'rganish va yaratish imkonini beradi; boshqa ma'lumotlar olimlari bilan ishlash va Mashina o'rganish muhandislari, va ma'lumotlar fanini hal qilish uchun tanlovlarda ishtirok eting.
Kaggle 2010 yilda Machine Learning tanlovlarini taklif qilish bilan boshlangan va hozir ham ommaga taqdim etadi ma'lumotlar platformasi, ma'lumotlar fanlari va sun'iy intellekt ta'limi uchun bulutga asoslangan ishchi stol.
Ma'lumotlar to'plamini qidirish
Ma'lumotlar to'plamini qidirish - bu Google qidiruv tizimi bo'lib, tadqiqotchilarga bepul foydalanish mumkin bo'lgan onlayn ma'lumotlarni topishga yordam beradi. Internetda sizni qiziqtirgan deyarli har qanday mavzu bo'yicha millionlab ma'lumotlar to'plami mavjud.
Agar siz kuchukcha sotib olmoqchi bo'lsangiz, kuchukcha xaridorlarning shikoyatlarini yoki kuchukchalarni bilish bo'yicha tadqiqotlarni to'playdigan ma'lumotlar to'plamini topishingiz mumkin. Yoki siz chang'i uchishni yaxshi ko'rsangiz, tog'-chang'i kurortlari daromadlari yoki jarohatlar darajasi va ishtirokchilar soni to'g'risidagi ma'lumotlarni topishingiz mumkin. Ma'lumotlar to'plamini qidirish ushbu ma'lumotlar to'plamining deyarli 25 millionini indeksladi, bu sizga ma'lumotlar to'plamini qidirish va ma'lumotlar joylashgan joyga havolalarni topish uchun yagona joyni beradi.
UCI Machine Learning Repository
UCI Machine Learning Repository - bu Machine Learning hamjamiyati tomonidan Machine Learning algoritmlarini empirik tahlil qilish uchun foydalaniladigan ma'lumotlar bazalari, domen nazariyalari va ma'lumotlar generatorlari to'plami. Arxiv ftp arxivi sifatida 1987 yilda Devid Axa va UC Irvine universiteti aspirantlari tomonidan yaratilgan.
O'sha vaqtdan beri u butun dunyo bo'ylab talabalar, o'qituvchilar va tadqiqotchilar tomonidan ML ma'lumotlar to'plamining asosiy manbai sifatida keng qo'llanilib kelinmoqda. Arxivning ta'sirining ko'rsatkichi sifatida u 1000 dan ortiq marta iqtibos keltirilib, uni kompyuter fanlari bo'yicha eng ko'p keltirilgan 100 ta "qog'oz" dan biriga aylantirdi.
Quandl
Quandl o'z foydalanuvchilariga iqtisodiy, moliyaviy va muqobil ma'lumotlar to'plamini taqdim etadigan platformadir. Foydalanuvchilar bepul ma'lumotlarni yuklab olishlari, pullik ma'lumotlarni sotib olishlari yoki Quandl-ga ma'lumotlarni sotishlari mumkin. ni rivojlantirish uchun foydali vosita bo'lishi mumkin savdo algoritmlari, masalan.
Xulosa
Ushbu vositalarni o'rganish orqali siz o'zingizning loyihalaringiz uchun ajoyib ma'lumotlarni topishingizga ishonchingiz komil. Muayyan ehtiyojlaringizga eng mos keladigan ma'lumotlar to'plamini tanlaganingizga ishonch hosil qiling va doimo yodda tuting: bu nafaqat miqdor, balki sifat haqida ham. Ma'lumotlar to'plami har qanday narsaning asosidir Mashina o'rganish loyihasi va noto'g'ri xulosalar chiqarish xavfini oldini olish uchun sifatli ma'lumotlarga asoslanish juda muhimdir.
Leave a Reply