Table of Contents[Qari][muuji]
Mashruuc kasta oo Barashada Mashiinku wuxuu ku tiirsan yahay xog-ururin wanaagsan. Waa xogtan weyn ee kuu ogolaan doonta inaad tababarto oo aad ansixiso qaabkaaga ML. Markaa, qayb weyn oo ka mid ah shaqada mashruuca ML waa helitaanka xogta ugu habboon ee baahiyahaaga. Si kastaba ha ahaatee, mar walba suurtagal ma aha in la helo ikhtiyaar ku habboon hamigaaga, maaddaama faylal badan oo u muuqda kuwo xiiso leh, dhamaadka, maahan.
Waxa ay noqon kartaa wax aad u adag in wakhti lagu lumiyo soo dejinta xog-ururin aan la tirin karin ilaa aad ka gaadhayso meel fiican. Anigoo taas maskaxda ku hayna, waxaanu soo ururinay doorashooyin u muuqda kuwo xiisa leh oo kaa caawin kara horumarinta mashruucaaga ML. Ogsoonow in qaar loogu talagalay shakhsi ahaan halkii laga isticmaali lahaa ganacsi, markaa u fiirso fursadahan si aad khibrad u hesho caalamka ML.
Aasaaska Xogta
Kahor inta aynaan xusin xog-ururinta, waa in aan qeexno erayada qaarkood. Mashaariicda Sirdoonka Artificial, gaar ahaan Barashada Mashiinka, tiro badan oo xog ah ayaa loo baahan yahay, taas oo loo isticmaali doono in lagu tababaro algorithm. Intan xogta ah waxaa lagu soo ururiyaa kaydka xogta, taas oo aad waxtar u leh in la baro algorithm.
Xogtan, algoorithm-ka waa la tababaray -sidoo kale la tijaabiyay - oo wuxuu awood u yeelanayaa inuu helo qaabab, dhisto cilaaqaad oo uu sidaas u gaaro go'aannada si madaxbannaan. Tababar la'aan, Barashada Mashiinka Algorithms ma awoodaan inay sameeyaan wax fal ah. Sidaa darteed, sida ugu wanaagsan ee xogta tababarka, si fiican u qaabaysan ayaa fulin doona. Si database-ku faa'iido u yeesho mashruuca, kuma saabsana tirada: sidoo kale waxay ku saabsan tahay kala-saarid.
Fikrad ahaan, xogta waa in si fiican loo calaamadiyaa. Ka fakar kiiska chatbots: gelinta luqaddu waa muhiim, laakiin waa in si taxadar leh loo falanqeeyo hab-samaynta si algoorithm-ka la sameeyay uu u fahmo marka interlocutor uu isticmaalayo af-hayb. Kaliya markaas kaaliyaha dalwaddu wuxuu awood u yeelan doonaa inuu bilaabo jawaabta si waafaqsan waxa uu codsaday isticmaaluhu.
Xog-ururinta waxa laga soo saari karaa sahannada, xogta iibka isticmaalaha, qiimaynta lagaga tagay adeegyada, iyo siyaabo kale oo badan oo u oggolaanaya ururinta macluumaadka waxtarka leh ee loo habeeyey tiirarka iyo safafka faylka CSV.
Kahor intaadan u dhaqaaqin raadinta xogta saxda ah, waxaa muhiim ah inaad ogaato ujeedada mashruucaaga, gaar ahaan haddii ay tahay meel gaar ah, sida cimilada, dhaqaalaha, caafimaadka, iwm. dataset.
Xogta ML
Tababarka Chatbot
Chatbot wax ku ool ah waxay u baahan tahay xog tababar oo aad u badan si si dhakhso leh loogu xalliyo weydiimaha isticmaalaha iyada oo aysan jirin faragelin biniaadmi ah. Si kastaba ha ahaatee, caqiidada aasaasiga ah ee horumarinta chatbot-ka ayaa ah helitaanka xogta dhabta ah, ee ku wajahan hawsha si loo tababaro nidaamyadan ku salaysan Barashada Mashiinka.
Xogta wada hadalku waxay u ururisaa xogta qaab su'aal iyo jawaab ah. Waxay ku habboon tahay in la tabobbaro chatbots kuwaas oo si toos ah u siin doona jawaabaha daawadayaasha. Xogtan la'aanteed, chatbot-ku wuxuu ku guuldareysan doonaa inuu si dhakhso ah u xalliyo weydiimaha isticmaalaha ama ka jawaabo su'aalaha isticmaalaha iyada oo aan loo baahnayn faragelinta aadanaha.
Isticmaalka xogtan, ganacsiyadu waxay abuuri karaan qalab siinaya jawaabaha degdega ah macaamiisha 24/7 oo aad uga jaban in koox dad ah ay sameeyaan taageerada macaamiisha.
1. Xogta Su'aal-Jawaab
Xog-ururintani waxa ay bixisa maqaallo, su'aalo iyo jawaabaha ay gacanta ku soo saareen qaybo ka mid ah Wikipedia. Waa xog ururin intii u dhaxaysay 2008 iyo 2010 si loogu isticmaalo cilmi baaris.
2. Xogta Luuqadda
Xogta Luqadda waa xog-ururin ay maamusho Yahoo oo wadata macluumaad laga soo saaray qaar ka mid ah adeegyada shirkadda, sida Yahoo! Jawaab, oo u shaqeysa sidii bulsho furan oo isticmaalayaashu ay ku dhejin karaan su'aalaha iyo jawaabaha.
3. WikiQA
WikiQA corpus wuxuu kaloo ka kooban yahay su'aalo iyo jawaabo. Isha su'aalaha waa Bing, halka jawaabaha ay ku xiran yihiin bogga Wikipedia oo leh awood lagu xalliyo su'aasha hore.
Wadar ahaan, waxaa jira in ka badan 3,000 oo su'aalood iyo 29,258 jumladood oo xog-ururin ah, kuwaas oo ilaa 1,400 ka mid ah loo kala saaray jawaabaha su'aal u dhiganta.
Xogta dowladda
Xogta ay soo saaraan dawladuhu waxay keenaan xogta tirakoobka, kuwaas oo wax-soo-saarka weyn u ah mashaariicda la xidhiidha fahamka isbeddellada bulshada, abuurista siyaasado dadweyne, iyo horumarinta bulshada. Tani waxay faa'iido u yeelan kartaa ololayaasha siyaasadeed, xayaysiis la beegsaday, ama falanqaynta suuqa.
Xog-ururintan ayaa sida caadiga ah ka kooban xog aan la magacaabin, marka moodellada ay heli karaan xogta ceeriin, ma jiraan wax xadgudubyo ah oo gaar ah.
4. Data.gov
La bilaabay 2009, Data.gov waa isha Waqooyiga Ameerika xogta. Buug-yarahaagu waa mid cajiib ah: in ka badan 218,000 oo xog-ururin ah oo u oggolaanaya kala qaybinta qaab ahaan, tags, noocyo, iyo mawduucyo.
5. Xariirka Xogta ee Midowga Yurub ee Furan
Xariirka Xogta Furan ee Midowga Yurub wuxuu bixiyaa marin u helka xogta furan ee ay wadaagaan machadyada Midowga Yurub. Kuwani waa xog loogu talagalay isticmaalka ganacsi iyo kuwa aan ganacsi ahayn. Marka la isticmaalo isticmaaluhu waxa yaal in ka badan 15.5 kun oo xog-ururin ah, kuwaas oo ka hadlaya mawduucyo ay ka mid yihiin caafimaadka, tamarta, deegaanka, dhaqanka, iyo waxbarashada.
Xogta caafimaadka
Ka dib dhibaatada caafimaad ee socota ee adduunka oo dhan, xog-ururinta ay soo saareen hay'adaha caafimaadka ayaa lagama maarmaan u ah horumarinta xalal wax ku ool ah oo lagu badbaadinayo nolosha. Xog-ururintan ayaa kaa caawin kara in la aqoonsado arrimaha khatarta ah, ka shaqaynta qaababka gudbinta cudurrada, iyo dedejinta ogaanshaha.
Xog-ururintani waxay ka kooban tahay diiwaannada caafimaadka, xogta dadka bukaanka ah, faafitaanka cudurrada, isticmaalka daawada, qiyamka nafaqada, iyo qaar kaloo badan.
6. Kormeerka Caafimaadka Caalamiga ah
Xogtan la soo ururiyey waa hindise ay samaysay Ururka Caafimaadka Adduunka (WHO). Waxa ay bixisa xogta dadwaynaha ee la xidhiidha qaybaha kala duwan ee caafimaadka, oo ay abaabulaan mawduucyo ay ka mid yihiin nidaamyada caafimaadka, xakamaynta isticmaalka tubaakada, hooyada, HIV/AIDS, iwm. Waxa kale oo jirta ikhtiyaarka ah in lagala tashado xogta COVID-19.
7. CORD-19
CORD-19 waa koox ka kooban daabacaado akadeemiyadeed oo ku saabsan COVID-19 iyo maqaallo kale oo ku saabsan coronavirus-ka cusub. Waa xog-ururin furan oo loogu talagalay in lagu soo saaro fikrado cusub oo ku saabsan COVID-19.
Xogta dhaqaalaha
Xog-ururinta la xidhiidha bay'adda maaliyadeed waxay inta badan ururiyaan xog aad u badan, maadaama ay caadi tahay in la ururiyay muddo dheer. Waxay ku habboon yihiin abuurista saadaal dhaqaale ama dejinta isbeddellada maalgashiga.
Iyada oo leh xog-ururin dhaqaale oo sax ah, a Qaabka Barashada Mashiinka laga yaabaa inay awoodaan inay saadaaliyaan hab-dhaqanka hantida la bixiyay. Taasi waa sababta qaybta maaliyadeed ay u samaynayso wax kasta oo awoodeeda ah si ay u abuurto qaab ML oo waxtar leh, maadaama wax kasta oo saadaaliya xitaa si macquul ah uu awood u leeyahay inuu soo saaro malaayiin doolar. Barashada Mashiinka ayaa mar hore saadaalisay hab-dhaqanka muwaadiniinta, taas oo saamaynaysa habka ay siyaasad-dejiyayaashu u qabsanayaan shaqadooda.
8. Sanduuqa Lacagta ee Caalamiga ah
Xogta IMF waxa ay haysaa tilmaameyaal kala duwan oo dhaqaale iyo maaliyadeed, tirokoobyada dalalka xubnaha ka ah, iyo xogta kale ee deynta iyo heerka sarrifka.
9. Baanka Adduunka
Kaydka Bangiga Adduunka waxa ku jira xog-ururin kala duwan oo ay ku jiraan xog dhaqaale oo waddamo kala duwan ka yimid. Waxa jira in ka badan 17,000 oo xog-ururin ah oo ay u qaybiyeen qaaradaha.
Badeecada iyo dib u eegista adeegyada
Falanqaynta dareenka ayaa ka heshay codsiyadeeda dhinacyo kala duwan kuwaas oo hadda ka caawinaya shirkadaha inay qiimeeyaan oo ay si sax ah wax uga bartaan macaamiishooda ama macaamiishooda. Falanqaynta dareenka ayaa si sii kordheysa loogu isticmaalayaa la socodka warbaahinta bulshada, la socodka summada, codka macmiilka (VoC), adeegga macaamiisha, iyo cilmi baarista suuqa.
Falanqaynta dareenka waxay isticmaashaa NLP (barnaamijyada luqadaha neerfaha) hababka iyo algorithms kuwaaso ama xeer-ku-salaysan, isku-dhafan, ama ku tiirsan farsamooyinka Barashada Mashiinka si ay xogta uga bartaan xog-ururinta.
Xogta loo baahan yahay falanqaynta dareenka waa inay ahaataa mid gaar ah oo loo baahan yahay tiro badan. Qaybta ugu adag ee ku saabsan habka tababarka falanqaynta dareenka waa in aan la helin xog tiro badan; halkii, waa in la helo xog-ururinta khuseeya. Qaybaha xogtani waa inay daboolaan aag balaadhan oo ah codsiyada falanqaynta dareenka iyo isticmaalka kiisaska.
10. Falanqeynta Amazon
Xog-ururintan waxay ka kooban tahay 35 milyan oo faallooyin Amazon ah, oo ku dhereran 18-sano oo macluumaad la ururiyay. Waa kayd xogta alaabta, isticmaalaha, iyo nuxurka dib u eegista.
11. Faallooyin Yelp
Yelp waxay kaloo bixisaa xog-ururin ku salaysan macluumaadka laga soo ururiyay adeeggeeda. Waxaa jira in ka badan 8 milyan oo faallooyin ah, 1 milyan oo tabo ah, oo lagu daray ku dhawaad 1.5 milyan oo astaamood oo la xidhiidha ganacsiyada, sida saacadaha furitaanka iyo helitaanka
12. Dib u eegida IMDB
Xog-ururintani waxa ay ka kooban tahay in ka badan 25 kun oo filimo dib u eegis ah oo tababar ah iyo 25 kun oo kale oo loogu talagalay imtixaanada si aan rasmi ahayn looga qaatay bogga IMDB, oo ku takhasusay qiimaynta filimada. Waxa kale oo ay soo bandhigaysaa xog aan la calaamadin oo dheeraad ah.
Xog-ururinta tallaabooyinka ugu horreeya ee ML
13. Xogta Tayada Khamriga
Xog-ururintani waxa ay bixisa macluumaadka la xidhiidha khamriga, cas iyo cagaar labadaba, ee laga soo saaro waqooyiga Portugal. Hadafka waa in la qeexo tayada khamriga iyadoo lagu salaynayo tijaabooyinka physicochemical. Xiisaha leh kuwa raba inay ku dhaqmaan abuurista nidaamka saadaalinta.
14. Xogta Titanic
Xog-ururintan waxay keenaysaa xogta 887 rakaab ah oo dhab ah oo ka yimid Titanic, iyadoo tiir kasta uu qeexayo haddii ay badbaadeen, da'dooda, heerka rakaabka, jinsiga, iyo kharashka fuulitaanka ee ay bixiyeen. Xog-ururintan ayaa qayb ka ahayd caqabad uu bilaabay madal Kaggle, kaas oo ujeeddadiisu ahayd in la abuuro nooc saadaaliya rakaabkii ka badbaaday degitaanka markabka Titanic.
Platforms loogu talagalay Helitaanka Xogta Kale
Haddii aad rabto inaad sii socoto oo aad hesho xog-ururin adiga kuu gaar ah, habka ugu fiican ayaa ah inaad dhex dhex gasho kaydadka ugu caansan Barashada Mashiinka caalamka:
Kaggle
Kaggle, oo ah shirkad hoos timaada Google LLC, waa bulsho khadka ah oo saynisyahano xog ah iyo xirfadlayaal Barashada Mashiinka. Kaggle waxay u ogolaataa isticmaalayaasha inay helaan oo daabacaan xog-ururinta, sahamiyaan oo ay abuuraan moodallo jawi saynis xogeed ku salaysan mareegaha; la shaqeeyaan saynisyahano xogta kale iyo Injineerada Barashada Mashiinka, oo ka qaybqaataan tartamada si loo xalliyo caqabadaha sayniska xogta.
Kaggle wuxuu bilaabay 2010 isagoo bixinaya tartamada Barashada Mashiinka oo hadda sidoo kale bixisa dadweyne madal xogta, Kursiga shaqada ku salaysan daruuraha ee sayniska xogta iyo waxbarashada sirdoonka macmal.
Raadinta Dataset
Dataset Search waa matoorka raadinta Google kaas oo ka caawiya cilmi-baarayaasha inay helaan xogta online-ka ah ee si xor ah loo isticmaalo. Shabakadda dhexdeeda, waxa jira malaayiin xog-ururin ah oo ku saabsan ku dhawaad mawduuc kasta oo ku xiisaynaya.
Haddii aad raadinayso inaad iibsato ilmo yaryar, waxaad heli kartaa xog-ururin ah oo ururinaya cabashooyinka iibsada ilmaha yar ama daraasadaha garashada ubadka. Ama haddii aad jeceshahay skiing, waxaad ka heli kartaa xogta dakhliga goobaha barafka ama heerarka dhaawaca iyo lambarada ka qaybgalka. Raadinta Dataset-ka ayaa tusmaysay ku dhawaad 25 milyan oo ka mid ah xog-ururintan, taas oo ku siinaysa hal meel oo aad ka raadiso kaydka xogta oo aad hesho xidhiidhyada halka xogtu taallo.
Kaydka Barashada Mashiinka UCI
Kaydka Wax-barashada Mashiinka UCI waa ururin xog-ururin ah, aragtiyaha domain-ka, iyo soo-saareyaasha xogta kuwaas oo ay u adeegsato bulshada Wax-barashada Mashiinnada falanqaynta la taaban karo ee algorithms-yada Barashada Mashiinnada. Kaydka waxaa loo sameeyay sidii kayd ftp ah sanadkii 1987 waxaana sameeyay David Aha iyo ardaydii kale ee ka qalin jabisay UC Irvine.
Ilaa wakhtigaas, waxaa si weyn u isticmaali jiray ardayda, barayaasha, iyo cilmi-baarayaasha adduunka oo dhan iyada oo ah isha aasaasiga ah ee xogta ML. Sida calaamad u ah saamaynta kaydka, waxaa la soo xigtay in ka badan 1000 jeer, taas oo ka dhigaysa mid ka mid ah 100ka ugu sarreeya ee "waraqadaha" ee dhammaan sayniska kombiyuutarka.
Quandl
Quandl waa madal siisa isticmaaleyaasheeda xog-ururin dhaqaale, maaliyadeed, iyo beddelaad. Isticmaalayaashu waxay soo dejisan karaan xog bilaash ah, iibsan karaan xogta la bixiyay ama waxay ka iibin karaan xogta Quandl. Waxay noqon kartaa qalab waxtar u leh horumarinta algorithms ganacsiga, tusaale ahaan.
Ugu Dambeyn
Markaad sahamiso qalabkan, waxa hubaal ah inaad u heli doonto agabka wanaagsan ee mashaariicdaada. U hubso inaad doorato xogta ku habboon baahiyahaaga gaarka ah oo had iyo jeer maskaxda ku hay: ma aha oo kaliya tirada, laakiin sidoo kale tayada. Xog-ururinta ayaa saldhig u ah mid kasta Mashruuca Barashada Mashiinka waxaana lagama maarmaan ah in la dhiso xogta tayada leh si looga fogaado khatarta ah in la gaaro gabagabo khaldan.
Leave a Reply