Tafole ea likateng[Pata][Bontša]
Morero o mong le o mong oa ho Ithuta Mochini o itšetlehile ka pokello ea lintlha tse ntle. Ke dataset ena e kholo e tla u lumella ho koetlisa le ho netefatsa mofuta oa hau oa ML. Kahoo, karolo e kholo ea mosebetsi morerong oa ML ke ho fumana dataset e phethahetseng bakeng sa litlhoko tsa hau. Leha ho le joalo, ha se kamehla ho ka khonehang ho fumana khetho e lumellanang le tabatabelo ea hau, kaha lifaele tse ngata tse shebahalang li khahla, qetellong, ha li joalo.
Ho ka ba boima ho senya nako ho khoasolla li-database tse ngata ho fihlela u fihla sebakeng se loketseng. Re nahanne ka seo, re bokelletse likhetho tse ling tse shebahalang li khahla mme li ka u thusa ho nts'etsapele projeke ea hau ea ML. Hlokomela hore tse ling li etselitsoe motho ka mong ho e-na le tšebeliso ea khoebo, kahoo sheba likhetho tsena e le mokhoa oa ho fumana boiphihlelo bokahohleng ba ML.
Lintlha tsa motheo tsa Datasets
Pele re bua ka li-datasets, re lokela ho hlalosa mantsoe a mang. Mererong ea Artificial Intelligence, haholoholo Machine Ithuta, ho hlokahala palo e kholo ea data, e tla sebelisoa ho koetlisa algorithm. Bongata bona ba data bo bokelloa sebakeng sa polokelo ea litaba, se bohlokoa haholo ho ruta algorithm.
Ka data ena, algorithm e koetlisitsoe - e boetse e lekoa - 'me e khona ho fumana mekhoa, ho theha likamano le ho etsa liqeto ka boithaopo. Ntle le koetliso, Machine Ithuta li-algorithms ha li khone ho etsa ketso efe kapa efe. Ka hona, ha lintlha tsa koetliso li le betere, mohlala o tla sebetsa hantle. Hore polokelo ea boitsebiso e be molemo morerong, ha e bue ka bongata: e boetse e mabapi le ho arola.
Ha e le hantle, data e lokela ho ngoloa hantle. Nahana ka taba ea li-chatbots: ho kenya puo ke habohlokoa, empa tlhahlobo e hlokolosi ea syntactic e tlameha ho etsoa e le hore algorithm e entsoeng e ka utloisisa ha motho ea kenang lipakeng a sebelisa slang. Ke ka nako eo feela mothusi oa sebele a tla khona ho qala karabo ho latela seo mosebelisi a se kopileng.
Mananeo a data a ka hlahisoa ho tsoa lipatlisisong, lintlha tsa theko ea basebelisi, litlhahlobo tse setseng lits'ebeletso, le ka mekhoa e meng e mengata e lumellang ho bokella lintlha tsa bohlokoa tse hlophisitsoeng ka mela le mela faeleng ea CSV.
Pele u qala ho batla dataset e phethahetseng, ke habohlokoa hore u tsebe morero oa morero oa hau, haholo-holo haeba o tsoa sebakeng se itseng, joalo ka boemo ba leholimo, lichelete, bophelo bo botle, joalo-joalo. Sena se tla laela mohloli oo u tla o fumana ho oona. datha.
Lethathamo la lintlha tsa ML
Koetliso ea Chatbot
Chatbot e sebetsang e hloka lintlha tse ngata tsa koetliso ho rarolla kapele lipotso tsa basebelisi ntle le ho kenella ha motho. Leha ho le joalo, bothata bo ka sehloohong ho nts'etsopele ea chatbot ke ho fumana lintlha tsa 'nete, tse shebaneng le mosebetsi ho koetlisa litsamaiso tsena tsa ho Ithuta ka Mochini.
Lethathamo la data la lipuisano le bokella lintlha ka mokhoa oa lipotso le likarabo. E loketse ho koetlisa li-chatbots tse tla fana ka likarabo tse ikemetseng ho bamameli. Ntle le data ena, chatbot e tla hloleha ho rarolla kapele lipotso tsa basebelisi kapa ho araba lipotso tsa basebelisi ntle le tlhoko ea ho kenella ha motho.
Ho sebelisa li-dataset tsena, likhoebo li ka etsa sesebelisoa se fanang ka likarabo tse potlakileng ho bareki 24/7 'me se theko e tlaase haholo ho feta ho ba le sehlopha sa batho ba tšehetsang bareki.
1. Potso-Arabo Dataset
Lethathamo lena la data le fana ka sete ea lingoliloeng tsa Wikipedia, lipotso le likarabo tsa tsona tse hlahisoang ka letsoho. Ke dataset e bokelletsoeng lipakeng tsa 2008 le 2010 bakeng sa ho sebelisoa ho lipatlisiso tsa thuto.
2. Lintlha tsa Puo
Language Data ke polokelo ea boitsebiso e laoloang ke Yahoo e nang le boitsebiso bo entsoeng ho tsoa ho tse ling tsa litšebeletso tsa k'hamphani, tse kang Yahoo! Karabo, e sebetsang e le sechaba se bulehileng hore basebelisi ba romelle lipotso le likarabo.
3. WikiQA
Kopo ea WikiQA e boetse e na le sehlopha sa lipotso le likarabo. Mohloli oa lipotso ke Bing, ha likarabo li hokahana le leqephe la Wikipedia le nang le monyetla oa ho rarolla potso ea pele.
Ka kakaretso, ho na le lipotso tse fetang 3,000 le sete ea lipolelo tsa 29,258 ho dataset, tseo tse ka bang 1,400 li arotsoeng e le likarabo tsa potso e lumellanang.
Lintlha tsa mmuso
Lintlha tse hlahisoang ke mebuso li tlisa lintlha tsa palo ea batho, e leng lintlha tse kholo bakeng sa merero e amanang le ho utloisisa mekhoa ea sechaba, ho theha maano a sechaba, le ho ntlafatsa sechaba. Sena se ka ba molemo bakeng sa matšolo a lipolotiki, lipapatso tse lebisitsoeng, kapa tlhahlobo ea 'maraka.
Li-database tsena hangata li na le lintlha tse sa tsejoeng, kahoo le ha mefuta e khona ho fumana data e tala, ha ho na tlolo ea molao ea lekunutu.
4. Data.gov
E tsebisitsoe ka 2009, Data.gov ke mohloli oa data oa Amerika Leboea. Lethathamo la eona lea khahla: li-dataset tse fetang 218,000 tse lumellang ho aroloa ka sebopeho, li-tag, mefuta le lihlooho.
5. EU Open Data Portal
EU Open Data Portal e fana ka phihlello ea data e bulehileng e arolelanoang ke litsi tsa European Union. Tsena ke lintlha tse ka reretsoeng tšebeliso ea khoebo le e seng ea khoebo. Mosebelisi o na le li-dataset tse fetang likete tse 15.5, tse buang ka litaba tse kang bophelo bo botle, matla, tikoloho, setso le thuto.
Lintlha tsa bophelo bo botle
Ka lebaka la koluoa ea bophelo bo botle e ntseng e tsoela pele lefatšeng ka bophara, li-database tse hlahisoang ke mekhatlo ea bophelo bo botle li bohlokoa bakeng sa ho hlahisa litharollo tse sebetsang tsa ho pholosa bophelo. Lintlha tsena li ka thusa ho tseba maemo a kotsi, ho hlahisa mekhoa ea phetiso ea mafu, le ho potlakisa tlhahlobo.
Lintlha tsena li na le litlaleho tsa bophelo bo botle, palo ea bakuli, ho ata ha mafu, tšebeliso ea meriana, litekanyetso tsa phepo, le tse ling tse ngata.
6. Global Health Observatory
Seteishene sena sa data ke boikitlaetso ba Mokhatlo oa Lefatše oa Bophelo (WHO). E fana ka lintlha tsa sechaba tse amanang le libaka tse fapaneng tsa bophelo bo botle, tse hlophisitsoeng ho latela lihlooho tse kang litsamaiso tsa bophelo bo botle, taolo ea tšebeliso ea koae, bakhachane, HIV/AIDS, joalo-joalo. Hape ho na le khetho ea ho sheba lintlha tse mabapi le COVID-19.
7. KHOPO-19
CORD-19 ke pokello ea lingoliloeng tsa thuto mabapi le COVID-19 le lingoliloeng tse ling tse mabapi le coronavirus e ncha. Ke pokello ea data e bulehileng e reretsoeng ho hlahisa lintlha tse ncha ka COVID-19.
Lintlha tsa moruo
Li-datasets tse amanang le tikoloho ea lichelete hangata li bokella boitsebiso bo bongata, kaha ho tloaelehile hore li bokelloe ka nako e telele. Li loketse ho theha likhakanyo tsa moruo kapa ho theha mekhoa ea matsete.
Ka li-dataset tse nepahetseng tsa lichelete, a Moetso oa ho Ithuta ka Mochini e ka khona ho bolela esale pele boitšoaro ba letlotlo le fanoeng. Ke ka lebaka leo lefapha la lichelete le etsang sohle se matleng a lona ho theha mohlala o sebetsang oa ML, kaha eng kapa eng e ka bolelang esale pele le hantle e na le monyetla oa ho hlahisa limilione tsa lidolara. Ho Ithuta ka Mechini ho se ho ntse ho bolela esale pele boitšoaro ba baahi, e leng se amang tsela eo baetsi ba melaoana ba etsang mesebetsi ea bona ka eona.
8. Letlōle la Lichelete la Machaba
Lethathamo la boitsebiso la IMF le na le mefuta e mengata ea matšoao a moruo le lichelete, lipalo-palo tsa linaha tseo e leng litho, le lintlha tse ling tsa likalimo le phapanyetsano.
9. Banka ea Lefatše
Sebaka sa polokelo ea Banka ea Lefatše se na le li-dataset tse fapaneng tse nang le litaba tsa moruo tse tsoang linaheng tse fapaneng. Ho na le li-dataset tse fetang 17,000 tse arotsoeng ke lik'honthinente.
Maikutlo a lihlahisoa le litšebeletso
Tlhahlobo ea maikutlo e fumane ts'ebeliso ea eona mafapheng a fapaneng a thusang likhoebo ho hakanya le ho ithuta ho tsoa ho bareki ba tsona kapa bareki ka nepo. Tlhahlobo ea maikutlo e ntse e sebelisoa haholo bakeng sa ho lekola mecha ea litaba ea sechaba, ho lekola mofuta, lentsoe la moreki (VoC), litšebeletso tsa bareki le lipatlisiso tsa mebaraka.
Tlhahlobo ea maikutlo e sebelisa NLP (neuro-linguistic programming) mekhoa le dikgato-tharabololo tseo ebang li theiloe melaong, tse nyalisitsoeng, kapa tse itšetlehileng ka mekhoa ea ho Ithuta ka Mochini ho ithuta lintlha ho tsoa ho li-dataset.
Lintlha tse hlokahalang tlhahlobong ea maikutlo li lokela ho ba tse khethehileng 'me li hlokehe ka bongata. Karolo e thata ka ho fetisisa mabapi le ts'ebetso ea koetliso ea tlhahlobo ea maikutlo ha e fumane data ka bongata; ho e-na le hoo, ke ho fumana li-dataset tse amehang. Lisebelisoa tsena tsa data li tlameha ho akaretsa likarolo tse ngata tsa tlhahlobo ea maikutlo le linyeoe tsa tšebeliso.
10. Litlhahlobo tsa Amazon
Lenane lena la boitsebiso le na le litlhahlobo tsa Amazon tse ka bang limilione tse 35, tse nkang nako ea lilemo tse 18 tsa boitsebiso bo bokeletsoeng. Ke pokello ea lintlha tsa sehlahisoa, basebelisi, le litaba tsa tlhahlobo.
11. Litlhahlobo tsa Yelp
Yelp e boetse e fana ka dataset e ipapisitseng le tlhaiso-leseling e bokeletsoeng ts'ebeletso ea eona. Ho na le litlhahlobo tse fetang limilione tse 8, malebela a limilione tse 1, hammoho le litšobotsi tse ka bang limilione tse 1.5 tse amanang le likhoebo, joalo ka lihora tsa ho bula le ho fumaneha.
12. Litlhahlobo tsa IMDB
Sebaka sena sa polokelo ea boitsebiso se na le sehlopha sa litlhahlobo tsa lifilimi tse fetang likete tse 25 bakeng sa koetliso le tse ling tse likete tse 25 bakeng sa liteko tse nkiloeng ka mokhoa o sa reroang leqepheng la IMDB, tse khethehileng ka litekanyetso tsa lifilimi. E boetse e fana ka data e sa ngolisoang joalo ka tlatsetso.
Li-dataset tsa mehato ea pele ho ML
13. Dataset ea boleng ba veine
Setsi sena sa data se fana ka tlhahisoleseling e amanang le veine, e khubelu le e tala, e hlahisoang leboea ho Portugal. Sepheo ke ho hlalosa boleng ba veine ho latela liteko tsa physicochemical. Ho khahlisang ho ba batlang ho itloaetsa ho theha sistimi ea ho bolela esale pele.
14. Titanic Dataset
Lethathamo lena le tlisa lintlha tse tsoang ho bapalami ba 'nete ba 887 ho tloha Titanic,' me kholomo ka 'ngoe e hlalosa hore na ba pholohile, lilemo tsa bona, sehlopha sa bapalami, bong le tefiso ea ho palama eo ba e lefileng. Lethathamo lena la boitsebiso e ne e le karolo ea phephetso e qaliloeng ke sethala sa Kaggle, seo sepheo sa sona e neng e le ho etsa mohlala o neng o ka bolela esale pele hore na ke bapalami bafe ba pholohileng ha sekepe sa Titanic se teba.
Li-platform tsa ho Fumana li-database tse ling
Haeba u batla ho fetela pele 'me u iphumanele datha tsa hau, tsela e molemohali ke ho sheba lipolokelo tse tsebahalang haholo tsa Machine Ithuta bokahohle:
Kaggle
Kaggle, mothusi oa Google LLC, ke mokhatlo oa inthaneteng oa bo-ramahlale ba data le litsebi tsa ho Ithuta ka Mechini. Kaggle e lumella basebedisi ho fumana le ho phatlalatsa li-datasets, ho hlahloba le ho etsa mehlala sebakeng sa mahlale a marang-rang a marang-rang; sebetsa le bo-rasaense ba bang ya data le Baenjiniere ba ho Ithuta ka Mechini, le ho kenya letsoho litlholisanong ho rarolla mathata a saense ea data.
Kaggle e qalile ka 2010 ka ho fana ka litlholisano tsa ho Ithuta ka Mechini mme joale e boetse e fana ka sechaba sethala sa data, setsi sa mosebetsi se thehiloeng marung bakeng sa saense ea data le thuto ea Artificial Intelligence.
Patlisiso ea dataset
Dataset Search ke enjine ea ho batla e tsoang ho Google e thusang bafuputsi ho fumana data ea inthaneteng e fumanehang mahala bakeng sa tšebeliso. Marang-rang, ho na le li-database tse limilione tse mabapi le taba efe kapa efe e u khahlang.
Haeba u batla ho reka ntjanyana, u ka fumana li-dataset tse bokellang litletlebo tsa bareki ba malinyane kapa lithuto tsa tsebo ea malinyane. Kapa haeba u rata ho thelelisa lehloeng, u ka fumana lintlha tse mabapi le lekeno la libaka tsa phomolo tsa ski kapa litekanyetso tsa likotsi le linomoro tsa ho nka karolo. Dataset Search e thathamisitse hoo e ka bang limilione tse 25 tsa li-database tsena, e u fa sebaka se le seng sa ho batla li-datasets le ho fumana lihokelo tsa moo data e leng teng.
UCI Machine Learning Repository
UCI Machine Learning Repository ke pokello ea li-database, li-domain theory, le lijenereithara tsa data tse sebelisoang ke sechaba sa Thuto ea Mochini bakeng sa tlhahlobo e matla ea li-algorithms tsa ho Ithuta Mochine. Litlaleho li entsoe e le polokelo ea litaba ea ftp ka 1987 ke David Aha le baithuti-'moho le eena ba fumaneng mangolo UC Irvine.
Ho tloha ka nako eo, e 'nile ea sebelisoa haholo ke liithuti, barupeli le bafuputsi lefats'eng lohle e le mohloli o ka sehloohong oa li-dataset tsa ML. E le sesupo sa phello ea polokelo, e 'nile ea qotsoa ka makhetlo a 1000, e leng se etsang hore e be e' ngoe ea "lipampiri" tse qotsitsoeng ka ho fetisisa tsa 100 ho saense eohle ea k'homphieutha.
Quandl
Quandl ke sethala se fang basebelisi ba sona lintlha tsa moruo, tsa lichelete le tse ling. Basebelisi ba ka khoasolla data ea mahala, ba reka data e lefuoang kapa ba rekisa data ho Quandl. E ka ba sesebelisoa se molemo bakeng sa ntlafatso ea li-algorithms tsa khoebo, mohlala.
fihlela qeto e
Ka ho hlahloba lisebelisoa tsena, o tla fumana lisebelisuoa tse ntle bakeng sa merero ea hau. Etsa bonnete ba hore u khetha dataset e loketseng litlhoko tsa hau tse khethehileng 'me u lule u hopola: ha se feela ka bongata, empa le boleng. Dataset ke motheo oa leha e le efe Morero oa ho Ithuta ka Mechini 'me ho bohlokoa ho aha holim'a lintlha tsa boleng e le ho qoba kotsi ea ho fihlela liqeto tse fosahetseng.
Leave a Reply