Fizahan-takelaka[Afeno][Aseho]
Ny tetikasa Machine Learning rehetra dia miankina amin'ny angon-drakitra tsara. Io angona lehibe io no ahafahanao mampiofana sy manamarina ny maodely ML anao. Noho izany, ny ampahany lehibe amin'ny asa amin'ny tetikasa ML dia ny fitadiavana ny angona tonga lafatra ho an'ny filanao. Na izany aza, tsy azo atao foana ny mahita safidy mifanaraka amin'ny fanirianao, satria maro ny rakitra toa mahaliana, amin'ny farany, dia tsy.
Mety ho sahiran-tsaina ny mandany fotoana amin'ny fampidinana angona tsy tambo isaina mandra-pahatonganao amin'ny andiany mety indrindra. Miaraka amin'izany ao an-tsaina dia nanangona safidy sasany toa mahaliana izahay ary afaka manampy anao hampivelatra ny tetikasa ML anao. Mariho fa ny sasany dia natao ho an'ny tena manokana fa tsy ampiasaina ara-barotra, koa jereo ireto safidy ireto ho fomba iray hahazoana traikefa amin'ny tontolon'ny ML.
Fototry ny Datasets
Alohan'ny hanononantsika ny datasets dia tokony hamaritra teny sasany isika. Ao amin'ny tetikasa Artificial Intelligence, indrindra Machine Learning, angon-drakitra be dia be ilaina, izay hampiasaina hanofanana ny algorithm. Angonina ao anaty angon-drakitra io habetsahan'ny angon-drakitra io, izay tena ilaina amin'ny fampianarana algorithm.
Miaraka amin'ity angona ity, ny algorithm dia voaofana - voasedra ihany koa - ary lasa afaka mahita lamina, mametraka fifandraisana ary mandray fanapahan-kevitra amin'ny fomba tsy miankina. Tsy misy fiofanana, Machine Learning ny algorithm dia tsy afaka manao hetsika. Noho izany, ny tsara kokoa ny angon-drakitra fanofanana, ny tsara kokoa ny modely ho tanterahina. Mba hahasoa ny tetik'asa ny angon-drakitra iray, dia tsy momba ny habetsahana izany: momba ny fanasokajiana ihany koa.
Ny tsara indrindra, ny angon-drakitra dia tokony ho marihina tsara. Eritrereto ny momba ny chatbots: zava-dehibe ny fampidirana fiteny, fa ny famakafakana syntactic amim-pitandremana dia tsy maintsy atao mba ho takatry ny algorithm noforonina rehefa mampiasa slang ny mpifanandrina. Amin'izay fotoana izay ihany no ahafahan'ny mpanampy virtoaly hanomboka ny valiny araka izay nangatahan'ny mpampiasa.
Ny angon-drakitra dia azo amboarina avy amin'ny fanadihadiana, angon-drakitra momba ny fividianana mpampiasa, ny fanombanana tavela amin'ny serivisy, ary amin'ny fomba maro hafa ahafahan'ny fanangonana fampahalalana mahasoa voalamina amin'ny tsanganana sy andalana ao anaty rakitra CSV.
Alohan'ny handehananao hikaroka ny angona tonga lafatra dia zava-dehibe ny hahafantaranao ny tanjon'ny tetikasanao, indrindra raha avy amin'ny faritra iray manokana izany, toy ny toetr'andro, ny vola, ny fahasalamana, sns. dataset.
Takelaka data MLJXNUMX
Chatbot fiofanana
Ny chatbot mahomby dia mitaky angon-drakitra fanofanana be dia be mba hamahana haingana ny fanontanian'ny mpampiasa tsy misy fitsabahan'ny olombelona. Na izany aza, ny bottleneck voalohany amin'ny fampivoarana chatbot dia ny fahazoana angon-drakitra fifanakalozan-kevitra miompana amin'ny asa tena izy mba hampiofanana ireo rafitra mifototra amin'ny Machine Learning.
Ny angona momba ny resaka dia manangona angona amin'ny endrika fanontaniana sy valiny. Tena mety amin'ny fampiofanana chatbots izay hanome valiny mandeha ho azy ho an'ny mpihaino. Raha tsy misy an'io data io, ny chatbot dia tsy hahavaha haingana ny fanontanian'ny mpampiasa na hamaly ny fanontanian'ny mpampiasa tsy mila fitsabahan'ny olombelona.
Amin'ny fampiasana ireo angona ireo dia afaka mamorona fitaovana manome valiny haingana ho an'ny mpanjifa 24/7 ny orinasa ary mora kokoa noho ny fananana ekipan'olona manao fanohanan'ny mpanjifa.
1. Dataset-valiny fanontaniana
Ity tahirin-kevitra ity dia manome andiana lahatsoratra Wikipedia, fanontaniana ary valiny novokarin'ny tanana tsirairay avy. Izy io dia angon-drakitra nangonina teo anelanelan'ny taona 2008 sy 2010 mba hampiasaina ao fikarohana akademika.
2. Data momba ny fiteny
Language Data dia angon-drakitra tantanin'ny Yahoo miaraka amin'ny fampahalalana azo avy amin'ny serivisy sasany, toy ny Yahoo! Valiny, izay miasa toy ny vondrom-piarahamonina misokatra ho an'ny mpampiasa handefa fanontaniana sy valiny.
3. WikiQA
Ahitana fanontaniana sy valiny maromaro ihany koa ny corpus WikiQA. Ny loharanon'ny fanontaniana dia Bing, raha toa kosa ny valiny dia mifandray amin'ny pejy Wikipedia izay mety hamaha ny fanontaniana voalohany.
Amin'ny fitambarany, misy fanontaniana maherin'ny 3,000 sy andian-teny 29,258 ao amin'ny angona, izay manodidina ny 1,400 no voasokajy ho valin'ny fanontaniana mifanaraka amin'izany.
Angon-drakitra momba ny governemanta
Ny angon-drakitra novokarin'ny governemanta dia mitondra angon-drakitra momba ny demografika, izay fampidirana lehibe ho an'ny tetikasa mifandraika amin'ny fahatakarana ny fironana ara-tsosialy, ny famoronana politikam-bahoaka ary ny fanatsarana ny fiarahamonina. Ity dia mety ilaina amin'ny fampielezan-kevitra ara-politika, dokam-barotra kendrena, na fanadihadiana momba ny tsena.
Matetika misy angona tsy mitonona anarana ireo angona ireo, ka na dia afaka miditra amin'ny angona manta aza ny maodely, dia tsy misy fanitsakitsahana ny fiainana manokana.
4. Data.gov
Natomboka tamin'ny 2009, Data.gov no loharanon'ny angon-drakitra any Amerika Avaratra. Mahavariana ny katalaoginy: angon-drakitra maherin'ny 218,000 izay mamela fizarana araka ny endrika, marika, karazana ary lohahevitra.
5. Portal angona misokatra EU
Ny EU Open Data Portal dia manome fidirana amin'ny angona misokatra nozarain'ireo andrim-panjakana ao amin'ny Vondrona Eoropeana. Ireo dia angona azo natao ho an'ny fampiasana ara-barotra sy tsy ara-barotra. Eo am-pelatanan'ny mpampiasa dia maherin'ny 15.5 arivo ny angona, mirakitra lohahevitra toy ny fahasalamana, angovo, tontolo iainana, kolontsaina ary fanabeazana.
Data momba ny fahasalamana
Manoloana ny krizy ara-pahasalamana tsy mitsaha-mitombo eran'izao tontolo izao, ny angon-drakitra vokarin'ny fikambanana ara-pahasalamana dia tena ilaina amin'ny famolavolana vahaolana mahomby hamonjena aina. Ireo tahirin-kevitra ireo dia afaka manampy hamantatra ireo anton-javatra mety hampidi-doza, hamantatra ny fomba fifindran'ny aretina, ary hanafaingana ny fitiliana.
Ireo tahirin-kevitra ireo dia ahitana ny firaketana ara-pahasalamana, ny demografika ny marary, ny fihanaky ny aretina, ny fampiasana fanafody, ny soatoavina ara-tsakafo, sy ny maro hafa.
6. Global Health Observatory
Ity tahirin-kevitra ity dia hetsika nataon'ny Fikambanana Iraisam-pirenena Momba ny Fahasalamana (WHO). Izy io dia manome angon-drakitra ho an'ny daholobe mifandraika amin'ny sehatra ara-pahasalamana samihafa, voalamina amin'ny lohahevitra toy ny rafitra ara-pahasalamana, ny fifehezana ny paraky, ny fiterahana, ny VIH/SIDA, sns.
7. CORD-19
CORD-19 dia vondron'ny famoahana akademika momba ny COVID-19 sy lahatsoratra hafa momba ny coronavirus vaovao. Izy io dia angona misokatra natao hamoronana vaovao momba ny COVID-19.
Data ara-toekarena
Ny angon-drakitra mifandraika amin'ny tontolo ara-bola mazàna dia manangona fampahalalana be dia be, satria mahazatra ny fanangonana azy ireo hatry ny ela. Izy ireo dia mety tsara amin'ny famoronana faminaniana ara-toekarena na fametrahana fironana amin'ny fampiasam-bola.
Miaraka amin'ny angona ara-bola mety, a Modely fianarana milina mety afaka maminavina ny fihetsiky ny fananana iray. Izany no mahatonga ny sehatra ara-bola hanao izay rehetra azony atao mba hamoronana maodely ML mahomby, satria izay rehetra afaka maminavina na dia mety tsara aza dia mety hiteraka dolara an-tapitrisany. Ny Machine Learning dia efa maminavina ny fihetsiky ny olom-pirenena, izay misy fiantraikany amin'ny fomba fanaon'ny mpanao politika ny asany.
8. Tahirim-bola iraisam-pirenena
Ny tahirin-kevitry ny IMF dia mitazona tondro ara-toekarena sy ara-bola, antontan'isa momba ny firenena mpikambana, ary angon-drakitra hafa momba ny fampindramam-bola sy ny tahan'ny fifanakalozana.
9. Banky iraisam-pirenena
Ny tahirim-bolan'ny Banky Iraisam-pirenena dia ahitana angon-drakitra samihafa miaraka amin'ny fampahalalana ara-toekarena avy amin'ny firenena samihafa. Maherin'ny 17,000 ny angona voazarazara amin'ny kaontinanta.
Hevitra momba ny vokatra sy serivisy
Ny famakafakana ny fihetseham-po dia nahita ny fampiharana azy amin'ny sehatra isan-karazany izay manampy ny orinasa amin'izao fotoana izao hanombana sy hianatra tsara amin'ny mpanjifany na ny mpanjifany. Ny famakafakana fihetseham-po dia mihamitombo hatrany amin'ny fanaraha-maso ny media sosialy, ny fanaraha-maso ny marika, ny feon'ny mpanjifa (VoC), ny serivisy mpanjifa ary ny fikarohana momba ny tsena.
Ny famakafakana fihetseham-po dia mampiasa NLP (programming neuro-linguistika) sy algorithm izay mifototra amin'ny fitsipika, hybrid, na miankina amin'ny teknikan'ny Machine Learning mba hianarana angona avy amin'ny angona.
Ny angon-drakitra ilaina amin'ny famakafakana fihetseham-po dia tokony ho manokana ary takiana amin'ny fatra betsaka. Ny ampahany sarotra indrindra amin'ny fizotran'ny fanofanana fanadihadiana momba ny fihetseham-po dia ny tsy fitadiavana angon-drakitra betsaka; fa kosa dia ny fitadiavana ny angon-drakitra mifandraika amin'izany. Ireo angon-drakitra ireo dia tsy maintsy mandrakotra faritra midadasika amin'ny fampiharana famakafakana fihetseham-po sy tranga fampiasana.
10. Amazon Review
Ity tahirin-kevitra ity dia mirakitra tsikera Amazona 35 tapitrisa eo ho eo, mandritra ny vanim-potoana 18 taona fanangonana vaovao. Izy io dia angon-drakitra momba ny vokatra, ny mpampiasa ary ny atiny famerenana.
11. Hevitra Yelp
Yelp koa dia manolotra angon-drakitra mifototra amin'ny fampahalalana voaangona avy amin'ny serivisy. Misy hevitra maherin'ny 8 tapitrisa, toro-hevitra 1 tapitrisa, miampy toetra efa ho 1.5 tapitrisa mifandraika amin'ny orinasa, toy ny ora fisokafana sy ny fisiany.
12. IMDB Reviews
Ity angon-drakitra ity dia misy andiana famerenana sarimihetsika maherin'ny 25 arivo ho an'ny fiofanana ary 25 arivo hafa ho an'ny fitsapana nalaina tsy ara-potoana avy amin'ny pejin'ny IMDB, manokana amin'ny fanombanana sarimihetsika. Izy io koa dia manolotra angona tsy misy marika ho fanampiny.
Takelaka data ML
13. Dataset momba ny kalitaon'ny divay
Ity tahirin-kevitra ity dia manome fampahalalana mifandraika amin'ny divay, mena sy maitso, vokarina any avaratr'i Portugal. Ny tanjona dia ny hamaritana ny kalitaon'ny divay mifototra amin'ny fitsapana fizika simika. Mahaliana ho an'ireo izay te hanao fanazaran-tena mamorona rafitra faminaniana.
14. Takelaka data Titanic
Ity tahirin-kevitra ity dia mitondra angona avy amin'ny mpandeha tena izy 887 avy amin'ny Titanic, miaraka amin'ny tsanganana tsirairay mamaritra raha velona izy ireo, ny taonany, ny kilasin'ny mpandeha, ny lahy sy ny vavy ary ny saram-pianaran'izy ireo. Ity tahirin-kevitra ity dia anisan'ny fanamby napetraky ny sehatra Kaggle, izay ny tanjony dia ny hamorona modely afaka maminavina hoe iza ireo mpandeha tafita velona tamin'ny faharesen'ny Titanic.
Sehatra fitadiavana angona hafa
Raha te handeha lavitra kokoa ianao ary hahita ny angonao manokana, ny fomba tsara indrindra dia ny mijery ireo tahiry malaza indrindra amin'ny Machine Learning izao rehetra izao:
Kaggle
Kaggle, sampan'ny Google LLC, dia vondrom-piarahamonina an-tserasera an'ny mpahay siansa momba ny angona sy matihanina amin'ny Machine Learning. Kaggle dia ahafahan'ny mpampiasa mahita sy mamoaka angon-drakitra, mikaroka ary mamorona modely amin'ny tontolon'ny siansa data mifototra amin'ny tranonkala; miara-miasa amin'ireo mpahay siansa momba ny data hafa ary Injeniera fianarana milina, ary mandray anjara amin'ny fifaninanana hamahana ny olan'ny siansa data.
Kaggle dia nanomboka tamin'ny 2010 tamin'ny fanolorana fifaninanana Machine Learning ary ankehitriny dia manolotra ho an'ny daholobe ihany koa sehatra data, dabilio miasa mifototra amin'ny rahona ho an'ny siansa momba ny angona sy ny fanabeazana Artificial Intelligence.
Dataset Search
Dataset Search dia motera fikarohana avy amin'ny Google izay manampy ny mpikaroka hitady angona an-tserasera izay azo ampiasaina malalaka. Manerana ny tranonkala, misy angona an-tapitrisany momba ny lohahevitra mahaliana anao.
Raha mitady hividy puppy ianao dia afaka mahita angon-drakitra manangona fitarainana momba ny mpividy puppy na fandalinana momba ny fahalalana puppy. Na raha tia manao ski ianao dia afaka mahita angon-drakitra momba ny fidiram-bolan'ny toeram-pialan-tsasatra na ny taham-paharatrana sy ny isan'ny fandraisana anjara. Ny Fikarohana Dataset dia nanindrona efa ho 25 tapitrisa amin'ireo angon-drakitra ireo, manome anao toerana tokana hikarohana ny angona sy hahitana rohy mankany amin'ny toerana misy ny angona.
UCI Machine Learning Repository
Ny UCI Machine Learning Repository dia fitambarana angon-drakitra, teoria sehatra ary mpamorona angona izay ampiasain'ny vondrom-piarahamonina Machine Learning ho an'ny famakafakana empirika momba ny algorithm Machine Learning. Noforonin'i David Aha sy ireo mpiara-mianatra nahazo diplaoma tao amin'ny UC Irvine ny arisiva ho tahiry ftp tamin'ny 1987.
Nanomboka tamin'izay fotoana izay dia nampiasain'ny mpianatra, mpanabe ary mpikaroka eran'izao tontolo izao izy io ho loharano voalohany amin'ny angona ML. Ho famantarana ny fiantraikan'ny arisiva dia voatonona in-1000 mahery izy io, ka mahatonga azy io ho iray amin'ireo “taratasy” 100 ambony indrindra amin'ny siansa informatika rehetra.
Quandl
Quandl dia sehatra iray manome ny mpampiasa azy ireo angona ara-toekarena, ara-bola ary hafa. Ny mpampiasa dia afaka misintona angona maimaim-poana, mividy angon-drakitra karama na mivarotra data amin'ny Quandl. Mety ho fitaovana ilaina amin'ny fampandrosoana ny algorithms varotra, ohatra.
Famaranana
Amin'ny fijerena ireo fitaovana ireo dia azo antoka fa hahita fidirana tsara ho an'ny tetikasanao ianao. Aza hadino ny misafidy ny angon-drakitra izay mety indrindra amin'ny filanao manokana ary tadidio foana: tsy ny habetsahana ihany no ilaina, fa ny kalitao ihany koa. Ny angon-drakitra no fototry ny tsirairay Tetikasa fianarana milina ary ilaina ny manangana angon-drakitra kalitao mba hisorohana ny mety hisian'ny fanatsoahan-kevitra diso.
Leave a Reply