Sisukord[Peida][Näita]
- 1 Titanic
- 2. Iiri lillede klassifikatsioon
- 3. Bostoni majahinna ennustus
- 4. Veini kvaliteedi testimine
- 5. Börsiennustus
- 6. Filmisoovitus
- 7. Laadimiskõlblikkuse ennustus
- 8. Sentiment analüüs Twitteri andmete abil
- 9. Tuleviku müügiennustus
- 10. Võltsuudiste tuvastamine
- 11. Kupongide ostuennustus
- 12. Klientide vähenemise ennustamine
- 13. Wallmarti müügiprognoos
- 14. Uberi andmete analüüs
- 15. Covid-19 analüüs
- Järeldus
Masinõpe on lihtne uuring selle kohta, kuidas õpetada arvutiprogrammi või algoritmi, et see järk-järgult täiustaks konkreetset kõrgel tasemel esitatud tööd. Piltide tuvastamine, pettuste tuvastamine, soovitussüsteemid ja muud masinõpperakendused on juba osutunud populaarseks.
ML tööd muudavad inimtöö lihtsaks ja efektiivseks, säästes aega ja tagades kvaliteetse tulemuse. Isegi Google, maailma populaarseim otsingumootor, kasutab masinõpe.
Saadaval on mitmesuguseid valikuid alates kasutaja päringu analüüsimisest ja tulemuste muutmisest tulemuste põhjal kuni trenditavate teemade ja päringuga seotud kuulutuste näitamiseni.
Tehnoloogia, mis on ühtaegu nii tajuv kui ka ennast korrigeeriv, pole kaugel tulevikus.
Üks parimaid viise alustamiseks on käed külge saada ja projekti kavandamine. Seetõttu oleme alustamiseks koostanud nimekirja 15 parimast masinõppeprojektist algajatele.
1. Titaanlik
Seda peetakse sageli üheks suurimaks ja meeldivamaks ülesandeks kõigile, kes soovivad masinõppe kohta rohkem teada saada. Titanicu väljakutse on populaarne masinõppeprojekt, mis on ka hea viis Kaggle'i andmeteaduse platvormiga tutvumiseks. Titanicu andmestik koosneb ehtsatest andmetest, mis on saadud õnnetu laeva uppumisest.
See sisaldab selliseid üksikasju nagu inimese vanus, sotsiaalmajanduslik staatus, sugu, kajuti number, väljumissadam ja mis kõige tähtsam, kas ta jäi ellu!
K-lähima naabri tehnika ja otsustuspuu klassifikaator andsid selle projekti jaoks parimad tulemused. Kui otsite kiiret nädalavahetuse väljakutset oma enese parandamiseks Masinõppe võimed, see Kaggle'i üks on teie jaoks.
2. Iiri lillede klassifikatsioon
Algajatele meeldib iirise lillede kategoriseerimise projekt ja see on suurepärane koht alustamiseks, kui olete masinõppega uustulnuk. Tupp- ja kroonlehtede pikkus eristab iirise õitsemist teistest liikidest. Selle projekti eesmärk on jagada õitsengud kolmeks liigiks: Virginia, setosa ja Versicolor.
Klassifitseerimisharjutuste jaoks kasutatakse projektis Iirise lillede andmekogumit, mis aitab õppijatel õppida arvväärtuste ja andmete käsitlemise põhialuseid. Iirise lillede andmestik on pisike, mida saab mällu salvestada ilma skaleerimiseta.
3. Bostoni majahinna ennustus
Veel üks tuntud andmestik masinõppe algajatele on Bostoni eluasemeandmed. Selle eesmärk on prognoosida kodu väärtusi erinevates Bostoni linnaosades. See sisaldab olulist statistikat, nagu vanus, kinnisvaramaksumäär, kuritegevuse tase ja isegi töökeskuste lähedus, mis kõik võivad mõjutada eluaseme hindu.
Andmekogum on lihtne ja pisike, mistõttu on algajatele lihtne katsetada. Et välja selgitada, millised tegurid mõjutavad kinnisvara hinda Bostonis, kasutatakse erinevate parameetrite puhul regressioonitehnikaid. See on suurepärane koht regressioonitehnikate harjutamiseks ja nende toimimise hindamiseks.
4. Veinide kvaliteedi testimine
Vein on ebatavaline alkohoolne jook, mis nõuab aastaid kääritamist. Tänu sellele on antiikne veinipudel kallis ja kvaliteetne vein. Ideaalse veinipudeli valimine nõuab aastatepikkuseid teadmisi veini degusteerimisest ja see võib osutuda tabamatuks.
Veinide kvaliteeditesti projektis hinnatakse veine füüsikalis-keemiliste testide abil, nagu alkoholisisaldus, fikseeritud happesus, tihedus, pH ja muud tegurid. Projektiga määratakse ka veini kvaliteedikriteeriumid ja kogused. Selle tulemusena muutub veini ostmine imelihtsaks.
5. Börsiennustus
See algatus on intrigeeriv olenemata sellest, kas töötate finantssektoris või mitte. Aktsiaturgude andmeid uurivad põhjalikult akadeemikud, ettevõtted ja isegi teisese sissetuleku allikana. Samuti on ülioluline andmeteadlase võime uurida ja uurida aegridade andmeid. Andmed aktsiaturult on suurepärane koht alustamiseks.
Ettevõtmise olemus on aktsia tulevase väärtuse prognoosimine. See põhineb praegustel turutulemustel ja varasemate aastate statistikal. Kaggle on NIFTY-50 indeksi kohta andmeid kogunud alates 2000. aastast ja seda uuendatakse praegu kord nädalas. Alates 1. jaanuarist 2000 on see sisaldanud enam kui 50 organisatsiooni aktsiahindu.
6. Filmi soovitus
Olen kindel, et pärast hea filmi vaatamist on teil selline tunne olnud. Kas olete kunagi tundnud impulssi oma meeli ärritada, vaadates sarnaseid filme?
Teame, et OTT-teenused, nagu Netflix, on oma soovitussüsteeme märkimisväärselt täiustanud. Masinõppe üliõpilasena peate mõistma, kuidas sellised algoritmid sihivad kliente nende eelistuste ja arvustuste põhjal.
Kaggle'i IMDB andmekogum on tõenäoliselt üks täielikumaid, mis võimaldab filmi pealkirja, kliendi hinnangu, žanri ja muude tegurite põhjal järeldada soovitusmudeleid. See on ka suurepärane meetod sisupõhise filtreerimise ja funktsioonide projekteerimise tundmaõppimiseks.
7. Laadimiskõlblikkuse ennustus
Maailm keerleb laenude ümber. Pankade peamine kasumiallikas on laenuintressid. Seetõttu on nad nende põhitegevus.
Üksikisikud või üksikisikute rühmad saavad majandust laiendada ainult siis, kui investeerivad raha ettevõttesse, lootes selle väärtust tulevikus tõsta. Mõnikord on oluline laenu otsida, et võtta seda laadi riske ja isegi osa saada teatud maistest naudingutest.
Enne laenu vastuvõtmist peavad pangad tavaliselt järgima üsna ranget protsessi. Kuna laenud on paljude inimeste elus ülioluline aspekt, oleks kellegi taotletava laenu saamise sobivuse ennustamine ülimalt kasulik, võimaldades paremini planeerida peale laenu vastuvõtmise või tagasilükkamise.
8. Sentiment analüüs Twitteri andmete abil
Tänu sotsiaalmeedia võrgustikud Nagu Twitter, Facebook ja Reddit, on arvamuste ja suundumuste ekstrapoleerimine muutunud märkimisväärselt lihtsaks. Seda teavet kasutatakse sündmuste, inimeste, spordi ja muude teemade kohta arvamuste kõrvaldamiseks. Arvamuste kaevandamisega seotud masinõppe algatusi rakendatakse mitmesugustes seadetes, sealhulgas poliitilistes kampaaniates ja Amazoni toodete hindamistes.
See projekt näeb teie portfellis fantastiline välja! Emotsioonide tuvastamiseks ja aspektipõhiseks analüüsiks saab laialdaselt kasutada selliseid tehnikaid nagu tugivektorimasinad, regressiooni- ja klassifitseerimisalgoritmid (faktide ja arvamuste leidmine).
9. Tuleviku müügiennustus
Suured B2C-ettevõtted ja kaupmehed tahavad teada, kui palju iga nende laos oleva toode müüb. Müügiprognoosid aitavad ettevõtete omanikel kindlaks teha, milliste kaupade järele on suur nõudlus. Täpne müügiprognoos vähendab oluliselt raiskamist, määrates samal ajal kindlaks ka täiendava mõju tulevastele eelarvetele.
Jaemüüjad, nagu Walmart, IKEA, Big Basket ja Big Bazaar, kasutavad tootenõudluse hindamiseks müügiprognoose. Selliste ML-projektide koostamiseks peate olema tuttav erinevate algandmete puhastamise tehnikatega. Samuti on vaja head arusaamist regressioonanalüüsist, eriti lihtsast lineaarsest regressioonist.
Seda tüüpi ülesannete jaoks peate kasutama selliseid teeke nagu Dora, Scrubadub, Pandas, NumPy ja teised.
10. Võltsuudiste tuvastamine
See on veel üks tipptasemel masinõppetöö, mis on suunatud koolilastele. Valeuudised levivad kulutulena, nagu me kõik teame. Sotsiaalmeedias on saadaval kõik, alates üksikisikute ühendamisest kuni päevauudiste lugemiseni.
Seetõttu on valeuudiste tuvastamine tänapäeval muutunud üha keerulisemaks. Paljudel suurtel sotsiaalmeedia võrgustikel, nagu Facebook ja Twitter, on juba algoritmid postitustes ja voogudes valeuudiste tuvastamiseks.
Valeuudiste tuvastamiseks vajavad seda tüüpi ML-projektid põhjalikku arusaamist mitmest NLP lähenemisviisist ja klassifitseerimisalgoritmidest (PassiveAggressiveClassifier või Naive Bayesi klassifikaator).
11. Kupongide ostmise ennustamine
Kliendid kaaluvad üha enam veebist ostmist, kui koroonaviirus ründas planeeti 2020. aastal. Selle tulemusena on kaubandusasutused sunnitud oma äri veebis ümber viima.
Kliendid seevastu otsivad endiselt häid pakkumisi, nagu poodides, ja jahivad üha enam ülisäästukuponge. Sellistele klientidele kupongide loomiseks on isegi veebisaite. Selle projektiga saate õppida andmete kaevandamise kohta masinõppes, tulpdiagrammide, sektordiagrammide ja histogrammide loomise kohta andmete visualiseerimiseks ning funktsioonide inseneritöö kohta.
Prognooside loomiseks võite uurida ka andmete imputeerimise lähenemisviise NA väärtuste ja muutujate koosinussarnasuse haldamiseks.
12. Kliendi vähenemise ennustus
Tarbijad on ettevõtte kõige olulisem vara ja nende hoidmine on ülioluline iga ettevõtte jaoks, mille eesmärk on suurendada tulu ja luua nendega pikaajalisi tähendusrikkaid sidemeid.
Lisaks on uue kliendi hankimise kulud viis korda suuremad kui olemasoleva ülalpidamise kulud. Klientide vähenemine/hõõrdumine on tuntud äriprobleem, mille puhul kliendid või abonendid lõpetavad äritegevuse teenuse või ettevõttega.
Ideaalis ei ole nad enam maksvad kliendid. Klient loetakse katkestatuks, kui kliendi viimasest suhtlusest ettevõttega on möödunud teatav aeg. Kliendi katkestamise tuvastamine ja kliendi hoidmiseks vajaliku teabe kiire andmine on kliendist loobumise vähendamisel üliolulised.
Meie ajud ei suuda ette näha miljonite klientide klientide käivet; siin võib masinõpe aidata.
13. Wallmarti müügiprognoos
Masinõppe üks silmapaistvamaid rakendusi on müügi prognoosimine, mis hõlmab toote müüki mõjutavate omaduste tuvastamist ja tulevase müügimahu prognoosimist.
Selles masinõppeuuringus kasutatakse Walmarti andmestikku, mis sisaldab müügiandmeid 45 asukohast. Andmekogusse kaasatakse iganädalane müük kaupluste kaupa kategooriate kaupa. Selle masinõppeprojekti eesmärk on prognoosida iga müügipunkti iga osakonna müüki, et nad saaksid teha paremaid andmepõhiseid kanalite optimeerimise ja varude planeerimise otsuseid.
Walmarti andmestikuga töötamine on keeruline, kuna see sisaldab valitud allahindlussündmusi, mis mõjutavad müüki ja millega tuleks arvestada.
14. Uberi andmete analüüs
Mis puudutab masinõppe ja süvaõppe juurutamist ja integreerimist nende rakendustesse, siis populaarne sõidujagamisteenus ei jää kaugele maha. Igal aastal töötleb see miljardeid reise, võimaldades pendeldajatel reisida igal kellaajal päeval või öösel.
Kuna sellel on nii suur kliendibaas, vajab ta erakordset klienditeenindust, et lahendada tarbijakaebused võimalikult kiiresti.
Uberil on miljonitest kogumistest koosnev andmekogum, mida ta saab kasutada klientide reiside analüüsimiseks ja kuvamiseks, et saada teavet ja parandada kliendikogemust.
15. Covid-19 analüüs
COVID-19 on täna kogu maakera pühkinud ja mitte ainult pandeemia mõttes. Samal ajal kui meditsiinieksperdid keskenduvad tõhusate vaktsineerimiste loomisele ja kogu maailma immuniseerimisele, andmeteadlased pole palju maha jäänud.
Uued juhtumid, igapäevane aktiivsete arv, surmajuhtumid ja testimiste statistika avalikustatakse. Eelmise sajandi SARS-i puhangu põhjal tehakse prognoose igapäevaselt. Selleks saate kasutada regressioonanalüüsi ja toetada vektormasinapõhiseid ennustusmudeleid.
Järeldus
Kokkuvõtteks oleme arutanud mõningaid populaarseimaid ML-projekte, mis aitavad teil masinõppe programmeerimist testida ning selle ideid ja rakendamist mõista. Masinaõppe integreerimise teadmine võib aidata teil oma erialal edasi liikuda, kuna tehnoloogia võtab võimust igas tööstusharus.
Masinõppe õppimise ajal soovitame teil oma kontseptsioone harjutada ja kõik algoritmid kirja panna. Algoritmide kirjutamine õppimise ajal on olulisem kui projekti sooritamine ja see annab teile ka eelise ainete õigel mõistmisel.
Jäta vastus