Turinys[Slėpti][Rodyti]
- 1 „Titanikas“
- 2. Airijos gėlių klasifikacija
- 3. Bostono būsto kainos prognozė
- 4. Vyno kokybės tikrinimas
- 5. Akcijų rinkos prognozavimas
- 6. Filmo rekomendacija
- 7. Apkrovos tinkamumo numatymas
- 8. Sentimentų analizė naudojant Twitter duomenis
- 9. Ateities pardavimų numatymas
- 10. Netikrų naujienų aptikimas
- 11. Kuponų pirkimo numatymas
- 12. Klientų nutrūkimo prognozavimas
- 13. Wallmart pardavimo prognozė
- 14. „Uber“ duomenų analizė
- 15. Covid-19 analizė
- Išvada
Mašinų mokymasis yra paprastas tyrimas, kaip išmokyti kompiuterio programą ar algoritmą, kad būtų palaipsniui tobulinamas tam tikras aukšto lygio darbas. Vaizdų identifikavimas, sukčiavimo aptikimas, rekomendacijų sistemos ir kitos mašininio mokymosi programos jau pasirodė esančios populiarios.
ML darbai supaprastina ir efektyvina žmogaus darbą, taupo laiką ir užtikrina kokybišką rezultatą. Naudoja net „Google“, populiariausia pasaulyje paieškos sistema mašininis mokymasis.
Nuo vartotojo užklausos analizės ir rezultato keitimo pagal rezultatus iki populiarių temų ir skelbimų rodymo, susijusių su užklausa, yra įvairių parinkčių.
Technologija, kuri yra ir suvokianti, ir save koreguojanti, nėra toli ateitis.
Vienas iš geriausių būdų pradėti yra įsigilinti ir sukurti projektą. Todėl mes sudarėme 15 geriausių mašininio mokymosi projektų, skirtų pradedantiesiems, sąrašą, kad galėtumėte pradėti.
1. titaniškas
Tai dažnai laikoma viena didžiausių ir maloniausių užduočių visiems, norintiems sužinoti daugiau apie mašininį mokymąsi. „Titaniko iššūkis“ yra populiarus mašininio mokymosi projektas, kuris taip pat yra geras būdas susipažinti su Kaggle duomenų mokslo platforma. „Titaniko“ duomenų rinkinys sudarytas iš tikrų duomenų, gautų nuskendus nelaimingam laivui.
Tai apima tokią informaciją kaip asmens amžius, socialinė ir ekonominė padėtis, lytis, kajutės numeris, išvykimo uostas ir, svarbiausia, ar jis išgyveno!
K-Arčiausio kaimyno technika ir sprendimų medžio klasifikatorius buvo pasiryžę pasiekti geriausius šio projekto rezultatus. Jei ieškote greito savaitgalio iššūkio, kad patobulintumėte savo Mašininio mokymosi gebėjimai, šis Kaggle skirtas jums.
2. Airijos gėlių klasifikacija
Pradedantiesiems patinka rainelės gėlių kategorizavimo projektas, todėl tai puiki vieta pradėti, jei mašininio mokymosi srityje dar nesate naujokas. Taurėlapių ir žiedlapių ilgis išskiria vilkdalgių žydėjimą iš kitų rūšių. Šio projekto tikslas – suskirstyti žiedus į tris rūšis: Virginia, setosa ir Versicolor.
Klasifikavimo pratimams projekte naudojamas Iris gėlių duomenų rinkinys, kuris padeda besimokantiesiems išmokti skaitinių reikšmių ir duomenų tvarkymo pagrindus. Rainelės gėlių duomenų rinkinys yra mažas, kurį galima išsaugoti atmintyje nekeičiant mastelio.
3. Bostono būsto kainų prognozė
Kitas gerai žinomas duomenų rinkinys mašininio mokymosi naujokams yra Bostono būsto duomenys. Jos tikslas – prognozuoti namų vertes įvairiuose Bostono rajonuose. Ji apima svarbią statistiką, pvz., amžių, nekilnojamojo turto mokesčio tarifą, nusikalstamumo lygį ir net artumą darbo centrams, kurie gali turėti įtakos būsto kainoms.
Duomenų rinkinys yra paprastas ir mažas, todėl pradedantiesiems lengva eksperimentuoti. Norint išsiaiškinti, kokie veiksniai turi įtakos nekilnojamojo turto kainai Bostone, regresijos metodai yra plačiai naudojami įvairiems parametrams. Tai puiki vieta praktikuoti regresijos metodus ir įvertinti, kaip jie veikia.
4. Vyno kokybės patikrinimas
Vynas yra neįprastas alkoholinis gėrimas, kurį reikia fermentuoti daugelį metų. Dėl to senovinis vyno butelis yra brangus ir aukštos kokybės vynas. Norint išsirinkti idealų vyno butelį, reikalingos ilgametės vyno degustacijos žinios, o tai gali būti nesėkmingas procesas.
Vyno kokybės tyrimo projekte vynai vertinami naudojant fizikinius ir cheminius tyrimus, tokius kaip alkoholio kiekis, fiksuotas rūgštingumas, tankis, pH ir kiti veiksniai. Projekte taip pat nustatomi vyno kokybės kriterijai ir kiekiai. Dėl to vyno pirkimas tampa paprastas.
5. Akcijų rinkos prognozė
Ši iniciatyva intriguoja, ar dirbate finansų sektoriuje, ar ne. Akcijų rinkos duomenis plačiai tiria mokslininkai, įmonės ir netgi kaip antrinių pajamų šaltinį. Duomenų mokslininko gebėjimas studijuoti ir tyrinėti laiko eilučių duomenis taip pat labai svarbus. Akcijų rinkos duomenys yra puiki vieta pradėti.
Siekimo esmė yra prognozuoti būsimą akcijų vertę. Tai pagrįsta dabartiniais rinkos rezultatais ir ankstesnių metų statistika. Kaggle renka duomenis apie NIFTY-50 indeksą nuo 2000 m. ir šiuo metu jis atnaujinamas kas savaitę. Nuo 1 m. sausio 2000 d. jame buvo daugiau nei 50 organizacijų akcijų kainos.
6. Filmo rekomendacija
Esu tikras, kad pamačius gerą filmą pajutote tokį jausmą. Ar kada nors jautėte impulsą sujaudinti savo pojūčius besaikiai žiūrint panašius filmus?
Žinome, kad OTT paslaugos, tokios kaip „Netflix“, gerokai patobulino savo rekomendacijų sistemas. Kaip mašininio mokymosi studentas, turėsite suprasti, kaip tokie algoritmai taikomi klientams, atsižvelgiant į jų pageidavimus ir atsiliepimus.
IMDB duomenų rinkinys „Kaggle“ tikriausiai yra vienas iš išsamiausių, todėl rekomendacijų modeliai gali būti daromi remiantis filmo pavadinimu, klientų įvertinimu, žanru ir kitais veiksniais. Tai taip pat puikus būdas sužinoti apie turiniu pagrįstą filtravimą ir funkcijų inžineriją.
7. Apkrovos tinkamumo numatymas
Pasaulis sukasi apie paskolas. Pagrindinis bankų pelno šaltinis yra paskolų palūkanos. Taigi jie yra jų pagrindinis verslas.
Asmenys ar asmenų grupės gali plėsti ekonomiką tik investuodami pinigus į įmonę, tikėdamiesi, kad ateityje jos vertė padidės. Kartais svarbu paieškoti paskolos, kad galėtum rizikuoti ir net mėgautis tam tikrais pasauliniais malonumais.
Prieš priimdami paskolą, bankai paprastai turi laikytis gana griežto proceso. Kadangi paskolos yra labai svarbus daugelio žmonių gyvenimo aspektas, būtų labai naudinga numatyti, ar asmuo gali gauti paskolą, dėl kurios kas nors kreipiasi, nes tai leistų geriau planuoti ne tik paskolos priėmimą ar atsisakymą.
8. Sentimentų analizė naudojant „Twitter“ duomenis
Dėka socialinės žiniasklaidos tinklai Kaip Twitter, Facebook ir Reddit, ekstrapoliuoti nuomones ir tendencijas tapo labai lengva. Ši informacija naudojama norint pašalinti nuomones įvykiais, žmonėmis, sportu ir kitomis temomis. Su nuomonių gavyba susijusios mašininio mokymosi iniciatyvos taikomos įvairiose srityse, įskaitant politines kampanijas ir „Amazon“ produktų vertinimus.
Šis projektas puikiai atrodys jūsų portfelyje! Emocijų aptikimui ir aspektais pagrįstai analizei gali būti plačiai naudojami metodai, tokie kaip paramos vektorių mašinos, regresijos ir klasifikavimo algoritmai (faktų ir nuomonių paieška).
9. Ateities pardavimo prognozė
Didelės B2C įmonės ir prekybininkai nori žinoti, kiek parduos kiekvienas jų atsargų produktas. Pardavimų prognozavimas padeda verslo savininkams nustatyti, kurios prekės turi didelę paklausą. Tikslios pardavimų prognozės žymiai sumažins švaistymą, kartu nustatant didėjantį poveikį būsimiems biudžetams.
Mažmenininkai, tokie kaip „Walmart“, IKEA, „Big Basket“ ir „Big Bazaar“, naudoja pardavimo prognozes, kad įvertintų produktų paklausą. Norėdami sukurti tokius ML projektus, turite būti susipažinę su įvairiais neapdorotų duomenų valymo būdais. Taip pat būtina gerai išmanyti regresinę analizę, ypač paprastą tiesinę regresiją.
Šioms užduotims atlikti turėsite naudoti tokias bibliotekas kaip Dora, Scrubadub, Pandas, NumPy ir kt.
10. Netikrų naujienų aptikimas
Tai dar viena pažangiausia mašininio mokymosi pastanga, skirta moksleiviams. Kaip visi žinome, netikros naujienos plinta žaibiškai. Viską galima rasti socialinėje žiniasklaidoje – nuo asmeninių ryšių iki kasdienių naujienų skaitymo.
Todėl šiais laikais aptikti melagingas naujienas darosi vis sunkiau. Daugelis didelių socialinės žiniasklaidos tinklų, tokių kaip „Facebook“ ir „Twitter“, jau turi algoritmus, leidžiančius aptikti netikras naujienas įrašuose ir kanaluose.
Norint nustatyti melagingas naujienas, tokio tipo ML projektams reikia nuodugniai išmanyti kelis NLP metodus ir klasifikavimo algoritmus (PassiveAggressiveClassifier arba Naive Bayes klasifikatorius).
11. Kuponų pirkimo numatymas
Klientai vis dažniau galvoja apie pirkimą internetu, kai 2020 m. planetą užpuolė koronavirusas. Dėl to prekybos įstaigos buvo priverstos perkelti savo verslą internetu.
Kita vertus, pirkėjai vis dar ieško puikių pasiūlymų, kaip ir parduotuvėse, ir vis dažniau medžioja itin taupančius kuponus. Yra net svetainių, skirtų kurti kuponus tokiems klientams. Naudodami šį projektą galite sužinoti apie duomenų gavybą naudojant mašininį mokymąsi, kuriant juostines diagramas, skritulines diagramas ir histogramas duomenims vizualizuoti bei funkcijų inžineriją.
Norėdami generuoti prognozes, taip pat galite pažvelgti į duomenų priskyrimo metodus, skirtus valdyti NA reikšmes ir kintamųjų kosinuso panašumą.
12. Klientų nutrūkimo prognozavimas
Vartotojai yra svarbiausias įmonės turtas, o jų išlaikymas yra gyvybiškai svarbus bet kokiam verslui, siekiančiam padidinti pajamas ir užmegzti su jais ilgalaikius prasmingus ryšius.
Be to, naujo kliento įsigijimo išlaidos yra penkis kartus didesnės nei esamo išlaikymo išlaidos. Klientų susitraukimas / nusidėvėjimas yra gerai žinoma verslo problema, kai klientai arba abonentai nustoja veikti su paslauga ar įmone.
Idealiu atveju jie nebebus mokantys klientai. Klientas laikomas apleistu, jei praėjo tam tikras laiko tarpas nuo paskutinio kliento bendravimo su įmone. Norint sumažinti klientų pasitraukimą, labai svarbu nustatyti, ar klientas atsisakys klientų, ir greitai pateikti atitinkamą informaciją, skirtą klientų išlaikymui.
Mūsų smegenys nepajėgios numatyti klientų apyvartos milijonams klientų; štai kur mašininis mokymasis gali padėti.
13. „Wallmart“ pardavimo prognozė
Viena ryškiausių mašininio mokymosi programų yra pardavimų prognozavimas, kuris apima savybių, turinčių įtakos produktų pardavimui, aptikimą ir būsimų pardavimų apimčių numatymą.
Šiame mašininio mokymosi tyrime naudojamas „Walmart“ duomenų rinkinys, kuriame yra pardavimo duomenys iš 45 vietų. Pardavimas kiekvienoje parduotuvėje pagal kategoriją kas savaitę įtraukiamas į duomenų rinkinį. Šio mašininio mokymosi projekto tikslas – numatyti kiekvieno skyriaus pardavimus kiekviename prekybos centre, kad jie galėtų priimti geresnius duomenimis pagrįstus kanalo optimizavimo ir atsargų planavimo sprendimus.
Darbas su „Walmart“ duomenų rinkiniu yra sudėtingas, nes jame yra pasirinktų sumažinimo įvykių, kurie turi įtakos pardavimui ir į juos reikėtų atsižvelgti.
14. „Uber“ duomenų analizė
Kalbant apie mašininio mokymosi ir gilaus mokymosi įdiegimą ir integravimą į jų programas, populiari pavėžėjimo paslauga neatsilieka. Kiekvienais metais jis apdoroja milijardus kelionių, todėl keleiviai gali keliauti bet kuriuo dienos ar nakties metu.
Kadangi ji turi tokią didelę klientų bazę, jai reikia išskirtinio klientų aptarnavimo, kad vartotojų skundai būtų išnagrinėti kuo greičiau.
„Uber“ turi milijonų rinkinių duomenų rinkinį, kurį jis gali naudoti analizuodamas ir rodydamas klientų keliones, kad atskleistų įžvalgas ir pagerintų klientų patirtį.
15. Covid-19 analizė
COVID-19 šiandien apėmė pasaulį ir ne tik pandemijos prasme. Kol medicinos ekspertai koncentruojasi ties veiksmingų skiepų kūrimu ir viso pasaulio imunizavimu, duomenų mokslininkai neatsilieka.
Nauji atvejai, kasdienis aktyvių asmenų skaičius, mirčių skaičius ir testavimo statistika yra viešinami. Prognozės sudaromos kasdien, remiantis praėjusio amžiaus SARS protrūkiu. Tam galite naudoti regresinę analizę ir palaikyti vektoriniais mašininiais numatymo modelius.
Išvada
Apibendrinant, aptarėme kai kuriuos populiariausius ML projektus, kurie padės išbandyti mašininio mokymosi programavimą, taip pat suvokti jo idėjas ir įgyvendinimą. Žinojimas, kaip integruoti mašininį mokymąsi, gali padėti tobulėti savo profesijoje, nes technologija perima viršų visose pramonės šakose.
Mokydamiesi mašininio mokymosi, rekomenduojame praktikuoti savo koncepcijas ir parašyti visus algoritmus. Algoritmų rašymas mokantis yra svarbesnis nei projekto vykdymas, be to, tai suteikia pranašumą tinkamai suprasti dalykus.
Palikti atsakymą