Sintetinių duomenų paaiškinimas – kitas didelis dalykas AI, ML ir DL srityse

Išplėstinės analizės ir mašininio mokymosi programas skatina duomenys, tačiau akademikams gali būti sunku pasiekti šiuos duomenis dėl iššūkių, susijusių su privatumu ir verslo procedūromis.

Sintetiniai duomenys, kuriais galima dalytis ir panaudoti taip, kaip negali faktiniai duomenys, yra potenciali nauja kryptis. Tačiau ši nauja strategija neapsieina be pavojų ir trūkumų, todėl labai svarbu, kad verslas gerai apgalvotų, kur ir kaip naudoja savo išteklius.

Dabartinėje dirbtinio intelekto eroje taip pat galime teigti, kad duomenys yra nauja alyva, tačiau tik keli išrinktieji sėdi ant šliaužio. Todėl daug žmonių gamina savo kurą, kuris yra įperkamas ir efektyvus. Tai žinoma kaip sintetiniai duomenys.

Šiame įraše išsamiai apžvelgsime sintetinius duomenis – kodėl turėtumėte juos naudoti, kaip juos sukurti, kuo jie skiriasi nuo tikrųjų duomenų, kokiais naudojimo atvejais jie gali būti naudojami ir dar daugiau.

Taigi, kas yra sintetiniai duomenys?

Kai tikri duomenų rinkiniai yra netinkami kokybės, skaičiaus ar įvairovės požiūriu, sintetiniai duomenys gali būti naudojami dirbtinio intelekto modeliams mokyti vietoj tikrų istorinių duomenų.

Kai esami duomenys neatitinka verslo reikalavimų arba kelia pavojų privatumui, kai naudojami kuriant mašininis mokymasis modeliai, testavimo programinė įranga ar panašiai, sintetiniai duomenys gali būti reikšmingas įrankis įmonės AI pastangoms.

Paprasčiau tariant, sintetiniai duomenys dažnai naudojami vietoj faktinių duomenų. Tiksliau, tai duomenys, kurie buvo dirbtinai pažymėti ir pagaminti naudojant modeliavimą ar kompiuterinius algoritmus.

Sintetiniai duomenys

Sintetiniai duomenys yra informacija, kuri buvo sukurta kompiuterinės programos dirbtinai, o ne kaip faktinių įvykių rezultatas. Įmonės gali pridėti sintetinių duomenų prie savo mokymo duomenų, kad apimtų visas naudojimo ir ekstremalias situacijas, sumažintų duomenų rinkimo išlaidas arba atitiktų privatumo taisykles.

Dirbtiniai duomenys dabar yra labiau prieinami nei bet kada anksčiau, nes patobulinta apdorojimo galia ir duomenų saugojimo metodai, pvz., debesys. Sintetiniai duomenys pagerina AI sprendimų, naudingesnių visiems galutiniams vartotojams, kūrimą, ir tai neabejotinai yra geras pokytis.

Kuo svarbūs sintetiniai duomenys ir kodėl turėtumėte juos naudoti?

Mokant AI modelius, kūrėjams dažnai reikia didžiulių duomenų rinkinių su tiksliu ženklinimu. Kai mokoma naudojant įvairesnius duomenis, neuroniniai tinklai atlikti tiksliau.

Tačiau šių didžiulių duomenų rinkinių, kuriuose yra šimtai ar net milijonai elementų, rinkimas ir žymėjimas gali būti nepagrįstai daug laiko ir pinigų. Treniruočių duomenų gamybos kaina gali būti gerokai sumažinta naudojant sintetinius duomenis. Pavyzdžiui, jei sukurtas dirbtinai, treniruotės vaizdas, kuris kainuoja 5 dolerius perkant iš a duomenų ženklinimo teikėjas gali kainuoti tik 0.05 USD.

Sintetiniai duomenys gali sumažinti privatumo problemas, susijusias su potencialiai jautriais duomenimis, sukurtais realiame pasaulyje, kartu sumažinant išlaidas.

Palyginti su tikrais duomenimis, kurie negali tiksliai atspindėti viso faktų apie realų pasaulį spektro, tai gali padėti sumažinti išankstinį nusistatymą. Pateikdami neįprastus įvykius, kurie yra tikėtinos galimybės, bet gali būti sudėtinga gauti iš teisėtų duomenų, sintetiniai duomenys gali pasiūlyti didesnę įvairovę.

Sintetiniai duomenys gali puikiai tikti jūsų projektui dėl toliau išvardytų priežasčių:

1. Modelio tvirtumas

Nereikia jo įsigyti, pasiekite įvairesnius savo modelių duomenis. Naudodami sintetinius duomenis galite treniruoti savo modelį naudodami to paties žmogaus variantus su įvairiais kirpimais, veido plaukais, akiniais, galvos pozomis ir pan., taip pat odos tonu, etniniais bruožais, kaulų struktūra, strazdanomis ir kitomis savybėmis, kad sukurtumėte unikalias savybes. veidus ir jį sustiprinti.

2. Atsižvelgiama į kraštinius atvejus

Subalansuota mašininis mokymasis teikia pirmenybę duomenų rinkiniui algoritmai. Prisiminkite mūsų veido atpažinimo pavyzdį. Jų modelių tikslumas būtų pagerėjęs (ir iš tikrųjų kai kurios iš šių įmonių tai padarė), ir jie būtų sukūrę moralesnį modelį, jei būtų pateikę sintetinius tamsesnio gymio veidų duomenis, kad užpildytų duomenų spragas. Naudodamos sintetinius duomenis komandos gali apimti visus naudojimo atvejus, įskaitant kraštutinius atvejus, kai duomenų yra mažai arba jų visai nėra.

3. Juos galima gauti greičiau nei „tikrus“ duomenis

Komandos gali greitai generuoti didžiulį kiekį sintetinių duomenų. Tai ypač naudinga, kai realūs duomenys priklauso nuo atsitiktinių įvykių. Komandoms gali būti sunku gauti pakankamai realių duomenų apie sunkias kelio sąlygas rinkdamos duomenis apie savarankiškai važiuojantį automobilį, pavyzdžiui, dėl jų retumo. Siekdami pagreitinti daug pastangų reikalaujantį anotavimo procesą, duomenų mokslininkai gali sukurti algoritmus, kurie automatiškai ženklintų sintetinius duomenis, kai jie generuojami.

4. Jis apsaugo vartotojo privatumo informaciją

Priklausomai nuo verslo ir duomenų rūšies, įmonės gali turėti saugumo sunkumų tvarkydamos neskelbtinus duomenis. Pavyzdžiui, asmens sveikatos informacija (PHI) dažnai įtraukiama į sveikatos priežiūros pramonės stacionarinius duomenis ir turi būti tvarkoma itin saugiai.

Kadangi sintetiniai duomenys neapima informacijos apie tikrus žmones, privatumo problemos sumažėja. Apsvarstykite galimybę naudoti sintetinius duomenis kaip alternatyvą, jei jūsų komanda turi laikytis tam tikrų duomenų privatumo įstatymų.

Tikri duomenys vs sintetiniai duomenys

Realiame pasaulyje gaunami arba matuojami tikri duomenys. Kai kas nors naudoja išmanųjį telefoną, nešiojamąjį kompiuterį ar kompiuterį, nešioja rankinį laikrodį, pasiekia svetainę arba atlieka internetinę operaciją, tokio tipo duomenys sugeneruojami akimirksniu.

Be to, apklausos gali būti naudojamos siekiant pateikti tikrus duomenis (prisijungus ir neprisijungus). Skaitmeniniai nustatymai sukuria sintetinius duomenis. Išskyrus dalį, kuri nebuvo gauta iš realaus pasaulio įvykių, sintetiniai duomenys sukuriami taip, kad pagrindinėmis savybėmis būtų sėkmingai imituojami faktiniai duomenys.

Idėja naudoti sintetinius duomenis kaip faktinių duomenų pakaitalą yra daug žadanti, nes jie gali būti naudojami mokymo duomenis, kad mokymasis mašina modeliai reikalauja. Bet tai nėra tikras dirbtinis intelektas gali išspręsti visas problemas, kylančias realiame pasaulyje.

Naudokite atvejai

Sintetiniai duomenys yra naudingi įvairiems komerciniams tikslams, įskaitant modelių mokymą, modelio patvirtinimą ir naujų produktų testavimą. Išvardysime kelis sektorius, kurie tapo pirmaujančiu taikant mašininį mokymąsi:

1. Sveikatos

Atsižvelgiant į jo duomenų jautrumą, sveikatos priežiūros sektorius puikiai tinka naudoti sintetinius duomenis. Grupės gali naudoti sintetinius duomenis visų galimų pacientų fiziologijų registravimui, taip padedant greičiau ir tiksliau diagnozuoti ligas.

Sveikatos apsauga

„Google“ melanomos aptikimo modelis yra intriguojantis to pavyzdys, nes jis apima sintetinius duomenis apie žmones su tamsesniu odos tonu (klinikinių duomenų sritis, kuri, deja, nepakankamai atstovaujama), kad modelis galėtų veiksmingai veikti visų tipų odai.

2. Automobiliai

Simuliatorius dažnai naudoja įmonės, kuriančios savarankiškai važiuojančius automobilius, kad įvertintų našumą. Pavyzdžiui, kai oras atšiaurus, rinkti tikrus kelių duomenis gali būti rizikinga arba sudėtinga.

Savarankiškai vairuojantis automobilis

Pasikliauti tiesioginiais bandymais su tikrais automobiliais keliuose paprastai nėra gera idėja, nes yra tiesiog per daug kintamųjų, į kuriuos reikia atsižvelgti įvairiose vairavimo situacijose.

3. Duomenų perkeliamumas

Kad galėtų dalytis savo mokymo duomenimis su kitais, organizacijoms reikia patikimų ir saugių metodų. Asmenį identifikuojančios informacijos (PII) slėpimas prieš paskelbiant duomenų rinkinį yra dar viena intriguojanti sintetinių duomenų programa. Keitimasis mokslinių tyrimų duomenų rinkiniais, medicininiais duomenimis, sociologiniais duomenimis ir kitose srityse, kuriose gali būti AII, vadinama privatumą išsaugančiais sintetiniais duomenimis.

4. Saugumas

Dėl sintetinių duomenų organizacijos yra saugesnės. Vėlgi, kalbant apie mūsų veido atpažinimo pavyzdį, jums gali būti žinoma frazė „gili padirbiniai“, kuri apibūdina sukurtas nuotraukas ar vaizdo įrašus. Įmonės gali gaminti gilius padirbinius, kad išbandytų savo veido atpažinimo ir apsaugos sistemas. Sintetiniai duomenys taip pat naudojami vaizdo stebėjimui, siekiant greičiau ir pigiau apmokyti modelius.

Sintetiniai duomenys ir mašininis mokymasis

Norint sukurti tvirtą ir patikimą modelį, mašininio mokymosi algoritmams reikia apdoroti daug duomenų. Jei nėra sintetinių duomenų, sukurti tokį didelį duomenų kiekį būtų sudėtinga.

Tokiose srityse kaip kompiuterinis matymas ar vaizdo apdorojimas, kur modelių kūrimą palengvina ankstyvųjų sintetinių duomenų kūrimas, tai gali būti labai reikšminga. Nauja plėtra paveikslėlių atpažinimo srityje yra generatyvių priešpriešinių tinklų (GAN) naudojimas. Paprastai susideda iš dviejų tinklų: generatoriaus ir diskriminatoriaus.

Nors diskriminatoriaus tinklas siekia atskirti tikras nuotraukas nuo netikrų, generatoriaus tinklas sukuria sintetinius vaizdus, kurie yra daug panašesni į realaus pasaulio vaizdus.

Mašininio mokymosi atveju GAN yra neuroninių tinklų šeimos pogrupis, kuriame abu tinklai nuolat mokosi ir tobulėja pridedant naujų mazgų ir sluoksnių.

Kurdami sintetinius duomenis, turite galimybę keisti aplinką ir duomenų tipą, jei reikia, kad pagerintumėte modelio našumą. Nors sintetinių duomenų tikslumą galima lengvai pasiekti su stipriu balu, pažymėtų realaus laiko duomenų tikslumas kartais gali būti labai brangus.

Kaip galite generuoti sintetinius duomenis?

Kuriant sintetinį duomenų rinkinį naudojami šie metodai:

Remiantis statistiniu pasiskirstymu

Šiuo atveju naudojama strategija yra paimti skaičius iš paskirstymo arba pažvelgti į faktinį statistinį pasiskirstymą, kad būtų sukurti klaidingi duomenys, kurie atrodo palyginami. Tam tikromis aplinkybėmis tikrų duomenų gali visai nebūti.

Duomenų mokslininkas gali sukurti duomenų rinkinį, kuriame yra atsitiktinė bet kokio pasiskirstymo imtis, jei jis gerai suvokia statistinį faktinių duomenų pasiskirstymą. Normalusis skirstinys, eksponentinis skirstinys, chi kvadrato skirstinys, lognormalusis skirstinys ir kt. yra tik keli statistinių tikimybių skirstinių, kuriuos galima naudoti tam, pavyzdžiai.

Duomenų mokslininko patirties lygis šioje situacijoje turės didelės įtakos apmokyto modelio tikslumui.

Priklausomai nuo modelio

Ši technika sukuria modelį, kuriame atsižvelgiama į pastebėtą elgesį, prieš naudojant tą modelį atsitiktiniams duomenims generuoti. Iš esmės tai apima tikrų duomenų pritaikymą duomenims iš žinomo paskirstymo. Tada korporacijos gali naudoti Monte Karlo metodą, kad sukurtų netikrus duomenis.

Be to, paskirstymus taip pat galima įrengti naudojant mašinų mokymosi modeliai kaip sprendimų medžiai. Duomenų mokslininkai vis dėlto turi atkreipti dėmesį į prognozę, nes sprendimų medžiai dėl jų paprastumo ir gilumo išplėtimo paprastai per daug tinka.

Su giliu mokymusi

Gilus mokymasis modeliai, kuriuose naudojami variacinio automatinio kodavimo (VAE) arba generuojamojo priešpriešinio tinklo (GAN) modeliai, yra du sintetinių duomenų kūrimo būdai. Neprižiūrimi mašininio mokymosi modeliai apima VAE.

Jie sudaryti iš kodavimo įrenginių, kurie sutraukia ir sutankina pradinius duomenis, ir dekoderių, kurie kruopščiai tikrina šiuos duomenis, kad pateiktų tikrus duomenis. Pagrindinis VAE tikslas yra išlaikyti kuo identiškesnius įvesties ir išvesties duomenis. Du priešingi neuroniniai tinklai yra GAN modeliai ir priešingi tinklai.

Pirmasis tinklas, žinomas kaip generatorių tinklas, yra atsakingas už netikrų duomenų kūrimą. Diskriminatorių tinklas, antrasis tinklas, veikia lygindamas sukurtus sintetinius duomenis su faktiniais duomenimis, siekdamas nustatyti, ar duomenų rinkinys yra nesąžiningas. Diskriminatorius įspėja generatorių, kai aptinka netikrą duomenų rinkinį.

Generatorius vėliau modifikuoja šią diskriminatoriui pateiktų duomenų paketą. Todėl laikui bėgant diskriminatorius vis geriau aptinka netikrus duomenų rinkinius. Toks modelis dažnai naudojamas finansų sektoriuje sukčiavimui nustatyti, taip pat sveikatos priežiūros sektoriuje atliekant medicininį vaizdą.

Duomenų papildymas yra kitoks metodas, kurį duomenų mokslininkai naudoja norėdami gauti daugiau duomenų. Tačiau tai neturėtų būti painiojama su netikrais duomenimis. Paprasčiau tariant, duomenų papildymas yra naujų duomenų įtraukimas į jau egzistuojantį tikrą duomenų rinkinį.

Kelių nuotraukų kūrimas iš vieno vaizdo, pavyzdžiui, koreguojant orientaciją, ryškumą, padidinimą ir kt. Kartais naudojamas tikrasis duomenų rinkinys, kai lieka tik asmeninė informacija. Tai yra duomenų anonimiškumas, o tokių duomenų rinkinys taip pat neturi būti laikomas sintetiniais duomenimis.

Sintetinių duomenų iššūkiai ir apribojimai

Nors sintetiniai duomenys turi įvairių privalumų, kurie gali padėti įmonėms vykdyti duomenų mokslo veiklą, jie taip pat turi tam tikrų apribojimų:

Duomenų patikimumas: Visuotinai žinoma, kad kiekvienas mašininio mokymosi / giluminio mokymosi modelis yra toks geras, kiek jis yra pateikiamas. Sintetinių duomenų kokybė šiame kontekste yra stipriai susijusi su įvesties duomenų kokybe ir modeliu, naudojamu duomenims gaminti. Labai svarbu užtikrinti, kad šaltinio duomenyse nebūtų paklaidų, nes jie gali būti labai aiškiai atspindėti sintetiniuose duomenyse. Be to, prieš darant bet kokias prognozes, duomenų kokybė turėtų būti patvirtinta ir patikrinta.
Reikia žinių, pastangų ir laiko: Nors sintetinių duomenų kūrimas gali būti paprastesnis ir pigesnis nei autentiškų duomenų kūrimas, tam reikia tam tikrų žinių, laiko ir pastangų.
Anomalijų atkartojimas: tobula realaus pasaulio duomenų kopija neįmanoma; sintetiniai duomenys gali jį tik apytiksliai. Todėl kai kurie iškrypimai, esantys tikruose duomenyse, gali būti neaprėpti sintetiniais duomenimis. Duomenų anomalijos yra reikšmingesnės nei įprasti duomenys.
Gamybos kontrolė ir kokybės užtikrinimas: Sintetiniai duomenys skirti realaus pasaulio duomenims atkartoti. Duomenų tikrinimas rankiniu būdu tampa būtinas. Labai svarbu patikrinti duomenų tikslumą prieš įtraukiant juos į mašininio mokymosi / giluminio mokymosi modelius sudėtingiems duomenų rinkiniams, automatiškai sukuriamiems naudojant algoritmus.
Vartotojas atsiliepimai: Kadangi sintetiniai duomenys yra nauja koncepcija, ne visi bus pasirengę patikėti su jais sudarytomis prognozėmis. Tai rodo, kad norint padidinti vartotojų priimtinumą, pirmiausia reikia gilinti žinias apie sintetinių duomenų naudingumą.

Ateitis

Per pastarąjį dešimtmetį labai išaugo sintetinių duomenų naudojimas. Nors tai taupo įmonių laiką ir pinigus, tačiau nėra be trūkumų. Jame trūksta iškrypėlių, kurios natūraliai atsiranda faktiniuose duomenyse ir yra labai svarbios kai kurių modelių tikslumui.

Taip pat verta paminėti, kad sintetinių duomenų kokybė dažnai priklauso nuo įvesties duomenų, naudojamų kuriant; įvesties duomenų paklaida gali greitai išplisti į sintetinius duomenis, todėl nereikėtų pervertinti aukštos kokybės duomenų pasirinkimo kaip atskaitos taško.

Galiausiai jai reikia papildomos išvesties kontrolės, įskaitant sintetinių duomenų palyginimą su žmogaus anotuotais tikrais duomenimis, siekiant patikrinti, ar nėra neatitikimų. Nepaisant šių kliūčių, sintetiniai duomenys tebėra perspektyvi sritis.

Tai padeda mums kurti naujus AI sprendimus net tada, kai realaus pasaulio duomenys nepasiekiami. Svarbiausia, kad tai leidžia įmonėms kurti labiau įtraukiančius ir galutinių vartotojų įvairovę rodančius produktus.

Tačiau ateityje, remiantis duomenimis, sintetiniai duomenys ketina padėti duomenų mokslininkams atlikti naujas ir kūrybingas užduotis, kurias būtų sudėtinga atlikti naudojant tik realaus pasaulio duomenis.

Išvada

Tam tikrais atvejais sintetiniai duomenys gali sumažinti duomenų trūkumą arba atitinkamų duomenų trūkumą įmonėje ar organizacijoje. Taip pat išnagrinėjome, kurios strategijos gali padėti generuoti sintetinius duomenis ir kas gali iš to gauti naudos.

Taip pat kalbėjome apie kai kuriuos sunkumus, kylančius dirbant su sintetiniais duomenimis. Priimant komercinius sprendimus, pirmenybė visada bus teikiama tikriems duomenims. Tačiau realūs duomenys yra kitas geriausias pasirinkimas, kai tokie tikri neapdoroti duomenys nėra prieinami analizei.

Tačiau reikia atsiminti, kad norint gauti sintetinius duomenis, reikalingi duomenų mokslininkai, turintys tvirtą duomenų modeliavimo supratimą. Taip pat būtina nuodugniai suprasti tikrus duomenis ir juos supančią aplinką. Tai būtina siekiant užtikrinti, kad pateikti duomenys būtų kuo tikslesni.

Sintetinių duomenų paaiškinimas – kitas didelis dalykas AI, ML ir DL srityse

Taigi, kas yra sintetiniai duomenys?