Edukien aurkibidea[Ezkutatu][Erakutsi]
Analitika aurreratuak eta ikaskuntza automatikoko programak datuek bultzatzen dituzte, baina datu horietara sarbidea zaila izan daiteke akademikoentzat pribatutasun eta negozio prozedurek dituzten erronkengatik.
Datu sintetikoak, benetako datuek ezin duten moduan partekatu eta erabil daitezkeenak, jarraitu beharreko norabide berri bat da. Hala ere, estrategia berri honek ez du arriskurik edo desabantailarik gabe, beraz, funtsezkoa da enpresek arretaz aztertzea non eta nola erabiltzen dituzten baliabideak.
AIaren egungo garaian, datuak petrolio berria direla ere esan dezakegu, baina hautetsi batzuk baino ez daude gusher batean eserita. Hori dela eta, jende asko bere erregaia ekoizten ari da, merkea eta eraginkorra dena. Datu sintetikoak bezala ezagutzen da.
Argitalpen honetan, datu sintetikoak aztertuko ditugu zehatz-mehatz: zergatik erabili behar dituzun, nola ekoitzi, zerk bereizten dituen benetako datuetatik, zer erabilera-kasu balio dezakeen eta askoz gehiago.
Beraz, zer dira Datu Sintetikoak?
Benetako datu-multzoak kalitateari, kopuruari edo aniztasunari dagokionez eskasak direnean, datu sintetikoak erabil daitezke datu historiko errealen ordez AI ereduak trebatzeko.
Dauden datuek negozio-eskakizunak betetzen ez dituztenean edo pribatutasun-arriskuak dituztenean garatzeko erabiltzen direnean makina ikaskuntza ereduak, probako softwarea edo antzekoak, datu sintetikoak tresna esanguratsuak izan daitezke AI korporatiboaren ahaleginetarako.
Besterik gabe, datu sintetikoak maiz erabiltzen dira benetako datuen ordez. Zehatzago esanda, simulazioek edo algoritmo informatikoek artifizialki etiketatu eta ekoitzitako datuak dira.
Datu sintetikoak programa informatiko batek artifizialki sortu duen informazioa da, benetako gertaeren ondorioz baino. Enpresek beren prestakuntza datuei datu sintetikoak gehi diezaiekete erabilera eta ertz-egoera guztiak estaltzeko, datuak biltzearen kostua murrizteko edo pribatutasun-arauak betetzeko.
Datu artifizialak inoiz baino eskuragarriago daude orain prozesatzeko ahalmenean eta hodeian bezalako datuak biltegiratzeko metodoen hobekuntzei esker. Datu sintetikoek azken erabiltzaile guztientzat onuragarriagoak diren AI irtenbideak sortzea hobetzen dute, eta hori garapen ona da, zalantzarik gabe.
Zenbateko garrantzia dute datu sintetikoak eta zergatik erabili behar dituzu?
AI ereduak entrenatzerakoan, garatzaileek maiz behar dituzte datu multzo handiak etiketa zehatza dutenak. Datu askotarikoekin irakasten denean, neural sareak zehatzago egin.
Dena den, ehunka edo milioika elementu dituzten datu multzo masibo hauek biltzea eta etiketatzea, denbora eta dirua nahikoa izan daiteke. Prestakuntza datuak ekoizteko prezioa asko murriztu daiteke datu sintetikoak erabiliz. Adibidez, artifizialki sortuz gero, 5 dolar balio duen prestakuntza-irudia a-tik erositakoan datuak etiketatze hornitzailea baliteke 0.05 dolar baino ez izatea.
Datu sintetikoek benetako mundutik sortutako datu sentikorrekin erlazionatutako pribatutasun kezkak arindu ditzakete, eta gastuak murrizten dituzte.
Benetako datuekin alderatuta, mundu errealeko gertaeren espektro osoa zehatz-mehatz islatu ezin dutenekin alderatuta, aurreiritziak murrizten lagun dezake. Aukera sinesgarriak adierazten dituzten baina datu legitimoetatik lortzea zaila izan daitekeen ezohiko agerraldiak eskainiz, datu sintetikoek aniztasun handiagoa eskain dezakete.
Datu sintetikoak zure proiekturako egokiak izan daitezke behean zerrendatutako arrazoiengatik:
1. Ereduaren sendotasuna
Eskuratu beharrik gabe, sar zaitez zure modeloetarako datu askotarikoagoak. Datu sintetikoekin, zure eredua entrena dezakezu pertsona beraren aldaerak erabiliz, ilea moztu, aurpegiko ilea, betaurrekoak, buru-jarrerak, etab., baita azalaren tonua, ezaugarri etnikoak, hezur-egitura, pektuak eta beste ezaugarri batzuk ere bereziak sortzeko. aurpegiak eta indartu.
2. Ertz kasuak hartzen dira kontuan
Orekatua datu-multzoa ikaskuntza automatikoa hobesten du algoritmoak. Pentsa ezazu gure aurpegia ezagutzeko adibidera. Euren ereduen zehaztasuna hobetu egingo zen (eta, hain zuzen, negozio horietako batzuek horixe egin zuten), eta eredu moralago bat sortuko zuten azal iluneko aurpegien datu sintetikoak ekoitzi izan balute datuen hutsuneak betetzeko. Taldeek erabilera-kasu guztiak estal ditzakete, datuak eskasak edo ez dauden kasu ertzak barne, datu sintetikoen laguntzarekin.
3. Datu “benetako” baino azkarrago lor daiteke
Taldeek datu sintetiko ugari sortzeko gai dira azkar. Hau bereziki erabilgarria da bizitza errealeko datuak gertakari puntualen araberakoak direnean. Baliteke taldeek zaila izatea errepide egoera larriei buruzko mundu errealeko datu nahikoa lortzea, auto gidatzen duten auto baten datuak biltzen dituzten bitartean, adibidez, haien arraroa dela eta. Oharpen-prozesu neketsua bizkortzeko, datu-zientzialariek algoritmoak jar ditzakete datu sintetikoak automatikoki etiketatzeko, sortzen diren heinean.
4. Erabiltzailearen pribatutasun-informazioa bermatzen du
Enpresek segurtasun arazoak izan ditzakete datu sentikorrak kudeatzen dituzten bitartean, negozioaren eta datu motaren arabera. Osasun-informazio pertsonala (PHI), adibidez, maiz sartzen da osasun-industrian ospitaleratze-datuetan eta segurtasun handienarekin kudeatu behar da.
Datu sintetikoek benetako pertsonei buruzko informazioa jasotzen ez dutenez, pribatutasun arazoak gutxitzen dira. Demagun datu sintetikoak erabiltzea alternatiba gisa zure taldeak datuen pribatutasun-lege jakin batzuk bete behar baditu.
Datu errealak Vs Datu sintetikoak
Mundu errealean, benetako datuak lortzen edo neurtzen dira. Norbaitek telefonoa, ordenagailu eramangarria edo ordenagailua erabiltzen duenean, eskumuturreko erlojua janzten duenean, webgune batera sartzen denean edo lineako transakzio bat egiten duenean, datu mota hau berehala sortzen da.
Gainera, inkestak benetako datuak emateko erabil daitezke (linean eta lineaz kanpo). Ezarpen digitalek datu sintetikoak sortzen dituzte. Mundu errealeko gertakarietatik eratorri ez den zatia izan ezik, datu sintetikoak benetako datuak arrakastaz imitatzen dituen moduan sortzen dira oinarrizko ezaugarriei dagokienez.
Datu sintetikoak benetako datuen ordezko gisa erabiltzearen ideia oso itxaropentsua da, hornitzeko erabil baitaiteke ikaskuntza automatikoa duten prestakuntza-datuak ereduak eskatzen ditu. Baina ez da ziur hori adimen artifizialeko benetako munduan sortzen diren arazo guztiak konpondu ditzake.
Erabilera kasuak
Datu sintetikoak helburu komertzialetarako erabilgarriak dira, besteak beste, ereduen prestakuntza, ereduen baliozkotzea eta produktu berrien probak egiteko. Ikaskuntza automatikoaren aplikazioan aitzindari izan diren sektore batzuk zerrendatuko ditugu:
1. Osasuna
Bere datuen sentsibilitatea kontuan hartuta, osasun-sektorea oso egokia da datu sintetikoak erabiltzeko. Datu sintetikoak taldeek erabil ditzakete egon daitezkeen paziente mota guztien fisiologiak erregistratzeko, horrela gaixotasunen diagnostiko azkarrago eta zehatzagoa egiten laguntzeko.
Google-ren melanoma detektatzeko eredua horren ilustrazio interesgarria da, azal-tonu ilunagoa duten pertsonen datu sintetikoak barne hartzen dituelako (tamalez gutxietsita dagoen datu klinikoen eremua) ereduari larruazal mota guztietarako eraginkortasunez funtzionatzeko gaitasuna emateko.
2. automobilak
Simulagailuak maiz erabiltzen dituzte norberak gidatzen dituzten automobilak sortzen dituzten enpresek errendimendua ebaluatzeko. Eguraldi gogorra egiten duenean, adibidez, errepideko benetako datuak biltzea arriskutsua edo zaila izan daiteke.
Errepideetan benetako automobilekin egindako zuzeneko probetan fidatzea, oro har, ez da ideia ona, gidatzeko egoera desberdinetan kontuan hartzeko aldagai gehiegi baitaude.
3. Datuen eramangarritasuna
Prestakuntza-datuak besteekin partekatu ahal izateko, erakundeek metodo fidagarriak eta seguruak behar dituzte. Datu-multzoa publiko egin aurretik pertsonalki identifikatzeko informazioa (PII) ezkutatzea datu sintetikoetarako beste aplikazio interesgarri bat da. Ikerketa zientifikoko datu-multzoak, datu medikoak, datu soziologikoak eta PII eduki dezaketen beste eremu batzuk trukatzeari pribatutasuna babesteko datu sintetikoak deritzo.
4. Segurtasuna
Erakundeak seguruagoak dira datu sintetikoei esker. Gure aurpegia ezagutzeko adibideari dagokionez berriro ere, baliteke fabrikatutako argazkiak edo bideoak deskribatzen dituen "faltsu sakonak" esaldia ezagutzen duzula. Enpresek faltsutze sakonak sor ditzakete beren aurpegi-ezagutze- eta segurtasun-sistemak probatzeko. Datu sintetikoak bideo-zaintzan ere erabiltzen dira modeloak azkarrago eta kostu merkeagoan trebatzeko.
Datu sintetikoak eta ikaskuntza automatikoa
Eredu sendo eta fidagarria eraikitzeko, ikaskuntza automatikoko algoritmoek datu kopuru esanguratsua behar dute prozesatu ahal izateko. Datu sintetikorik ezean, hain datu-bolumen handia sortzea zaila izango litzateke.
Ordenagailu bidezko ikusmenaren edo irudien prozesamendua bezalako domeinuetan, non ereduen garapena lehen datu sintetikoen garapenak errazten duen, oso esanguratsua izan daiteke. Irudien aitorpenaren arloan garapen berri bat Generative Adversarial Networks (GAN) erabiltzea da. Normalean bi sarez osatuta dago: sorgailu bat eta diskriminatzaile bat.
Diskriminatzaile-sareak benetako argazkiak eta faltsuak bereiztea helburu duen bitartean, sorgailu-sareak mundu errealeko irudiekin dezente antzekoagoak diren irudi sintetikoak sortzeko funtzionatzen du.
Ikaskuntza automatikoan, GAN-ak sare neuronalen familiako azpimultzo bat dira, non bi sareek etengabe ikasten eta garatzen dituzten nodo eta geruza berriak gehituz.
Datu sintetikoak sortzean, ingurunea eta datuen mota aldatzeko aukera duzu ereduaren errendimendua hobetzeko behar den moduan. Datu sintetikoen zehaztasuna puntuazio sendo batekin erraz lor daitekeen arren, etiketatutako datuen zehaztasuna noizean behin oso garestia izan daiteke.
Nola sor ditzakezu datu sintetikoak?
Datu-bilketa sintetikoa sortzeko erabilitako planteamenduak hauek dira:
Banaketa estatistikoan oinarrituta
Kasu honetan erabiltzen den estrategia zenbakiak banaketatik ateratzea edo benetako banaketa estatistikoak aztertzea da, konparagarriak diruditen datu faltsuak sortzeko. Baliteke zenbait egoeratan benetako datuak guztiz falta izatea.
Datu-zientzialari batek edozein banaketaren ausazko lagin bat duen datu-multzo bat sor dezake, datu errealetan banaketa estatistikoa sakonki ulertzen badu. Banaketa normala, banaketa esponentziala, chi-karratuaren banaketa, lognormalaren banaketa eta gehiago hori egiteko erabil daitezkeen probabilitate-banaketa estatistikoen adibide batzuk besterik ez dira.
Datu-zientzialariak egoerarekin duen esperientzia mailak eragin handia izango du trebatutako ereduaren zehaztasunean.
Ereduaren arabera
Teknika honek behatutako portaera kontuan hartzen duen eredu bat eraikitzen du eredu hori ausazko datuak sortzeko erabili aurretik. Funtsean, datu errealak banaketa ezagun bateko datuetara egokitzea dakar. Ondoren, Monte Carlo ikuspegia erabil dezakete korporazioek datu faltsuak sortzeko.
Horrez gain, banaketak ere egokitu daitezke erabiliz ikasteko makina ereduak erabakien zuhaitzak bezala. Datu zientzialariak iragarpenari erreparatu behar dio, hala ere, erabaki-zuhaitzak normalean gainditzen baititu bere sinpletasuna eta sakonera hedatzea dela eta.
Ikaskuntza sakonarekin
Ikaskuntza sakona Variational Autoencoder (VAE) edo Generative Adversarial Network (GAN) ereduak erabiltzen dituzten ereduak datu sintetikoak sortzeko bi modu dira. Gainbegiratu gabeko ikaskuntza automatikoko ereduek VAEak dituzte.
Kodegailuz osatuta daude, jatorrizko datuak txikitu eta trinkotzen dituztenak, eta deskodetzaileek, datu horiek aztertzen dituztenak, datu errealen irudikapena emateko. Sarrera eta irteerako datuak ahalik eta berdin mantentzea da VAE baten oinarrizko helburua. Kontrako bi neurona-sare GAN ereduak eta aurkako sareak dira.
Lehenengo sarea, sorgailu sare bezala ezagutzen dena, datu faltsuak ekoizteaz arduratzen da. Diskriminatzaile-sareak, bigarren sareak, sortutako datu sintetikoak benetako datuekin alderatuz funtzionatzen du, datu-multzoa iruzurra den ala ez identifikatzeko ahaleginean. Diskriminatzaileak sorgailuari abisatzen dio datu multzo faltsu bat aurkitzen duenean.
Diskriminatzaileari emandako datu sorta hurrengo sorgailuak aldatzen du. Ondorioz, diskriminatzailea hobetzen da denborarekin datu-multzo faltsuak antzematen. Eredu mota hau maiz erabiltzen da finantza-sektorean iruzurrak detektatzeko eta baita osasun-sektorean irudi medikoetarako ere.
Datuen gehikuntza datu-zientzialariek datu gehiago ekoizteko erabiltzen duten beste metodo bat da. Ez da datu faltsuekin nahastu behar, ordea. Besterik gabe, datuen gehikuntza lehendik dagoen benetako datu multzo bati datu berriak gehitzeko ekintza da.
Irudi bakar batetik hainbat argazki sortzea, adibidez, orientazioa, distira, handitzea eta abar egokituz. Batzuetan, benetako datu-multzoa informazio pertsonala bakarrik geratzen dela erabiltzen da. Datuen anonimotasuna da hori, eta datu horien multzo bat ere ez da datu sintetikotzat hartu behar.
Datu sintetikoen erronkak eta mugak
Datu sintetikoek enpresei datu zientzietako jardueretan laguntzeko hainbat onura badituzte ere, muga batzuk ere baditu:
- Datuen fidagarritasuna: Jakina da ikaskuntza automatikoaren/ikaskuntza sakoneko eredu bakoitza elikatzen diren datuak bezain ona dela. Testuinguru honetan datu sintetikoen kalitatea oso lotuta dago sarrerako datuen kalitatearekin eta datuak sortzeko erabilitako ereduarekin. Funtsezkoa da iturriko datuetan alborapenik ez dagoela ziurtatzea, datu sintetikoetan oso argi isla baitaitezke. Gainera, edozein aurreikuspen egin aurretik, datuen kalitatea berretsi eta egiaztatu behar da.
- Ezagutza, ahalegina eta denbora eskatzen ditu: Datu sintetikoak sortzea benetako datuak sortzea baino sinpleagoa eta merkeagoa izan daitekeen arren, ezagutza, denbora eta ahalegina behar ditu.
- Anomaliak errepikatzea: Mundu errealeko datuen erreplika perfektua ez da posible; datu sintetikoak gutxi gorabehera gutxi gorabehera. Hori dela eta, datu errealetan dauden kanpotar batzuk baliteke datu sintetikoek estali ez izatea. Datuen anomaliak datu arruntak baino esanguratsuagoak dira.
- Ekoizpena kontrolatzea eta kalitatea bermatzea: Datu sintetikoak mundu errealeko datuak errepikatzeko xedea du. Datuak eskuz egiaztatzea ezinbestekoa da. Ezinbestekoa da datuen zehaztasuna egiaztatzea automatikoki algoritmoak erabiliz sortutako datu-multzo konplikatuetarako ikasketa automatiko/deep learning ereduetan sartu aurretik.
- Erabiltzaileen iritzia: Datu sintetikoak kontzeptu berri bat direnez, denak ez dira prest egongo horrekin egindako iragarpenak sinesteko. Horrek adierazten du erabiltzaileen onargarritasuna areagotzeko, lehenik eta behin beharrezkoa dela datu sintetikoen erabilgarritasunari buruzko ezagutza.
Etorkizuna
Datu sintetikoen erabilera nabarmen hazi da aurreko hamarkadan. Enpresei denbora eta dirua aurrezten dien arren, ez dago eragozpenik gabe. Ez du kanpotarrik, benetako datuetan modu naturalean gertatzen direnak eta eredu batzuetan zehaztasunerako funtsezkoak direnak.
Aipatzekoa da, halaber, datu sintetikoen kalitatea sorkuntzarako erabilitako sarrera-datuetan oinarritzen dela maiz; Sarrerako datuen alborapenak azkar heda daitezke datu sintetikoetara, eta, beraz, kalitate handiko datuak abiapuntu gisa hautatzea ez da gehiegizkoa izan behar.
Azkenik, irteera-kontrol gehiago behar du, besteak beste, datu sintetikoak gizakiek ohartarazitako datu errealekin alderatuz, desadostasunak sartzen ez direla egiaztatzeko. Oztopo horiek gorabehera, datu sintetikoak etorkizun handiko eremua izaten jarraitzen du.
Mundu errealeko datuak erabilgarri ez dauden arren, AI irtenbide berriak sortzen laguntzen digu. Esanguratsuena, enpresei aukera ematen die produktu inklusiboagoak eta azken kontsumitzaileen aniztasunaren adierazgarri diren produktuak eraikitzeko.
Datuek gidatutako etorkizunean, ordea, datu sintetikoek datu-zientzialariei laguntza eman nahi diete mundu errealeko datuekin soilik osatzea zaila izango litzatekeen zeregin berri eta sortzaileak egiten.
Ondorioa
Zenbait kasutan, datu sintetikoek negozio edo erakunde baten barruan datuen gabezia edo datu garrantzitsuen falta arin dezakete. Datu sintetikoak sortzen zein estrategiak lagun dezaketen eta hortik etekina atera dezaketen ere aztertu dugu.
Datu sintetikoak lantzeak dakartzan zailtasun batzuei buruz ere hitz egin dugu. Erabaki komertzialak hartzeko, benetako datuen alde egingo da beti. Hala ere, datu errealistak hurrengo aukera onena dira benetako datu gordinak aztertzeko eskuragarri ez daudenean.
Hala ere, gogoratu behar da datu sintetikoak ekoizteko, datuen modelizazioaren ezagutza sendoa duten datu-zientzilariak behar direla. Era berean, ezinbestekoa da datu errealak eta bere inguruak ondo ulertzea. Hori ezinbestekoa da, eskuragarri egonez gero, sortutako datuak bideragarri bezain zehatzak direla ziurtatzeko.
Utzi erantzun bat