Përmbajtje[Fshih][Shfaqje]
Studiuesit dhe shkencëtarët e të dhënave shpesh ndeshen me rrethana në të cilat ata ose nuk i kanë të dhënat aktuale ose nuk janë në gjendje t'i përdorin ato për shkak të konfidencialitetit ose privatësisë.
Për të adresuar këtë çështje, prodhimi i të dhënave sintetike përdoret për të prodhuar një zëvendësim për të dhënat origjinale.
Zëvendësimi i duhur i të dhënave origjinale kërkohet që algoritmi të funksionojë siç duhet, i cili gjithashtu duhet të jetë realist në karakter. Ju mund t'i përdorni të dhëna të tilla për ruajtjen e privatësisë, testimin e sistemeve ose prodhimin e të dhënave të trajnimit për algoritmet e mësimit të makinerive.
Le të shqyrtojmë në detaje gjenerimin e të dhënave sintetike dhe të shohim pse ato janë jetike në epokën e AI.
Çfarë janë të dhënat sintetike?
Të dhënat sintetike janë të dhëna me shënime të krijuara nga simulimet ose algoritmet kompjuterike si zëvendësim për të dhënat e botës reale. Është një kopje e të dhënave aktuale e krijuar nga inteligjenca artificiale.
Dikush mund të përdorë modele dhe dimensione të të dhënave duke përdorur algoritme të avancuara të AI. Ata mund të krijojnë një sasi të pakufishme të dhënash sintetike që janë statistikisht përfaqësuese të të dhënave origjinale të trajnimit pasi të jenë trajnuar.
Ka një shumëllojshmëri qasjesh dhe teknologjish që mund të na ndihmojnë të krijojmë të dhëna sintetike dhe ju mund t'i përdorni në një sërë aplikacionesh.
Softueri i gjenerimit të të dhënave shpesh kërkon:
- Meta të dhënat e një depoje të dhënash, për të cilat duhet të krijohen të dhëna sintetike.
- Teknika për gjenerimin e vlerave të besueshme, por imagjinare. Shembujt përfshijnë listat e vlerave dhe shprehjet e rregullta.
- Ndërgjegjësim gjithëpërfshirës për të gjitha marrëdhëniet e të dhënave, ato të deklaruara në nivelin e bazës së të dhënave si dhe ato të kontrolluara në nivelin e kodit të aplikacionit.
Është po aq e nevojshme të vërtetohet modeli dhe të krahasohen aspektet e sjelljes së të dhënave reale me ato të gjeneruara nga modeli.
Këto grupe të dhënash fiktive kanë të gjithë vlerën e gjësë reale, por asnjë nga të dhënat e ndjeshme. Është si një tortë e shijshme, pa kalori. Ai përshkruan me saktësi botën aktuale.
Si rezultat, mund ta përdorni për të zëvendësuar të dhënat e botës reale.
Rëndësia e të dhënave sintetike
Të dhënat sintetike kanë karakteristika për t'iu përshtatur kërkesave ose situatave të caktuara që përndryshe do të ishin të padisponueshme në të dhënat e botës reale. Kur ka pak të dhëna për testim ose kur privatësia është një konsideratë kryesore, vjen në shpëtim.
Të dhënat e krijuara nga AI janë të adaptueshme, të sigurta dhe të lehta për t'u ruajtur, shkëmbyer dhe hedhur poshtë. Teknika e sintezës së të dhënave është e përshtatshme për vendosjen dhe përmirësimin e të dhënave origjinale.
Si pasojë, është ideale për t'u përdorur si të dhëna testimi dhe të dhëna trajnimi të AI.
- Për të mësuar Uber me bazë ML dhe Automobila Tesla që drejtojnë vetë.
- Në industrinë mjekësore dhe të kujdesit shëndetësor, për të vlerësuar sëmundje dhe rrethana specifike për të cilat nuk ekzistojnë të dhëna të vërteta.
- Zbulimi dhe mbrojtja e mashtrimit janë vendimtare në sektorin financiar. Duke e përdorur atë, ju mund të hetoni raste të reja mashtruese.
- Amazon po trajnon sistemin gjuhësor të Alexa duke përdorur të dhëna sintetike.
- American Express po përdor të dhëna financiare sintetike për të përmirësuar zbulimin e mashtrimit.
Llojet e të dhënave sintetike
Të dhënat sintetike krijohen në mënyrë të rastësishme me qëllimin e fshehjes së informacionit të ndjeshëm privat duke ruajtur informacionin statistikor për karakteristikat në të dhënat origjinale.
Ai është kryesisht i tre llojeve:
- Të dhëna plotësisht sintetike
- Të dhëna pjesërisht sintetike
- Të dhëna sintetike hibride
1. Të dhëna plotësisht sintetike
Këto të dhëna janë krijuar tërësisht dhe nuk përmbajnë të dhëna origjinale.
Në mënyrë tipike, gjeneruesi i të dhënave për këtë lloj do të identifikojë funksionet e densitetit të veçorive në të dhënat reale dhe do të vlerësojë parametrat e tyre. Më vonë, nga funksionet e densitetit të parashikuar, seritë e mbrojtura nga privatësia krijohen në mënyrë të rastësishme për çdo veçori.
Nëse zgjidhen vetëm disa karakteristika të të dhënave aktuale për t'u zëvendësuar me të, seritë e mbrojtura të këtyre veçorive janë hartuar me veçoritë e mbetura të të dhënave reale për të renditur seritë e mbrojtura dhe ato reale në të njëjtin rend.
Teknikat e bootstrap dhe imputimet e shumta janë dy metoda tradicionale për prodhimin e të dhënave plotësisht sintetike.
Për shkak se të dhënat janë tërësisht sintetike dhe nuk ekzistojnë të dhëna reale, kjo strategji ofron mbrojtje të shkëlqyer të privatësisë duke u mbështetur në vërtetësinë e të dhënave.
2. Të dhëna pjesërisht sintetike
Këto të dhëna përdorin vetëm vlera sintetike për të zëvendësuar vlerat e disa veçorive të ndjeshme.
Në këtë situatë, vlerat origjinale ndryshohen vetëm nëse ekziston një rrezik thelbësor ekspozimi. Ky ndryshim është bërë për të mbrojtur privatësinë e të dhënave të sapokrijuara.
Për të prodhuar të dhëna pjesërisht sintetike përdoren qasje të shumëfishta imputimi dhe modeli. Këto metoda mund të përdoren gjithashtu për të plotësuar vlerat që mungojnë në të dhënat e botës reale.
3. Të dhëna sintetike hibride
Të dhënat sintetike hibride përfshijnë të dhëna aktuale dhe të rreme.
Një rekord gati në të zgjidhet për çdo rekord të rastësishëm të të dhënave reale dhe më pas të dyja bashkohen për të gjeneruar të dhëna hibride. Ka përfitimet e të dhënave plotësisht sintetike dhe pjesërisht sintetike.
Prandaj ofron ruajtje të fortë të privatësisë me dobi të lartë kur krahasohet me dy të tjerët, por me kosto më shumë memorie dhe kohë përpunimi.
Teknikat e gjenerimit të të dhënave sintetike
Për shumë vite, koncepti i të dhënave të krijuara nga makineri ka qenë i popullarizuar. Tani po piqet.
Këtu janë disa nga teknikat e përdorura për të gjeneruar të dhëna sintetike:
1. Në bazë të shpërndarjes
Në rast se nuk ekzistojnë të dhëna reale, por analisti i të dhënave ka një ide të plotë se si do të shfaqet shpërndarja e të dhënave; ata mund të prodhojnë një mostër të rastësishme të çdo shpërndarjeje, duke përfshirë Normal, Eksponencial, Chi-square, t, lognormal dhe Uniform.
Vlera e të dhënave sintetike në këtë metodë ndryshon në varësi të nivelit të të kuptuarit të analistit për një mjedis të caktuar të të dhënave.
2. Të dhënat e botës reale në shpërndarjen e njohur
Bizneset mund ta prodhojnë atë duke identifikuar shpërndarjet më të përshtatshme për të dhëna reale të dhëna nëse ka të dhëna reale.
Bizneset mund të përdorin qasjen Monte Carlo për ta prodhuar atë nëse dëshirojnë të vendosin të dhëna reale në një shpërndarje të njohur dhe të njohin parametrat e shpërndarjes.
Megjithëse qasja Monte Carlo mund t'i ndihmojë bizneset në gjetjen e përputhjes më të madhe të disponueshme, përshtatja më e mirë mund të mos jetë mjaft e dobishme për nevojat e të dhënave sintetike të kompanisë.
Bizneset mund të eksplorojnë përdorimin e modeleve të mësimit të makinerive për t'iu përshtatur shpërndarjeve në këto rrethana.
Teknikat e mësimit të makinerisë, të tilla si pemët e vendimeve, u mundësojnë organizatave të modelojnë shpërndarje jo klasike, të cilat mund të jenë shumë-modale dhe nuk kanë veçori të përbashkëta të shpërndarjeve të njohura.
Bizneset mund të prodhojnë të dhëna sintetike që lidhen me të dhëna origjinale duke përdorur këtë shpërndarje të pajisur me mësimin e makinerive.
Megjithatë, modele të të nxënit të makinës janë të ndjeshëm ndaj përshtatjes së tepërt, gjë që bën që ata të dështojnë të përputhen me të dhënat e reja ose të parashikojnë vëzhgimet e ardhshme.
3. Të mësuarit e thellë
Modelet gjeneruese të thella si Autoencoder Variational (VAE) dhe Generative Adversarial Network (GAN) mund të prodhojnë të dhëna sintetike.
Autoenkoder variacional
VAE është një qasje e pambikëqyrur në të cilën koduesi ngjesh grupin e të dhënave origjinale dhe dërgon të dhëna te dekoderi.
Më pas, dekoderi prodhon një dalje që është një paraqitje e të dhënave origjinale.
Mësimi i sistemit përfshin maksimizimin e korrelacionit midis të dhënave hyrëse dhe dalëse.
Rrjeti i kundërshtarëve gjenerues
Modeli GAN trajnon modelin në mënyrë të përsëritur duke përdorur dy rrjete, gjeneratorin dhe diskriminuesin.
Gjeneratori krijon një grup të dhënash sintetike nga një grup të dhënash të rastësishme të mostrës.
Diskriminuesi krahason të dhënat e krijuara në mënyrë sintetike me një grup të dhënash reale duke përdorur kushte të paracaktuara.
Ofruesit e të dhënave sintetike
Të dhënat e strukturuara
Platformat e përmendura më poshtë ofrojnë të dhëna sintetike që rrjedhin nga të dhënat tabelare.
Ai përsërit të dhënat e botës reale të mbajtura në tabela dhe mund të përdoret për analiza të sjelljes, parashikuese ose transaksionale.
- Instaloni AI: Është një ofrues i një sistemi sintetik të krijimit të të dhënave që përdor Rrjetet Gjenerative Adversarial dhe privatësinë diferenciale.
- Të dhëna më të mira: Është një ofrues i një zgjidhjeje të të dhënave sintetike që ruan privatësinë për AI, ndarjen e të dhënave dhe zhvillimin e produktit.
- Divepale: Është ofruesi i Geminai, një sistem për krijimin e grupeve të të dhënave 'binjake' me të njëjtat karakteristika statistikore si të dhënat origjinale.
Të dhëna të pastrukturuara
Platformat e përmendura më poshtë funksionojnë me të dhëna të pastrukturuara, duke ofruar mallra dhe shërbime sintetike të të dhënave për algoritme të vizionit dhe zbulimit të trajnimit.
- Gjeni i të dhënave: Ofron të dhëna trajnimi të simuluara 3D për mësimin dhe zhvillimin Visual AI.
- Neurolaboratorë: Neurolabs është një ofrues i një platforme të dhënash sintetike të vizionit kompjuterik.
- Domeni paralel: Është një ofrues i një platforme të dhënash sintetike për trajnimin e sistemit autonom dhe testimin e rasteve të përdorimit.
- Konjatë: Është një furnizues simulimi për ADAS dhe zhvilluesit e automjeteve autonome.
- Bifrost: Ofron API të të dhënave sintetike për krijimin e mjediseve 3D.
Sfidat
Ka një histori të gjatë në Inteligjenca artificiale, dhe ndonëse ka shumë përparësi, ka gjithashtu disavantazhe të rëndësishme që duhet t'i adresoni gjatë punës me të dhëna sintetike.
Këtu janë disa prej tyre:
- Mund të ketë shumë gabime gjatë kopjimit të kompleksitetit nga të dhënat aktuale në të dhënat sintetike.
- Natyra e lakueshme e tij çon në paragjykime në sjelljen e tij.
- Mund të ketë disa të meta të fshehura në performancën e algoritmeve të trajnuara duke përdorur paraqitje të thjeshtuara të të dhënave sintetike që janë shfaqur kohët e fundit gjatë trajtimit të të dhënave aktuale.
- Replikimi i të gjitha atributeve përkatëse nga të dhënat e botës reale mund të bëhet i ndërlikuar. Është gjithashtu e mundur që disa aspekte thelbësore mund të anashkalohen gjatë këtij operacioni.
Përfundim
Prodhimi i të dhënave sintetike po tërheq qartë vëmendjen e njerëzve.
Kjo metodë mund të mos jetë një përgjigje e vetme për të gjithë për të gjitha rastet e gjenerimit të të dhënave.
Përveç kësaj, teknika mund të kërkojë inteligjencë nëpërmjet AI/ML dhe të jetë në gjendje të trajtojë situata të ndërlikuara të botës reale të krijimit të të dhënave të ndërlidhura, në mënyrë ideale të dhëna të përshtatshme për një domen të caktuar.
Sidoqoftë, është një teknologji inovative që plotëson një boshllëk ku teknologjitë e tjera që mundësojnë privatësinë nuk mungojnë.
Sot, sintetike prodhimi i të dhënave mund të ketë nevojë për bashkëjetesën e maskimit të të dhënave.
Në të ardhmen, mund të ketë konvergjencë më të madhe midis të dyjave, duke rezultuar në një zgjidhje më gjithëpërfshirëse për gjenerimin e të dhënave.
Ndani pikëpamjet tuaja në komente!
Lini një Përgjigju