Syntetyske gegevensgeneraasje: soarten, techniken en mear

Table of Contents[Ferstopje][Toanje]

Wat is syntetyske gegevens?
Belang fan syntetyske gegevens
Soarten syntetyske gegevens+-
Technieken fan syntetyske gegevens generaasje+-
Syntetyske Data Providers+-
- Struktureare gegevens
- Unstrukturearre gegevens
útdagings
Konklúzje

Undersikers en gegevenswittenskippers komme faak tsjin omstannichheden wêryn't se óf net oer de feitlike gegevens beskikke óf se net kinne brûke fanwegen fertroulikens of privacy-oerwegingen.

Om dit probleem oan te pakken, wurdt syntetyske gegevensproduksje brûkt om in ferfanging te produsearjen foar echte gegevens.

De passende ferfanging fan echte gegevens is nedich foar it algoritme om goed te prestearjen, wat ek realistysk fan karakter moat wêze. Jo kinne sokke gegevens brûke foar it behâld fan privacy, testen fan systemen, of it produsearjen fan trainingsgegevens foar masine-learalgoritmen.

Litte wy syntetyske gegevensgeneraasje yn detail ûndersykje en sjen wêrom't se essensjeel binne yn 'e tiid fan AI.

Wat is syntetyske gegevens?

Syntetyske gegevens binne annotearre gegevens generearre troch kompjûtersimulaasjes as algoritmen as ferfanging foar gegevens yn 'e echte wrâld. It is in troch keunstmjittige yntelliginsje generearre replika fan werklike gegevens.

Men kin gegevenspatroanen en dimensjes brûke mei avansearre AI-algoritmen. Se kinne in ûnbeheinde hoemannichte syntetyske gegevens oanmeitsje dy't statistysk represintatyf is foar de orizjinele trainingsgegevens as se ienris binne oplaat.

D'r binne in ferskaat oan oanpakken en technologyen dy't ús kinne helpe om syntetyske gegevens te meitsjen en jo kinne brûke yn in ferskaat oan applikaasjes.

Software foar gegevensgeneraasje fereasket faak:

Metadata fan in gegevensrepository, dêr't syntetyske gegevens foar oanmakke wurde moatte.
Technyk foar it generearjen fan plausibele, mar fiktive wearden. Foarbylden omfetsje weardelisten en reguliere útdrukkingen.
Wiidweidich bewustwêzen fan alle gegevensrelaasjes, dejingen dy't ferklearre binne op it databanknivo, lykas dy kontroleare op it nivo fan tapassingskoade.

It is like needsaaklik om it model te falidearjen en de gedrachsaspekten fan echte gegevens te fergelykjen mei dy generearre troch it model.

Dizze fiktive datasets hawwe alle wearde fan it echte ding, mar gjin fan 'e gefoelige gegevens. It is as in lekkere, kaloriefrije taart. It jout de eigentlike wrâld sekuer ôf.

As resultaat kinne jo it brûke om echte gegevens te ferfangen.

Belang fan syntetyske gegevens

Syntetyske gegevens hawwe skaaimerken om te passen oan bepaalde easken of situaasjes dy't oars net beskikber wêze soene yn echte gegevens. As d'r in tekoart is oan gegevens foar testen of as privacy in topbeskôging is, komt it ta de rêding.

AI-generearre datasets binne oanpasber, feilich en maklik te bewarjen, te wikseljen en te ferwiderjen. De technyk foar gegevenssynteze is passend foar subsetting en ferbetterjen fan de orizjinele gegevens.

As gefolch is it ideaal foar gebrûk as testgegevens en AI-trainingsgegevens.

Om ML-basearre Uber te learen en Tesla selsridende auto's.
Yn 'e medyske en sûnenssoarchyndustry, om spesifike sykten en omstannichheden te beoardieljen wêrfoar echte gegevens net besteane.
Fraudedeteksje en beskerming binne krúsjaal yn 'e finansjele sektor. Troch it te brûken, kinne jo nije frauduleuze gefallen ûndersykje.
Amazon traint it taalsysteem fan Alexa mei syntetyske gegevens.
American Express brûkt syntetyske finansjele gegevens om fraudedeteksje te ferbetterjen.

Soarten syntetyske gegevens

Syntetyske gegevens wurde willekeurich makke mei de bedoeling om gefoelige priveeynformaasje te ferbergjen, wylst statistyske ynformaasje oer skaaimerken yn 'e orizjinele gegevens bewarre wurdt.

It is benammen fan trije soarten:

Folslein syntetyske gegevens
Foar in part syntetyske gegevens
Hybride syntetyske gegevens

1. Folslein syntetyske gegevens

Dizze gegevens binne folslein oanmakke en befetsje gjin orizjinele gegevens.

Typysk sil de gegevensgenerator foar dit soarte tichtensfunksjes fan funksjes identifisearje yn echte gegevens en har parameters skatte. Letter, fan foarseine tichtensfunksjes, wurde privacy-beskerme searjes willekeurich makke foar elke funksje.

As mar in pear skaaimerken fan werklike gegevens wurde keazen om dêrmei te ferfangen, wurde de beskerme searje fan dizze funksjes yn kaart brocht oan 'e oerbleaune skaaimerken fan' e echte gegevens om de beskerme en echte searjes yn deselde folchoarder te rangearjen.

Bootstrap-techniken en meardere imputaasjes binne twa tradisjonele metoaden foar it produsearjen fan folslein syntetyske gegevens.

Om't de gegevens folslein syntetysk binne en gjin echte gegevens bestean, biedt dizze strategy poerbêste privacybeskerming mei in ôfhinklikens fan 'e wierheid fan' e gegevens.

2. Foar in part syntetyske gegevens

Dizze gegevens brûke allinich syntetyske wearden om de wearden fan in pear gefoelige funksjes te ferfangen.

Yn dizze situaasje wurde echte wearden allinich feroare as d'r in substansjeel gefaar is foar eksposysje. Dizze wiziging wurdt dien om de privacy fan nij oanmakke gegevens te beskermjen.

Meardere imputaasje en model-basearre oanpak wurde brûkt om foar in part syntetyske gegevens te produsearjen. Dizze metoaden kinne ek brûkt wurde om ûntbrekkende wearden yn te foljen yn echte gegevens.

3. Hybride Synthetic Data

Hybride syntetyske gegevens omfetsje sawol aktuele as falske gegevens.

In near-record dêryn wurdt keazen foar elke willekeurige rekord fan echte gegevens, en de twa wurde dan gearfoege om hybride gegevens te generearjen. It hat de foardielen fan sawol folslein syntetyske as foar in part syntetyske gegevens.

It biedt dêrom sterk privacybehâld mei hege nut yn ferliking mei de oare twa, mar op kosten fan mear ûnthâld en ferwurkingstiid.

Technieken fan syntetyske gegevens generaasje

In protte jierren hat it konsept fan masine-makke gegevens populêr west. No is it rypjen.

Hjir binne guon fan 'e techniken brûkt om syntetyske gegevens te generearjen:

1. Basearre op ferdieling

Yn gefal gjin echte gegevens bestiet, mar de gegevens analyst hat in yngeande idee fan hoe't de dataset distribúsje soe ferskine; se kinne produsearje in willekeurige stekproef fan eltse ferdieling, ynklusyf Normaal, Eksponinsjele, Chi-kwadraat, t, lognormal, en Uniform.

De wearde fan syntetyske gegevens yn dizze metoade ferskilt ôfhinklik fan it nivo fan begryp fan 'e analyst oer in bepaalde gegevensomjouwing.

2. Real-world gegevens yn bekende distribúsje

Bedriuwen kinne it produsearje troch it identifisearjen fan de best fit distribúsjes foar opjûne echte gegevens as d'r echte gegevens binne.

Bedriuwen kinne de Monte Carlo-oanpak brûke om it te produsearjen as se echte gegevens wolle passe yn in bekende distribúsje en de distribúsjeparameters kenne.

Hoewol de Monte Carlo-oanpak bedriuwen kin helpe by it lokalisearjen fan de grutste match beskikber, kin de bêste fit net fan genôch nut wêze foar de behoeften fan it bedriuw syntetyske gegevens.

Bedriuwen kinne ûndersykje it brûken fan masine-learmodellen om te passen by distribúsjes yn dizze omstannichheden.

Masine-leartechniken, lykas beslútbeammen, kinne organisaasjes net-klassike distribúsjes modellearje, dy't multymodaal kinne wêze en mienskiplike eigenskippen fan erkende distribúsjes misse.

Bedriuwen meie syntetyske gegevens produsearje dy't oanslút op echte gegevens mei dizze distribúsje mei masine learen.

Lykwols, masine learmodellen binne gefoelich foar overfitting, wêrtroch't se net oerienkomme mei farske gegevens of takomstige waarnimmings foarsizze.

3. Djip learen

Djippe generative modellen lykas de Variational Autoencoder (VAE) en it Generative Adversarial Network (GAN) kinne syntetyske gegevens produsearje.

Variational Autoencoder

VAE is in unsupervised oanpak wêryn de encoder de orizjinele dataset komprimearret en gegevens nei de decoder stjoert.

De dekoder dan produsearret útfier dat is in fertsjintwurdiging fan de oarspronklike dataset.

It learen fan it systeem omfettet it maksimalisearjen fan de korrelaasje tusken ynfier- en útfiergegevens.

Vae

Generative Adversarial Network

It GAN-model traint it model iteratyf mei twa netwurken, de generator en de diskriminator.

De generator makket in syntetyske dataset út in set fan willekeurige sample gegevens.

Diskriminator fergeliket syntetysk oanmakke gegevens mei in echte dataset mei foarôf definieare betingsten.

Gan

Syntetyske Data Providers

Struktureare gegevens

De hjirûnder neamde platfoarms jouwe syntetyske gegevens ôflaat fan tabelgegevens.

It replikeart gegevens yn 'e echte wrâld bewarre yn tabellen en kin brûkt wurde foar gedrachs-, foarsizzende as transaksjeanalyse.

Ynstallearje AI: It is in provider fan in syntetyske data skepping systeem dat brûkt Generative Adversarial Networks en differinsjaaloperator privacy.
Betterdata: It is in leveransier fan in privacy-behâldende syntetyske gegevensoplossing foar AI, dielen fan gegevens en produktûntwikkeling.
Divepale: It is de provider fan Geminai, in systeem foar it meitsjen fan 'twilling' datasets mei deselde statistyske funksjes as de oarspronklike gegevens.

Unstrukturearre gegevens

De hjirûnder neamde platfoarms operearje mei net-strukturearre gegevens, en leverje syntetyske gegevensguod en tsjinsten foar training fan fisy en ferkenningsalgoritmen.

Datagen: It leveret 3D-simulearre trainingsgegevens foar learen en ûntwikkeling fan Visual AI.
Neurolabs: Neurolabs is in oanbieder fan in kompjûter fyzje syntetyske gegevens platfoarm.
Parallel domein: It is in oanbieder fan in syntetyske gegevensplatfoarm foar autonome systeemtraining en testen fan gebrûk.
Cognata: It is in simulaasjeleveransier foar ADAS en ûntwikkelders fan autonome auto's.
bifrost: It leveret syntetyske gegevens API's foar it meitsjen fan 3D-omjouwings.

3 2

útdagings

It hat in lange skiednis yn Artificial Intelligence, en hoewol it in protte foardielen hat, hat it ek wichtige neidielen dy't jo moatte oanpakke wylst jo wurkje mei syntetyske gegevens.

Hjir binne in pear fan harren:

In protte flaters kinne d'r wêze by it kopiearjen fan de kompleksiteit fan werklike gegevens nei syntetyske gegevens.
De malleable aard fan it liedt ta bias yn syn gedrach.
D'r kinne wat ferburgen gebreken wêze yn 'e prestaasjes fan algoritmen dy't trainearre binne mei ferienfâldige foarstellings fan syntetyske gegevens dy't koartlyn opdûkt binne by it omgean mei feitlike gegevens.
It replikearjen fan alle relevante attributen fan gegevens yn 'e echte wrâld kin yngewikkeld wurde. It is ek mooglik dat guon essensjele aspekten yn dizze operaasje oersjoen wurde kinne.

Konklúzje

De produksje fan syntetyske gegevens lûkt dúdlik de oandacht fan minsken.

Dizze metoade is miskien net in ien-maat-past-alles antwurd foar alle gegevens-generearjende gefallen.

Derneist kin de technyk yntelliginsje fereaskje fia AI / ML en yn steat wêze om yngewikkelde situaasjes yn 'e wrâld te behanneljen fan it meitsjen fan ynter-relatearre gegevens, ideaal gegevens geskikt foar in bepaald domein.

Dochs is it in ynnovative technology dy't in gat foltôget wêr't oare technologyen dy't privacy ynskeakelje tekoart falle.

Hjoed, syntetyske gegevensproduksje kin it gearwurkjen fan gegevensmaskering nedich wêze.

Yn 'e takomst kin d'r in gruttere konverginsje wêze tusken de twa, wat resulteart yn in mear wiidweidige oplossing foar it generearjen fan gegevens.

Diel jo opfettings yn 'e kommentaren!

Syntetyske gegevensgeneraasje: soarten, techniken en mear

Wat is syntetyske gegevens?

Belang fan syntetyske gegevens